
ETL là thuật ngữ chung chung, nhưng thực ra là việc duy trì tất cả các luồng dữ liệu trên thế giới này. Công việc này sẽ trở nên nhàm chán sau một thời gian, đặc biệt là khi phải thêm, sửa các thành phần trong data pipeline chỉ do Data Engineer làm. Điều này có thể tạo ra nút nghẽn khiến quá trình làm việc trở nên chậm lại. Vì vậy, theo tôi, Data Engineer cần xây dựng các công cụ để mọi người trong công ty dễ dàng truy cập và sử dụng dữ liệu.

Xây dựng công cụ, thiết lập cơ chế kiểm soát, và mở ra cho mọi người dùng là điều quan trọng
Tùy thuộc vào công nghệ mà công ty sử dụng, bạn có thể phát triển thêm các công cụ tương ứng. Ví dụ, mình đã tạo ra một công cụ cho các nhà phân tích tự tạo bảng tổng hợp dữ liệu một cách nhanh chóng và hiệu quả hơn. Công cụ này có tính năng tự động cập nhật dữ liệu mới vào bảng và gợi ý kiểu dữ liệu của từng trường dữ liệu. Nó cũng tự động quét kho dữ liệu để ghi chú về ý nghĩa của các bảng và cột. Tất cả đều có thể truy cập qua giao diện web nội bộ của công ty.
Cần thêm kỹ năng gì cho việc xây dựng công cụ?
Kiến thức, kinh nghiệm và năng lực về dữ liệu đã có, nhưng cần phải chuyển đổi và tích hợp chúng vào một sản phẩm có ích. Điều quan trọng là hiểu người dùng sẽ sử dụng công cụ như thế nào và giải quyết những vấn đề hiện tại của công ty.Sau khi không có sự trợ giúp, chúng ta sẽ tự mình xây dựng trang web, ứng dụng hoặc bất cứ điều gì cần thiết và dễ dàng truy cập. Đôi khi chỉ cần một tệp YAML để định nghĩa nếu không có khả năng thiết kế giao diện đồ họa. Tuy nhiên, nếu có giao diện đồ họa, sẽ giúp tiết kiệm công sức và thời gian học cho những người sử dụng.
