ETL là gì?

Khi lượng dữ liệu, nguồn dữ liệu và loại dữ liệu tại các tổ chức, doanh nghiệp tăng lên, tầm quan trọng của việc sử dụng dữ liệu đó trong việc phân tích, khoa học dữ liệu và học máy để có được thông tin chi tiết về kinh doanh cũng tăng lên. Sự cần thiết phải ưu tiên các sáng kiến này gây áp lực ngày càng tăng cho các nhóm kỹ thuật dữ liệu vì xử lý dữ liệu thô, lộn xộn thành dữ liệu sạch, mới, đáng tin cậy là một bước quan trọng trước khi các sáng kiến này có thể được theo đuổi. ETL, viết tắt của Extract, Transform và Load ( trích xuất, chuyển đổi và tải ), là quy trình mà các kỹ sư dữ liệu sử dụng để trích xuất dữ liệu từ các nguồn khác nhau, chuyển đổi dữ liệu thành một tài nguyên có thể sử dụng và đáng tin cậy và tải dữ liệu đó vào các hệ thống mà người dùng cuối có thể truy cập và sử dụng hạ nguồn để giải quyết các vấn đề kinh doanh.

ETL hoạt động như thế nào?

Extract (Trích xuất)

Bước đầu tiên của quá trình này là trích xuất dữ liệu từ các nguồn mục tiêu thường không đồng nhất như hệ thống kinh doanh, API, dữ liệu từ các cảm biến, công cụ tiếp thị và cơ sở dữ liệu giao dịch và các nguồn khác. Như bạn có thể thấy, một số loại dữ liệu này có khả năng là đầu ra có cấu trúc của các hệ thống được sử dụng rộng rãi, trong khi những loại khác là log máy chủ JSON bán cấu trúc. Có nhiều cách khác nhau để thực hiện khai thác: Ba phương pháp khai thác dữ liệu:

  1. Trích xuất một phần – Cách dễ nhất để có được dữ liệu là nếu hệ thống nguồn thông báo cho bạn khi bản ghi đã được thay đổi
  2. Khai thác một phần (với thông báo cập nhật) – Không phải tất cả các hệ thống đều có thể cung cấp thông báo trong trường hợp cập nhật đã diễn ra; tuy nhiên, họ có thể chỉ ra những phần đã được thay đổi và cung cấp trích xuất các phần đó.
  3. Trích xuất đầy đủ – Có một số hệ thống nhất định không thể xác định dữ liệu nào đã được thay đổi. Trong trường hợp này, trích xuất đầy đủ là khả năng duy nhất để trích xuất dữ liệu ra khỏi hệ thống. Phương pháp này yêu cầu phải có một bản sao của chiết xuất cuối cùng ở cùng định dạng để bạn có thể xác định các thay đổi đã được thực hiện.

Transform (Chuyển đổi)

Bước thứ hai bao gồm chuyển đổi dữ liệu thô đã được trích xuất từ các nguồn thành một định dạng có thể được sử dụng bởi các ứng dụng khác nhau. Trong giai đoạn này, dữ liệu được làm sạch, lập bản đồ và chuyển đổi, thường là một lược đồ cụ thể, vì vậy nó đáp ứng nhu cầu hoạt động. Quá trình này đòi hỏi một số loại chuyển đổi đảm bảo chất lượng và tính toàn vẹn của dữ liệu Dữ liệu thường không được tải trực tiếp vào nguồn dữ liệu mục tiêu, mà thay vào đó, thông thường sẽ tải nó vào cơ sở dữ liệu dàn dựng. Bước này đảm bảo một cuộn nhanh trở lại trong trường hợp một cái gì đó không đi như kế hoạch. Trong giai đoạn này, bạn có khả năng tạo báo cáo kiểm toán để tuân thủ quy định hoặc chẩn đoán và sửa chữa bất kỳ vấn đề dữ liệu nào.

Load

Cuối cùng, chức năng tải là quá trình viết dữ liệu được chuyển đổi từ khu vực staging sang cơ sở dữ liệu mục tiêu, có thể có hoặc không có thể tồn tại trước đây. Tùy thuộc vào yêu cầu của ứng dụng, quá trình này có thể khá đơn giản hoặc phức tạp. Mỗi bước này có thể được thực hiện với các công cụ ETL hoặc code tùy chỉnh.

ETL Pipeline là gì?

ETL Pipeline (hoặc data pipeline) là cơ chế mà các quá trình ETL xảy ra. Data pipeline là một tập hợp các công cụ và hoạt động để di chuyển dữ liệu từ một hệ thống với phương pháp lưu trữ và xử lý dữ liệu sang một hệ thống khác, trong đó nó có thể được lưu trữ và quản lý khác nhau. Hơn nữa, các pipeline cho phép tự động nhận thông tin từ nhiều nguồn khác nhau, sau đó chuyển đổi và củng cố nó trong một lưu trữ dữ liệu hiệu suất cao.

Thách thức với ETL

Mặc dù ETL là điều cần thiết, nhưng với sự gia tăng theo cấp số nhân về nguồn và loại dữ liệu này, việc xây dựng và duy trì các data pipeline đáng tin cậy đã trở thành một trong những phần khó khăn hơn của kỹ thuật dữ liệu. Ngay từ đầu, việc xây dựng các pipeline đảm bảo độ tin cậy dữ liệu là chậm và khó khăn. Data pipeline được xây dựng với code phức tạp và khả năng tái sử dụng hạn chế. Một pipeline được xây dựng trong một môi trường không thể được sử dụng trong môi trường khác, ngay cả khi code cơ bản rất giống nhau, có nghĩa là các kỹ sư dữ liệu thường là nút cổ chai và được giao nhiệm vụ phát minh lại bánh xe mỗi lần. Ngoài phát triển pipeline, việc quản lý chất lượng dữ liệu trong các kiến trúc pipeline ngày càng phức tạp là khó khăn. Dữ liệu xấu thường được phép chảy qua pipeline mà không bị phát hiện, làm mất giá trị toàn bộ tập dữ liệu. Để duy trì chất lượng và đảm bảo thông tin chi tiết đáng tin cậy, các kỹ sư dữ liệu được yêu cầu viết code tùy chỉnh để thực hiện kiểm tra và xác nhận chất lượng ở mọi bước của pipeline. Cuối cùng, khi các pipeline phát triển về quy mô và độ phức tạp, các công ty phải đối mặt với việc tăng tải hoạt động quản lý chúng khiến độ tin cậy dữ liệu trở nên vô cùng khó duy trì. Cơ sở hạ tầng xử lý dữ liệu phải được thiết lập, mở rộng quy mô, khởi động lại, vá lỗi và cập nhật – điều này có nghĩa là tăng thời gian và chi phí. Lỗi pipeline rất khó xác định và thậm chí khó giải quyết hơn – do thiếu khả năng hiển thị và dụng cụ. Bất kể tất cả những thách thức này, ETL đáng tin cậy là một quá trình hoàn toàn quan trọng đối với bất kỳ doanh nghiệp nào hy vọng sẽ được định hướng bởi những hiểu biết sâu sắc. Nếu không có các công cụ ETL duy trì tiêu chuẩn về độ tin cậy dữ liệu, các nhóm trong toàn doanh nghiệp được yêu cầu mù quáng đưa ra quyết định mà không có số liệu hoặc báo cáo đáng tin cậy. Để tiếp tục mở rộng quy mô, các kỹ sư dữ liệu cần các công cụ để hợp lý hóa và dân chủ hóa ETL, làm cho vòng đời ETL dễ dàng hơn và cho phép các nhóm dữ liệu xây dựng và tận dụng các data pipeline của riêng họ để có được thông tin chi tiết nhanh hơn.

Tự động hóa ETL đáng tin cậy trên Delta Lake

Delta Live Tables (DLT) giúp dễ dàng xây dựng và quản lý các data pipeline đáng tin cậy cung cấp dữ liệu chất lượng cao trên Delta Lake. DLT giúp các nhóm kỹ thuật dữ liệu đơn giản hóa việc phát triển và quản lý ETL với phát triển pipeline, thử nghiệm tự động và khả năng hiển thị sâu để theo dõi và phục hồi lại.

0 0 votes
Article Rating
Tagged:
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments