Data Warehouse là gì?
Kho dữ liệu là nơi lưu trữ điện tử an toàn thông tin bởi một doanh nghiệp hoặc tổ chức khác. Mục tiêu của kho dữ liệu là tạo ra một kho dữ liệu lịch sử có thể được truy xuất và phân tích để cung cấp thông tin hữu ích về hoạt động của tổ chức.
Kho dữ liệu là một thành phần quan trọng của thông tin kinh doanh. Thuật ngữ rộng hơn này bao gồm cơ sở hạ tầng thông tin mà các doanh nghiệp hiện đại sử dụng để theo dõi những thành công và thất bại trong quá khứ và hỗ trợ ra quyết định cho tương lai.
Những điểm chính cần nhớ
- Kho dữ liệu là nơi lưu trữ thông tin theo thời gian bởi một doanh nghiệp hoặc tổ chức khác.
- Dữ liệu mới được thêm vào định kỳ bởi những người trong các phòng ban chủ chốt như marketing và sales.
- Kho dữ liệu trở thành một thư viện dữ liệu lịch sử có thể được truy xuất và phân tích để hỗ trợ ra quyết định trong kinh doanh.
- Những yếu tố chính trong việc xây dựng một kho dữ liệu hiệu quả bao gồm định nghĩa thông tin quan trọng đối với tổ chức và xác định các nguồn thông tin.
- Một cơ sở dữ liệu được thiết kế để cung cấp thông tin thời gian thực. Một kho dữ liệu được thiết kế như một kho lưu trữ thông tin lịch sử.
Cách một Kho Dữ Liệu Hoạt Động
Nhu cầu lưu trữ dữ liệu đã tiến hóa khi các doanh nghiệp bắt đầu phụ thuộc vào hệ thống máy tính để tạo ra, lưu trữ và truy xuất các tài liệu kinh doanh quan trọng. Khái niệm kho dữ liệu được giới thiệu vào năm 1988 bởi các nhà nghiên cứu của IBM Barry Devlin và Paul Murphy.
Kho dữ liệu được thiết kế để cho phép phân tích dữ liệu lịch sử. So sánh dữ liệu được tổng hợp từ nhiều nguồn khác nhau có thể cung cấp thông tin về hiệu suất của một công ty. Một kho dữ liệu được thiết kế để cho phép người dùng chạy các truy vấn và phân tích trên dữ liệu lịch sử có nguồn gốc từ các nguồn giao dịch.
Dữ liệu được thêm vào kho dữ liệu không thay đổi và không thể sửa đổi. Kho dữ liệu là nguồn dữ liệu được sử dụng để chạy phân tích trên các sự kiện đã qua, tập trung vào các thay đổi theo thời gian. Dữ liệu trong kho phải được lưu trữ một cách an toàn, đáng tin cậy, dễ truy xuất và dễ quản lý.
Bảo trì một Kho Dữ liệu
Có những bước cụ thể được thực hiện để bảo trì một kho dữ liệu. Một trong những bước là trích xuất dữ liệu, bao gồm việc thu thập lượng lớn dữ liệu từ nhiều điểm nguồn khác nhau. Sau khi một bộ dữ liệu đã được tổng hợp, nó được xử lý thông qua việc làm sạch dữ liệu, quá trình kiểm tra lỗi và sửa chữa hoặc loại bỏ bất kỳ lỗi nào được phát hiện.
Dữ liệu đã được làm sạch sau đó được chuyển đổi từ định dạng cơ sở dữ liệu sang định dạng kho dữ liệu. Khi được lưu trữ trong kho, dữ liệu đi qua các bước sắp xếp, tổng hợp và tóm tắt, để từ đó dễ dàng sử dụng hơn. Theo thời gian, thêm dữ liệu mới được thêm vào kho dữ liệu khi các nguồn dữ liệu khác nhau được cập nhật.
Một trong những cuốn sách quan trọng về kho dữ liệu là Building the Data Warehouse của W. H. Inmon, một hướng dẫn thực tiễn được xuất bản lần đầu vào năm 1990 và đã được tái bản nhiều lần.
Ngày nay, các doanh nghiệp có thể đầu tư vào dịch vụ phần mềm kho dữ liệu dựa trên đám mây từ các công ty như Microsoft, Google, Amazon và Oracle, cùng với nhiều nhà cung cấp khác.
Khai thác Dữ liệu
Các doanh nghiệp lưu trữ dữ liệu chủ yếu để khai thác dữ liệu. Điều đó bao gồm tìm kiếm các mẫu thông tin sẽ giúp họ cải tiến quy trình kinh doanh.
Hệ thống kho dữ liệu tốt giúp cho các bộ phận khác nhau trong một công ty dễ dàng truy cập vào dữ liệu của nhau. Ví dụ, một nhóm marketing có thể đánh giá dữ liệu của nhóm bán hàng để đưa ra quyết định về cách điều chỉnh chiến dịch bán hàng của họ.
Các Bước của Quá Trình Khai thác Dữ liệu
Quá trình khai thác dữ liệu chia thành năm bước:
- Một tổ chức thu thập dữ liệu và tải nó vào kho dữ liệu.
- Dữ liệu sau đó được lưu trữ và quản lý, entweder trên máy chủ trong nhà hoặc trong dịch vụ đám mây.
- Các nhà phân tích kinh doanh, các nhóm quản lý và các chuyên gia công nghệ thông tin truy cập và tổ chức dữ liệu.
- Phần mềm ứng dụng sắp xếp dữ liệu.
- Người dùng cuối trình bày dữ liệu dưới dạng đồ thị hoặc bảng dễ chia sẻ.
Mytour / Theresa Chiechi
Khái niệm về kho dữ liệu được giới thiệu bởi hai nhà nghiên cứu của IBM vào năm 1988.
Kiến trúc Kho Dữ liệu
Thiết kế một kho dữ liệu được gọi là kiến trúc kho dữ liệu và tùy thuộc vào nhu cầu của kho dữ liệu, có thể có nhiều loại kiến trúc. Thông thường có các thiết kế kiến trúc cấp một, cấp hai và cấp ba.
Kiến trúc một tầng: Kiến trúc một tầng hiếm khi được sử dụng trong việc tạo ra kho dữ liệu cho hệ thống thời gian thực. Chúng thường được sử dụng cho xử lý dữ liệu hàng loạt và thời gian thực để xử lý dữ liệu hoạt động. Thiết kế một tầng bao gồm một lớp phần cứng duy nhất với mục tiêu giữ không gian dữ liệu ở mức tối thiểu.
Kiến trúc hai tầng: Trong thiết kế kiến trúc hai tầng, quá trình phân tích được tách biệt khỏi quá trình kinh doanh. Mục đích của điều này là để tăng cường mức độ kiểm soát và hiệu quả.
Kiến trúc ba tầng: Thiết kế kiến trúc ba tầng có ba tầng là tầng nguồn, tầng điều hòa và tầng kho dữ liệu. Thiết kế này phù hợp cho các hệ thống có vòng đời dài. Khi có thay đổi trong dữ liệu, một lớp phân tích và xem xét dữ liệu bổ sung được thực hiện để đảm bảo không có lỗi xảy ra.
Bất kể tầng nào, tất cả các kiến trúc kho dữ liệu phải đáp ứng năm thuộc tính chung: phân tách, khả năng mở rộng, tính mở rộng, bảo mật và khả năng quản trị.
Kho dữ liệu so với Cơ sở dữ liệu
Một kho dữ liệu không giống như một cơ sở dữ liệu:
- Một cơ sở dữ liệu là một hệ thống giao dịch theo dõi và cập nhật dữ liệu thời gian thực để chỉ có sẵn dữ liệu mới nhất.
- Một kho dữ liệu được lập trình để tổng hợp dữ liệu có cấu trúc theo thời gian.
Ví dụ, một cơ sở dữ liệu có thể chỉ có địa chỉ mới nhất của khách hàng, trong khi một kho dữ liệu có thể có tất cả các địa chỉ của khách hàng trong vòng 10 năm qua.
Khai thác dữ liệu dựa trên kho dữ liệu. Dữ liệu trong kho được lọc để tìm thông tin chi tiết về doanh nghiệp theo thời gian.
Kho dữ liệu so với Hồ dữ liệu
Cả kho dữ liệu và hồ dữ liệu đều chứa dữ liệu cho nhiều mục đích khác nhau. Sự khác biệt chính là hồ dữ liệu chứa dữ liệu nguyên bản mà mục đích chưa được xác định. Ngược lại, kho dữ liệu chứa dữ liệu đã được tinh lọc để sử dụng cho một mục đích cụ thể.
Hồ dữ liệu chủ yếu được sử dụng bởi các nhà khoa học dữ liệu trong khi kho dữ liệu thường được sử dụng bởi các chuyên gia kinh doanh. Hồ dữ liệu cũng dễ dàng truy cập hơn và dễ cập nhật hơn trong khi kho dữ liệu có cấu trúc hơn và bất kỳ thay đổi nào cũng tốn kém hơn.
Kho dữ liệu so với Đánh giá dữ liệu
Một đánh giá dữ liệu chỉ là một phiên bản nhỏ hơn của kho dữ liệu. Một đánh giá dữ liệu thu thập dữ liệu từ một số ít nguồn và tập trung vào một lĩnh vực chủ đề. Đánh giá dữ liệu nhanh hơn và dễ sử dụng hơn so với kho dữ liệu.
Data marts thường hoạt động như một phần của kho dữ liệu để tập trung vào một lĩnh vực cho mục đích phân tích, như một phòng ban cụ thể trong một tổ chức. Data marts được sử dụng để hỗ trợ việc ra quyết định kinh doanh bằng cách phân tích và báo cáo.
Ưu và nhược điểm của kho dữ liệu
Một kho dữ liệu được dự kiến sẽ mang lại lợi thế cạnh tranh cho công ty. Nó tạo ra một nguồn thông tin liên quan có thể được theo dõi theo thời gian và phân tích để giúp doanh nghiệp ra quyết định có nhiều thông tin hơn.
Nó cũng có thể làm hao tổn nguồn lực của công ty và gánh nặng nhân viên hiện tại của nó với các nhiệm vụ định kỳ nhằm cung cấp cho máy kho dữ liệu. Một số nhược điểm khác bao gồm:
- Việc tạo và duy trì kho dữ liệu mất nhiều thời gian và nỗ lực đáng kể.
Kho dữ liệu là gì và nó được sử dụng như thế nào?
Ví dụ về kho dữ liệu là gì?
Các giai đoạn trong việc tạo ra một kho dữ liệu là gì?
- Xác định các mục tiêu kinh doanh và các chỉ số hiệu suất chính.
- Thu thập và phân tích thông tin phù hợp.
- Phát hiện các quy trình kinh doanh cốt lõi đóng góp dữ liệu chính.
- Xây dựng một mô hình dữ liệu khái niệm cho thấy cách dữ liệu được hiển thị cho người dùng cuối.
- Xác định các nguồn dữ liệu và thiết lập quy trình cung cấp dữ liệu vào kho dữ liệu.
- Thiết lập một thời gian theo dõi. Kho dữ liệu có thể trở nên phức tạp. Nhiều kho được xây dựng với các cấp độ lưu trữ lâu dài, để thông tin cũ được lưu giữ ít chi tiết hơn.
- Thực hiện kế hoạch.
SQL là một kho dữ liệu?
Một cơ sở dữ liệu không giống như một kho dữ liệu, mặc dù cả hai đều là nơi lưu trữ thông tin. Một cơ sở dữ liệu là một bộ sưu tập thông tin được tổ chức. Một kho dữ liệu là một kho lưu trữ thông tin được xây dựng liên tục từ nhiều nguồn khác nhau.
ETL trong một kho dữ liệu là gì?
Tóm lại
Kho dữ liệu là kho thông tin của công ty về kinh doanh và hiệu suất hoạt động của nó qua thời gian. Được tạo ra với đầu vào từ nhân viên trong mỗi bộ phận chính của công ty, nó là nguồn phân tích để phát hiện ra thành công và thất bại trong quá khứ của công ty và hỗ trợ quyết định.