Khai thác dữ liệu (data mining) là quá trình phân tích để tìm ra các mẫu trong các tập dữ liệu lớn, kết hợp giữa các phương pháp máy học, thống kê và hệ thống cơ sở dữ liệu. Đây là một lĩnh vực liên ngành của khoa học máy tính. Mục tiêu chính của khai thác dữ liệu là trích xuất thông tin từ một tập dữ liệu và chuyển đổi nó thành một dạng dễ hiểu để sử dụng sau này. Quá trình này không chỉ bao gồm phân tích thô mà còn liên quan đến cơ sở dữ liệu, quản lý dữ liệu, xử lý dữ liệu trước, xây dựng mô hình và suy luận thống kê, các chỉ số thú vị, cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện, hình dung và cập nhật trực tuyến. Khai thác dữ liệu là bước phân tích trong quá trình 'khám phá tri thức trong cơ sở dữ liệu' hay KDD.
Giải thích
Khai thác dữ liệu là một phần của quá trình khám phá tri thức (Knowledge Discovery Process), bao gồm:
- Định hình vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).
- Chuẩn bị dữ liệu (Data preparation), bao gồm các bước làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn lọc dữ liệu (data selection), và biến đổi dữ liệu (data transformation).
- Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả sẽ cung cấp một nguồn tri thức thô.
- Đánh giá (Evaluation): dựa trên các tiêu chí nhất định để kiểm tra và lọc nguồn tri thức thu được.
- Triển khai (Deployment).
Quá trình khai thác tri thức không phải là một chuỗi các bước tuần tự mà là một quy trình lặp đi lặp lại với khả năng quay lại các bước trước đó.
Các phương pháp khai thác dữ liệu
- Phân loại (Classification): Phương pháp dự đoán, phân loại một đối tượng vào một hoặc nhiều lớp đã xác định.
- Hồi quy (Regression): Tìm hiểu chức năng học dự đoán, ánh xạ dữ liệu thành biến dự đoán giá trị thực.
- Phân nhóm (Clustering): Nhiệm vụ mô tả nhằm xác định các cụm dữ liệu để mô tả tập dữ liệu.
- Tổng hợp (Summarization): Nhiệm vụ tìm kiếm mô tả ngắn gọn cho một tập hợp hoặc một phần của dữ liệu.
- Mô hình phụ thuộc (Dependency modeling): Xác định mô hình mô tả các phụ thuộc quan trọng giữa các biến hoặc giữa các giá trị trong tập dữ liệu.
- Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Khám phá những thay đổi quan trọng trong bộ dữ liệu.
Các vấn đề về quyền riêng tư
Vẫn còn nhiều mối quan ngại về quyền riêng tư liên quan đến khai thác dữ liệu. Ví dụ, nếu một người quản lý có quyền truy cập vào hồ sơ y tế, họ có thể loại trừ những nhân viên mắc bệnh tiểu đường hoặc bệnh tim. Việc loại bỏ những cá nhân này có thể giảm chi phí bảo hiểm, nhưng đồng thời tạo ra các vấn đề về tính hợp pháp và đạo đức.
Việc khai thác dữ liệu từ các tập dữ liệu thương mại hoặc chính phủ để phục vụ mục đích thi hành pháp luật và bảo đảm an ninh quốc gia cũng đang dấy lên mối lo ngại về quyền riêng tư ngày càng lớn.
Khai thác dữ liệu có nhiều ứng dụng hợp lý. Ví dụ, một cơ sở dữ liệu về thuốc do một nhóm người xây dựng có thể được sử dụng để tìm ra sự kết hợp của các loại thuốc gây ra các phản ứng hóa học khác nhau. Vì sự kết hợp có thể chỉ xảy ra trong một phần ngàn người, một trường hợp đơn lẻ rất khó phát hiện. Một dự án y tế như vậy có thể giúp giảm số lượng phản ứng phụ của thuốc và có thể cứu sống nhiều người. Tuy nhiên, vẫn có nguy cơ lạm dụng đối với cơ sở dữ liệu như vậy.
Khai thác dữ liệu cung cấp thông tin mà bình thường không có sẵn. Để trở nên có ý nghĩa, dữ liệu phải được chuyển đổi sang dạng khác. Khi dữ liệu liên quan đến các cá nhân, nhiều câu hỏi về quyền riêng tư, tính hợp pháp và đạo đức sẽ được đặt ra.
Các lĩnh vực ứng dụng
Các lĩnh vực hiện tại ứng dụng Khai thác dữ liệu bao gồm:
- Thiên văn học
- Tin sinh học
- Phát triển thuốc
- Thương mại điện tử
- Phát hiện gian lận
- Quảng cáo
- Marketing
- Quản lý quan hệ khách hàng
- Chăm sóc sức khỏe
- Viễn thông
- Giải trí, thể thao
- Đầu tư
- Công cụ tìm kiếm trên web
Ứng dụng nổi bật của khai thác dữ liệu
- Khai thác dữ liệu đã được sử dụng bởi đơn vị Able Danger của Quân đội Mỹ để nhận diện Mohamed Atta, kẻ đứng đầu cuộc tấn công ngày 11 tháng 9, cùng ba kẻ tấn công khác, là các thành viên nghi ngờ của al Qaeda hoạt động tại Mỹ trước một năm diễn ra cuộc tấn công.
- Xem tin tức trên Wikinews: Wikinews: U.S. Army intelligence detection of 9/11 terrorists before attack
- Xem thêm về đơn vị Able Danger.
- Trí tuệ nhân tạo
- Mạng nơ-ron nhân tạo
- Thông tin doanh nghiệp (Business intelligence)
- Quản lý hiệu suất doanh nghiệp
- Cơ sở dữ liệu
- Khai thác dữ liệu theo dòng (Data stream mining)
- Kho dữ liệu (Data warehouse)
- Cây quyết định
- Thống kê mô tả
- Khoa học khám phá
- Kho tài liệu (Document warehouse)
- Logic mờ
- Kiểm nghiệm giả thuyết
- Java Data Mining
- Phân tích phân biệt tuyến tính
- Hồi quy logistic
- Thẻ khách hàng trung thành
- Học máy
- Nhận dạng láng giềng gần nhất
- Nhận dạng mẫu
- Phân tích thành phần chính
- Phân tích hồi quy
- Khai thác dữ liệu quan hệ
- Thống kê
- Khai thác văn bản
- Hướng dẫn sử dụng mạng nơ-ron trong các ứng dụng thực tế, bao gồm phân loại ảnh khuôn mặt, người đi bộ, xe hơi, dự đoán chứng khoán và nhiều ví dụ khác
Trong tài liệu:
Chú thích 1: W. Frawley, G. Piatetsky-Shapiro và C. Matheus, Khám Phá Kiến Thức Trong Cơ Sở Dữ Liệu: Tổng Quan. Tạp chí AI, Mùa thu 1992, trang 213-228.
Chú thích 2: D. Hand, H. Mannila, P. Smyth: Nguyên Tắc Khai Thác Dữ Liệu. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X
Chú thích 3: Fred Schwed, Jr, Những Con Thuyền Của Khách Hàng Đang Ở Đâu? ISBN 0471119792 (1940).
Chú thích 4: T. Menzies, Y. Hu, Khai Thác Dữ Liệu Dành Cho Những Người Rất Bận Rộn. IEEE Computer, tháng 10 năm 2003, trang 18–25.
Chú thích 5: K. A. Taipale, Khai Thác Dữ Liệu Và An Ninh Nội Địa: Kết Nối Các Điểm Để Hiểu Dữ Liệu, Trung Tâm Nghiên Cứu Cao Cấp về Chính Sách Khoa Học và Công Nghệ. 5 Colum. Sci. & Tech. L. Rev. 2 Lưu trữ 2014-11-05 tại Wayback Machine (tháng 12 năm 2003).
Chú thích 6: Eddie Reed, Jing Jie Yu, Antony Davies và cộng sự, Các Khối U Tế Bào Trong Có Mức mRNA Cao Hơn Về ERCC1 Và XPB So Với Các Loại Ung Thư Buồng Trứng Biểu Mô Khác Lưu trữ 2005-10-29 tại Wayback Machine, Clinical Cancer Research, 2003.
- Rakesh Agrawal, Tomasz Imielinski và Arun Swami. Khai Thác Quy Tắc Kết Hợp Giữa Các Tập Dữ Liệu Trong Các Cơ Sở Dữ Liệu Lớn (1993). Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, ngày 26–28, trang 207–216.
- Rakesh Agrawal và Ramakrishnan Srikant. Các Thuật Toán Nhanh Để Khai Thác Quy Tắc Kết Hợp (1994). Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), ngày 12–15, trang 487–499.
- Jaiwei Han và Micheline Kamber, Khai Thác Dữ Liệu: Khái Niệm và Kỹ Thuật (2001), ISBN 1-55860-489-8
- Ruby Kennedy và cộng sự, Giải Quyết Vấn Đề Khai Thác Dữ Liệu Thông Qua Nhận Diện Mẫu (1998), ISBN 0-13-095083-1
- O. Maimon và M. Last, Khám Phá Kiến Thức và Khai Thác Dữ Liệu – Phương Pháp Mạng Info-Fuzzy (IFN), Kluwer Academic Publishers, Series Computing Lớn, 2000.
- Hari Mailvaganam, Tương Lai Của Khai Thác Dữ Liệu Lưu trữ 2006-01-10 tại Wayback Machine, (tháng 12 năm 2004)
- Sholom Weiss và Nitin Indurkhya, Khai Thác Dữ Liệu Dự Đoán (1998), ISBN 1-55860-403-0
- Ian Witten và Eibe Frank, Khai Thác Dữ Liệu: Công Cụ và Kỹ Thuật Học Máy Thực Tế Với Các Triển Khai Java (2000), ISBN 1-55860-552-5
- Yike Guo và Robert Grossman, biên tập, 'Khai Thác Dữ Liệu Hiệu Suất Cao: Tăng Quy Mô Thuật Toán, Ứng Dụng và Hệ Thống', Kluwer Academic Publishers, 1999.
Các liên kết bên ngoài
- Hướng Dẫn Phần Mềm Khai Thác Dữ Liệu
- Eruditionhome Lưu trữ 2006-02-12 tại Wayback Machine Trang thư mục cho các tài nguyên khai thác dữ liệu và khai thác web
- Giới thiệu hạn chế về Khai Thác Dữ Liệu (TwoCrows.com) Lưu trữ 2005-11-09 tại Wayback Machine
- thearling.com Lưu trữ 2010-03-07 tại Wayback Machine Tài liệu trắng và hướng dẫn khai thác dữ liệu toàn diện
- SQLServerDataMining.com Thông tin và demo tương tác về Khai Thác Dữ Liệu SQL Server 2005
- CRM Today - Tài liệu trắng, bài viết, thuyết trình và tài liệu học thuật về khai thác dữ liệu
- Tài liệu trắng, webcast và nghiên cứu tình huống về khai thác dữ liệu
- Khai Thác Dữ Liệu và Kho Dữ Liệu Lưu trữ 2005-11-25 tại Wayback Machine Hướng dẫn về Khai Thác Dữ Liệu
Hệ thống tổng hợp tin tức tự động
Phần mềm
- YALE là công cụ miễn phí hỗ trợ học máy và khai thác dữ liệu
- Weka Lưu trữ 2011-10-28 tại Wayback Machine Phần mềm mã nguồn mở cho khai thác dữ liệu viết bằng Java
- Parago Lưu trữ 2005-12-13 tại Wayback Machine Công cụ khai thác dữ liệu và quản lý tài sản ICT cho các trường học
- Tanagra Lưu trữ 2005-10-16 tại Wayback Machine Phần mềm thống kê và khai thác dữ liệu mã nguồn mở
Những lĩnh vực chính của khoa học máy tính |
---|
Chuyên ngành chính của Tin học |
---|