Trong lĩnh vực tìm kiếm thông tin, tf-idf, TF*IDF, hay TFIDF, viết tắt của cụm từ tiếng Anh: term frequency–inverse document frequency, là một chỉ số toán học giúp xác định mức độ quan trọng của từ trong một tài liệu so với toàn bộ tập tài liệu. tf-idf thường được sử dụng như một trọng số trong tìm kiếm thông tin, khai thác văn bản và mô hình hóa người dùng.
Giá trị tf-idf tỷ lệ thuận với số lần xuất hiện của từ trong tài liệu và được điều chỉnh theo số lượng tài liệu có chứa từ đó, giúp cân bằng ảnh hưởng của những từ thường gặp. tf-idf là một trong những phương pháp tính trọng số phổ biến nhất hiện nay. Một khảo sát năm 2015 cho thấy 83% hệ thống khuyến nghị dựa trên văn bản trong các thư viện số sử dụng tf-idf.
TF
TF - tần số từ – số lần xuất hiện của một từ trong một văn bản. Cách tính:
- Đo lường tần suất xuất hiện của một từ trong văn bản so với tần suất xuất hiện cao nhất của bất kỳ từ nào trong văn bản đó. (giá trị nằm trong khoảng [0, 1])
- f(t,d) - số lần từ t xuất hiện trong văn bản d.
- max{f(w,d):w∈d} - số lần xuất hiện nhiều nhất của bất kỳ từ nào trong văn bản.
IDF
IDF – tần số ngược tài liệu. Tần số nghịch của một từ trong tập văn bản (corpus).
Tính IDF để giảm trọng số của các từ phổ biến. Mỗi từ chỉ có một giá trị IDF duy nhất trong tập văn bản.
- : - tổng số tài liệu trong tập D
- : - số tài liệu chứa từ cụ thể, với điều kiện xuất hiện trong tài liệu d (tức là ). Nếu từ không xuất hiện trong bất kỳ tài liệu nào trong tập thì mẫu số bằng 0 => phép chia cho không không hợp lệ, vì vậy người ta thường thay bằng mẫu thức .
Số cơ bản của logarit trong công thức này không thay đổi giá trị của từ mà chỉ điều chỉnh khoảng giá trị của nó. Việc thay đổi cơ số chỉ ảnh hưởng đến giá trị các từ theo một hệ số cố định, nhưng tỷ lệ giữa các trọng số không thay đổi. (Nói cách khác, thay đổi cơ số không ảnh hưởng đến tỷ lệ giữa các giá trị IDF). Tuy nhiên, việc điều chỉnh khoảng giá trị giúp tỷ lệ giữa IDF và TF đồng nhất hơn khi sử dụng cho công thức TF-IDF như dưới đây.
Giá trị TF-IDF:
Những từ có giá trị TF-IDF cao là những từ xuất hiện thường xuyên trong văn bản cụ thể nhưng ít gặp trong các tài liệu khác. Điều này giúp xác định các từ khóa quan trọng của văn bản, loại bỏ những từ phổ biến và giữ lại những từ có giá trị đáng chú ý.
Ứng dụng
IDF rất hữu ích trong các công cụ tìm kiếm. Ví dụ, khi người dùng thực hiện một tìm kiếm, hệ thống cần xác định từ khóa quan trọng nhất trong truy vấn. Chẳng hạn, với truy vấn 'cách sửa máy ủi', các từ được phân tách sẽ là: cách, sửa, máy, ủi. Trong số này, 'máy ủi' sẽ có IDF cao nhất. Hệ thống sẽ tìm kiếm các tài liệu chứa từ 'máy ủi' trước khi thực hiện đánh giá và so sánh toàn bộ truy vấn.
- Nhúng từ
- Phân kỳ Kullback–Leibler
- Phân bổ Dirichlet ẩn
- Phân tích ngữ nghĩa ẩn
- Thông tin tương hỗ
- Cụm danh từ
- Okapi BM25
- PageRank
- Mô hình không gian vectơ
- Đếm từ
Chú thích
Kết nối bên ngoài
- Gensim là một thư viện Python dành cho mô hình hóa không gian vector và bao gồm trọng số tf–idf.
- Liên kết vững bền Lưu trữ 2012-12-12 tại Archive.today: Ứng dụng của tf–idf cho việc duy trì địa chỉ tài liệu ổn định.
- Cấu trúc của một công cụ tìm kiếm
- tf–idf và các định nghĩa liên quan như được sử dụng trong Lucene
- TfidfTransformer trong Scikit-learn
- Text to Matrix Generator (TMG) Lưu trữ 2020-07-10 tại Wayback Machine: Bộ công cụ MATLAB có thể được sử dụng cho nhiều nhiệm vụ trong khai thác văn bản (TM) như i) lập chỉ mục, ii) truy xuất, iii) giảm chiều, iv) phân cụm, v) phân loại. Bước lập chỉ mục cho phép người dùng áp dụng các phương pháp trọng số địa phương và toàn cầu, bao gồm tf–idf.