Độ tương đồng cosine là phương pháp đo mức độ tương đồng giữa hai vectơ trong không gian vô hướng. Định nghĩa này dựa trên giá trị cosine của góc giữa hai vectơ, hay tích vô hướng của các vectơ đơn vị có độ dài bằng 1. Cosine của góc 0° là 1 và giảm dần đến dưới 1 đối với các góc trong khoảng (0, π].
Độ tương đồng cosine đánh giá theo hướng chứ không phải theo độ lớn: hai vectơ cùng hướng có độ tương đồng cosine là 1, hai vectơ vuông góc có độ tương đồng là 0, và hai vectơ đối diện có độ tương đồng là -1. Phương pháp này thường được sử dụng trong không gian dương với giá trị giới hạn trong khoảng . Tên 'độ tương đồng cosine' xuất phát từ khái niệm 'cosine có hướng': các vectơ đơn vị có độ tương đồng tối đa khi chúng song song và độ tương đồng cực tiểu khi chúng vuông góc. Điều này tương tự với cosine, có giá trị cao nhất khi góc bằng 0 và giá trị bằng 0 khi các vectơ vuông góc.
Khái niệm
Giá trị cosine giữa hai vectơ khác không được tính dựa trên công thức tích vô hướng Euclid:
Với hai vectơ A và B, độ tương đồng cosine, cos(θ), được tính bằng tích vô hướng chia cho tích của độ dài của hai vectơ.
với và là các thành phần của vectơ và tương ứng.
Giá trị độ tương đồng từ -1 đến 1, trong đó -1 cho thấy hoàn toàn đối lập, 1 cho thấy hoàn toàn tương đồng, và 0 cho thấy không có sự tương quan. Các giá trị nằm giữa thể hiện mức độ tương đồng hoặc không tương đồng ở mức độ trung bình.
Trong việc so khớp chuỗi xấp xỉ, các vectơ thuộc tính A và B thường đại diện cho các vectơ tf–idf của tài liệu. Độ tương tự cosine giúp bình thường hóa độ dài tài liệu trong quá trình so sánh.
Khi truy hồi thông tin, độ tương tự cosine giữa hai tài liệu nằm trong khoảng từ 0 đến 1, vì tần số thuật ngữ (sử dụng trọng số tf-idf) không thể âm. Do đó, góc giữa các vectơ tần số thuật ngữ không vượt quá 90°.
Khi các vectơ thuộc tính được chuẩn hóa bằng cách trừ đi giá trị trung bình của vectơ (ví dụ, ), độ tương tự cosine lúc này được gọi là độ tương tự cosine trung tâm (centered) và tương đương với hệ số tương quan Pearson. Ví dụ về định tâm,
- Hệ số Sørensen–Dice
- Khoảng cách Hamming
- Hệ số tương quan
- Chỉ số Jaccard
- SimRank
- Truy hồi thông tin
Liên kết ngoài
- Đo lường cosine có trọng số
- Hướng dẫn về độ tương tự cosine sử dụng Python