Hôm qua khi nhìn vào bức ảnh trên Zing tại văn phòng của Tổ thông tin đáp ứng nhanh việc truy vết bệnh nhân COVID-19, tôi thấy một màn hình truy vết. Trên đó, biểu diễn sự tiếp xúc gần giữa các đối tượng từ F0 đến F0...Phân tích đồ thị là gì?
Phân tích đồ thị là một lĩnh vực không mới lạ (nhưng vẫn đầy hấp dẫn), nó liên quan đến cách biểu diễn các thực thể và mối quan hệ giữa chúng. Trong một “đồ thị”, chúng ta có một số điểm và các đường kết nối giữa chúng. Những kết nối này thường chỉ có một chiều. Đối với mối quan hệ hai chiều, chúng ta sẽ sử dụng hai đường kết nối. Mình thấy định nghĩa của Oracle rất dễ hiểu, bạn có thể tham khảo thêm ở đây.
Graph được sử dụng để làm gì?
- Phát hiện mối quan hệ giữa các người dùng có quen biết nhau, có tương tác giống nhau trên mạng xã hội.
- Phát hiện các hành vi vi phạm tài chính, như việc rửa tiền qua nhiều tài khoản, ngân hàng khác nhau
- Phát hiện gian lận thẻ tín dụng, nơi có thể bị rò rỉ thông tin, phát hiện gian lận trong việc đền bù bảo hiểm, lợi dụng chính sách phúc lợi của nhà nước
- Gợi ý kết bạn dựa trên mối quan hệ bạn bè hiện có trên mạng xã hội
- Phát hiện điểm yếu trong hệ thống lưới điện, hệ thống ống nước, kiểm soát hệ thống mạng và phát hiện hack
- Tối ưu hóa đường bay của máy bay thương mại, đường vận tải của các xe chở hàng
- Nghiên cứu khoa học về sinh học
- Và như nước ta đang sử dụng: truy vết F0, F1, F2, F4… dựa trên các tiếp xúc của họ
Đây là một biểu đồ phân tích yêu cầu bồi thường bảo hiểm, trong đó liệt kê các bên liên quan và mối quan hệ của họ. Các công ty bảo hiểm thường gặp khó khăn trong việc phát hiện kẻ lừa đảo vì họ thường có liên kết với luật sư, bác sĩ để xây dựng hồ sơ đẹp cho vụ va chạm. Họ thường chọn các chấn thương khó xác định và khó bác bỏ, nên các công ty bảo hiểm thường phải kiện ra tòa (với khả năng thua), hoặc trả một khoản tiền nhỏ để kết thúc vụ án.
Nhờ vào các công cụ đồ thị, họ có thể xác định những người có liên quan trong một vụ tai nạn, sau đó tra cứu thông tin của họ và của chiếc xe gặp nạn xem liệu nó có dính dáng tới những vụ tai nạn trước đó không, họ có chung bác sĩ, chung luật sư hay không, những người hành khách và người lái có giống nhau không. Nếu có, khả năng cao là bảo hiểm đang bị lợi dụng. Việc phân tích này trên các file Excel hoặc các cơ sở dữ liệu truyền thống sẽ mất rất nhiều thời gian, nhưng với cơ sở dữ liệu đồ thị, chỉ cần một chút là có thể hoàn thành.Những loại phân tích đồ thị thường thấy
Phân tích đường đi:Phân tích kết nối:
Phân tích cộng đồng: dựa trên chất lượng và số lượng mối quan hệ trong một cộng đồng, ta có thể phân nhóm thành các cộng đồng nhỏ hơn, dùng trong marketing để nhắm mục tiêu vào một tập khách hàng cụ thể. Cách này cũng được sử dụng để dự đoán liệu cộng đồng có tăng trưởng về kích thước hay kết hợp với các cộng đồng mới hay không.Phân tích trọng tâm: phân tích này tìm ra “trung điểm” trong một mạng lưới, như tìm ra những người có ảnh hưởng trong một cộng đồng, hoặc những trang web được truy cập nhiều nhất trong một nhóm người dùng cụ thể… Công cụ PageRank của Google cũng sử dụng loại phân tích này.
Việc sử dụng đồ thị để truy vết các ca nghi nhiễm hoặc nhiễm COVID-19 kết hợp cả phân tích đường đi, kết nối và cộng đồng trong đồ thị. Phương pháp dễ nhất là sử dụng phân tích đường đi để xác định những người tiếp xúc gần với bệnh nhân, cảnh báo cho họ và thông báo cho cơ quan y tế địa phương một cách nhanh chóng. Để thực hiện điều này trong các cơ sở dữ liệu truyền thống, sẽ tốn nhiều thời gian hơn, và đòi hỏi nhiều tài nguyên hơn, đồng thời cũng tốn kém hơn về thời gian và công sức.
