Xác định vị trí của bức ảnh là thách thức, ngay cả con người cũng gặp khó khăn. Tuy nhiên, các nhà khoa học đang phát triển hệ thống AI có khả năng làm điều đó.
Trevor Rainbolt, 25 tuổi, là một chuyên gia hàng đầu trong việc xác định nơi chụp ảnh. Với khả năng phán đoán xuất sắc, anh đã giúp rất nhiều người xác định nơi chụp những bức ảnh cũ.
Rainbolt cũng là một người chơi GeoGuessr chuyên nghiệp, với hơn 10.000 giờ chơi và có thể chơi từ bốn đến tám giờ mỗi ngày.

Vào tháng 5 năm 2023, anh đã thua một AI được phát triển bởi ba sinh viên tốt nghiệp Đại học Stanford. AI này đã đoán được quốc gia nơi bức ảnh được chụp với độ chính xác 92%.

Ba nhà phát triển AI cũng là những người chơi GeoGuessr kỳ cựu. Hầu hết các người chơi của trò chơi này đều là những game thủ trẻ tuổi.

Hình ảnh đầu tiên xuất hiện khi Rainbolt đấu với AI. Độ chính xác và tốc độ đoán quyết định kết quả. Người chơi càng gần với vị trí thực tế, họ sẽ nhận được nhiều điểm hơn. Đồng thời, những người chơi nhanh nhẹn cũng sẽ có điểm cao hơn.
Thực tế, vào năm 2022, một nhóm sinh viên tốt nghiệp Đại học Stanford đang theo học về trí tuệ nhân tạo đã tạo ra dự án về trí tuệ nhân tạo đa nhiệm và học về phần mềm đa nhiệm sâu. Họ đã bắt đầu từ sở thích chung của mình với trò chơi GeoGuessr để tạo ra một game thủ trí tuệ nhân tạo vượt trội hơn con người.
Dự án của họ, có tên là 'Dự đoán Vị trí Ảnh', viết tắt là PIGEON. Họ sử dụng mạng nơ-ron CLIP của OpenAI (cũng là nhà phát triển của ChatGPT) để hiểu và phân tích hình ảnh bằng cách đọc văn bản.
Sau đó, họ sử dụng hình ảnh từ Google Street View để huấn luyện hệ thống của mình. Dữ liệu huấn luyện chứa khoảng 500.000 hình ảnh từ Google Street View. AI chia hình ảnh thành những ô nhỏ để phân tích và chọn ra những ô đặc biệt đó. Với sự tích hợp của thông tin về kiến trúc, địa hình, và thời tiết, AI có thể dự đoán nhanh chóng nơi ảnh được chụp, như một người chơi con người.

Mặc dù kích thước của tập dữ liệu không lớn nhưng hệ thống AI hoạt động rất hiệu quả, với độ chính xác cao và sai số nhỏ hơn so với con người, có thể xác định vị trí trong phạm vi khoảng 40 km so với vị trí thực tế của Renbolt.
Hiện tại, các nhà phát triển đã phát triển mô hình AI thứ hai, có tên là PIGEOTTO, có thể dự đoán vị trí của một bức ảnh chỉ bằng cách nhìn vào nó. PIGEOTTO được đào tạo với hơn 4 triệu hình ảnh từ Flickr và Wikipedia, cho phép nó học từ nhiều ngữ cảnh khác nhau trên toàn cầu.
Đáng chú ý, PIGEOTTO là hệ thống đầu tiên có khả năng khái quát tốt, có thể xác định vị trí của những bức ảnh mới mà không cần được đào tạo trực tiếp.
Cả hai mô hình AI PIGEON và PIGEOTTO đều sử dụng một phương pháp tiếp cận thông minh được gọi là học đa nhiệm, cho phép chúng học từ dữ liệu địa lý và chú thích bên ngoài ảnh.

Các thử nghiệm gần đây đã chỉ ra rằng PIGEON có thể xác định vị trí chính xác trong khoảng cách 25 km trong 40% thời gian khi phân tích cảnh trong Google Street View. Và PIGEOTTO đã đạt được thành tích kỷ lục trong các bài kiểm tra, giảm đến 50% sai số trung bình so với các hệ thống AI trước đó.
Độ chính xác này mở ra những tiềm năng mới cho việc gắn thẻ địa lý trên hình ảnh, ứng dụng du lịch, truyền thông xã hội, hệ thống định vị, và nhiều hơn nữa.
Tuy nhiên, với bất kỳ công nghệ mới nào cũng có nguy cơ bị lạm dụng. Các nhà nghiên cứu cảnh báo rằng cần áp dụng biện pháp bảo vệ để ngăn chặn việc sử dụng AI một cách phi đạo đức. Tuy nhiên, tổng thể, các hệ thống tiên tiến này chứng minh tiềm năng của AI trong việc xác định chính xác hình ảnh trên toàn cầu.
