AI không thể nhận biết nếu bạn đang nói dối – bất kỳ ai nói ngược lại đều đang bán cái gì đó
Một ngày nữa lại điều nghi vấn về nghiên cứu trí tuệ nhân tạo. Ngày hôm nay, đặc sản thuốc trừ rắn đến từ Đại học Tel Aviv, nơi một nhóm nghiên cứu đã giới thiệu một 'hệ thống phát hiện nói dối'
Hãy làm rõ ngay từ đầu: Trí tuệ nhân tạo không thể làm bất cứ điều gì mà một người, nếu được cung cấp một lượng thời gian tương đương để giải quyết vấn đề, không thể tự làm được. Và không có con người nào có thể biết được liệu một người nào đó đang nói dối hay không. Dừng lại ở đây.
Sự thực đơn giản là rằng một số người có thể nhận biết khi một số người nói dối trong một khoảng thời gian nào đó. Không ai có thể biết được khi nào bất kỳ ai đang nói dối mọi lúc.
Đại học đưa ra tuyên bố sau thông qua thông cáo báo chí:
Các nhà nghiên cứu tại Đại học Tel Aviv phát hiện 73% những lời nói dối của các thí nghiệm dựa trên sự co bóp cơ trên khuôn mặt – đạt được tỷ lệ phát hiện cao hơn bất kỳ phương pháp nào khác.
TNW Conference 2024 - Kêu gọi tất cả các Startups tham gia vào ngày 20-21 tháng 6
Trình diễn Startup của bạn trước nhà đầu tư, những người thay đổi và khách hàng tiềm năng với gói Startup được tổ chức bởi chúng tôi.
Đó là một tuyên bố rất kỳ lạ. Ý kiến cho rằng độ chính xác “73%” trong việc phát hiện nói dối là dấu hiệu cho sự thành công của một mô hình cụ thể là có thể tranh cãi nhất.
Chính xác là gì?
Độ may mắn cơ bản mang lại cho bất kỳ hệ thống nào có khả năng lựa chọn một cơ hội 50/50. Và, theo truyền thống, đó là mức độ hoạt động tốt của con người trong việc đoán nói dối. Thú vị là họ làm tốt hơn nhiều trong việc đoán đúng. Một số nghiên cứu cho rằng con người đạt được khoảng cùng “độ chính xác” trong việc xác định câu nói đúng như hệ thống “phát hiện nói dối” của đội Tel Aviv xác định sự trung thực.
Thậm chí bài báo của đội Tel Aviv còn đề cập đến việc máy đo polygraph không được chấp nhận trong tòa án vì không đáng tin cậy. Nhưng họ không nhấn mạnh rằng thiết bị polygraph (có từ năm 1921) vượt qua hệ thống của họ về “độ chính xác” — polygraph trung bình khoảng 80% – 90% trong các nghiên cứu.
Nhưng hãy xem xét kỹ hơn về nghiên cứu của đội Tel Aviv. Đội bắt đầu với 48 người tham gia, trong đó có 35 người được xác định là “nữ.” Sáu người tham gia bị loại bỏ vì vấn đề kỹ thuật, hai người bị loại bỏ vì “không bao giờ nói dối,” và một người chỉ tham gia “40 trong số 80 thử nghiệm khi không có động cơ về tiền bạc.”
Vậy nên, dữ liệu cho nghiên cứu này được tạo ra từ hai nguồn: một hệ thống trí tuệ nhân tạo độc quyền và 39-40 người tham gia. Trong số những người tham gia đó, đa số lớn được xác định là 'nữ,' và không có đề cập đến đa dạng về chủng tộc, văn hóa hoặc tôn giáo.
Hơn nữa, độ tuổi trung bình của những người tham gia là 23 và không có cách nào xác định xem đội ngũ có xem xét về nền tài chính, tâm lý sức khỏe, hay bất kỳ mối quan tâm nào khác không.
Tất cả những gì chúng ta có thể biết là một nhóm nhỏ người với độ tuổi trung bình là 23, hầu hết là 'nữ,' đã tham gia vào nghiên cứu này.
Có cả sự đền bù. Họ không chỉ được trả tiền cho thời gian của họ, điều này là tiêu chuẩn trong thế giới nghiên cứu học thuật, mà họ còn được trả tiền khi nói dối thành công trước con người.
Đó là một dấu hiệu đỏ. Không phải vì trả tiền cho dữ liệu nghiên cứu là không đạo đức (đó không phải là vấn đề). Nhưng vì nó đang thêm vào các tham số không cần thiết để có ý định hoặc vô ý làm mờ nghiên cứu.
Các nhà nghiên cứu giải thích điều này bằng cách cho rằng đó là một phần của thử nghiệm để xác định liệu việc tạo động lực có thay đổi khả năng nói dối của con người hay không.
Nhưng, với một mẫu nghiên cứu nhỏ như vậy, dường như là ngớ ngẩn khi đổ đầy thử nghiệm bằng những tham số không cần thiết. Đặc biệt là những tham số mà nếu không có dữ liệu cơ sở vững chắc, chúng không thể được mã hóa.
Tác động của động lực tài chính đối với hiệu suất của một nghiên cứu về việc nói đúng có ảnh hưởng như thế nào? Điều đó nghe có vẻ như là điều cần phải có một nghiên cứu quy mô lớn riêng để xác định.
Hãy chuyển sang phương pháp nghiên cứu
Các nhà nghiên cứu ghép đôi người tham gia thành người nói dối và người nhận. Người nói dối đeo tai nghe và lắng nghe từ khóa “cây” hoặc “đường” và sau đó được chỉ đạo nói chân thật hoặc nói dối về từ họ đã nghe thấy. Nhiệm vụ của đối tác là đoán xem họ có bị nói dối hay không.
Điểm đặc biệt ở đây là các nhà nghiên cứu đã tạo ra các mảng điện cực riêng của họ và kết nối chúng vào khuôn mặt của người nói dối, sau đó phát triển một trí tuệ nhân tạo để diễn giải các đầu ra. Các nhà nghiên cứu hoạt động dưới giả định ban đầu rằng những cử chỉ nhấp nháy trong cơ khuôn mặt của chúng ta là một cửa sổ đến sự thật cơ bản.
Giả định này hoàn toàn là lý thuyết và, thành thật mà nói, là vô lý. Người mắc đột quỵ tồn tại. Hội chứng Bell’s Palsy tồn tại. Giao tiếp đa dạng về thần kinh tồn tại. Vết sẹo và mất sức mạnh cơ tồn tại. Ít nhất 1 tỷ người trên thế giới hiện đang sống với một hình thức khuyết tật về thể chất và gần như cũng có số người sống với một rối loạn tâm thần đã được chẩn đoán.
Tuy nhiên, các nhà nghiên cứu mong chúng ta tin rằng họ đã phát minh ra một thuật toán phổ quát để hiểu về con người. Họ đang khẳng định rằng họ đã tình cờ phát hiện ra một đặc điểm con người mà không thể tách rời được, liên kết hành động tâm trí của sự gian lận với một biểu hiện vật lý duy nhất toàn cầu. Và họ đã đạt được điều này bằng cách đo những cử chỉ nhấp nháy cơ trên khuôn mặt của chỉ 40 con người?
Theo thông cáo báo chí đã nói:
Các nhà nghiên cứu tin rằng kết quả của họ có thể mang lại tác động mạnh mẽ trong nhiều lĩnh vực của cuộc sống chúng ta. Trong tương lai, việc sử dụng điện cực có thể trở nên dư thừa, với phần mềm video được đào tạo để xác định sự nói dối dựa trên các chuyển động thực tế của cơ khuôn mặt.
Vậy ý tưởng lớn ở đây là tạo ra dữ liệu với một mô hình thực nghiệm (điện cực vật lý) để phát triển một phương pháp luận hoàn toàn khác (thị giác máy tính)? Và chúng ta nên tin rằng sự kết hợp đặc biệt này của đầu vào không tương đồng sẽ dẫn đến một hệ thống có thể xác định tính chân thật của con người đến mức độ mà đầu ra của nó có thể được chấp nhận trong tòa án?
Đó là một bước nhảy táo bạo để thực hiện! Đội ngũ có thể cũng đang tuyên bố rằng họ đã giải quyết vấn đề của Trí tuệ Nhân tạo Tổng hợp thông qua học sâu hộp đen. Thị giác máy tính đã tồn tại từ trước. Hoặc dữ liệu từ điện cực là cần thiết hoặc không.
Điều tồi tệ hơn, họ dường như dự định phát triển điều này thành một giải pháp linh lăng cho chính phủ và doanh nghiệp lớn.
Bản tin tiếp tục với một câu nói:
[Thành viên nhóm Dino Levy] dự đoán: “Tại ngân hàng, trong cuộc thẩm vấn của cảnh sát, tại sân bay, hoặc trong phỏng vấn việc làm trực tuyến, các camera có độ phân giải cao được đào tạo để nhận diện các cử động của cơ bắp khuôn mặt sẽ có khả năng phân biệt giữa những câu nói chân thật và những câu nói dối. Hiện tại, nhiệm vụ của đội ngũ chúng tôi là hoàn thành giai đoạn thử nghiệm, đào tạo các thuật toán của chúng tôi và loại bỏ các điện cực. Một khi công nghệ đã được hoàn thiện, chúng tôi kỳ vọng nó sẽ có nhiều ứng dụng đa dạng và đa dạng.”
Thẩm vấn của cảnh sát? Sân bay? Lạ thế nào?
Chính xác là bao nhiêu phần trăm trong số 40 người tham gia nghiên cứu đó là người da đen, Latino, khuyết tật, tự kỷ, hoặc đồng tính? Làm thế nào mà ai đó, có tâm hồn lương tâm và lương tâm, có thể đưa ra những khẳng định khoa học vĩ đại về trí tuệ nhân tạo dựa trên một lượng dữ liệu nhỏ như vậy?
Nếu “giải pháp trí tuệ nhân tạo” này thực sự trở thành một sản phẩm, người ta có thể bị bắt giữ một cách sai lầm, bị giữ lại tại sân bay, bị từ chối vay tiền và bị bỏ qua trong việc tuyển dụng chỉ vì họ không trông, nghe và hành động đúng như những người tham gia trong nghiên cứu đó.
Hệ thống trí tuệ nhân tạo này chỉ có thể xác định xem ai đó nói dối với mức độ chính xác là 73% trong một thử nghiệm, trong đó những lời nói dối chỉ có một từ, không có ý nghĩa gì đối với người nói, và không có ảnh hưởng thực sự đối với người nghe.
Không có tình huống thực tế nào tương tự với thí nghiệm này. Và "73% độ chính xác" không ý nghĩa như việc xem bài Tarot hay đọc kết quả của quả bóng 8.
Đơn giản là: Tỷ lệ chính xác 73% sau ít hơn 200 lần thử nghiệm của một nghiên cứu liên quan đến tối đa 20 nhóm dữ liệu (người tham gia được ghép đôi) là kết luận cho thấy thí nghiệm của bạn là một thất bại.
Thế giới cần thêm nghiên cứu như vậy, đừng hiểu lầm tôi. Quan trọng là thử nghiệm ranh giới của công nghệ. Nhưng những tuyên bố của các nhà nghiên cứu hoàn toàn kỳ cục và rõ ràng hướng đến một sản phẩm sẽ được giới thiệu sau này.
Thật đáng tiếc, có khoảng 100% khả năng rằng điều này sẽ được phát triển và sử dụng bởi cảnh sát Mỹ.
Giống như việc dự đoán tội phạm, Gaydar, tuyển dụng AI và tất cả các giải pháp AI dầu mỡ khác, điều này là hoàn toàn gây hại.
Nhưng, dù sao, đừng tin tôi: hãy đọc toàn bộ bài báo và kết luận của các nhà nghiên cứu tại đây.
