Công nghệ mới liệu đã đủ mạnh để đem đến tương lai của trí tuệ nhân tạo thực sự cho các chatbot AI?
Mô hình AI GPT-4 mới của OpenAI vừa ra mắt hoành tráng và đang gây bão trong cộng đồng công nghệ toàn cầu. Nhưng điều gì thực sự làm nên sự khác biệt của GPT-4 so với các phiên bản trước như ChatGPT và GPT-3.5?
Tuy nhiên, hãy tạm thời bỏ qua việc nói về tên gọi. Dù ChatGPT ban đầu được mô tả là GPT-3.5, thực tế nó không phải là một phiên bản của mô hình ngôn ngữ lớn của OpenAI. Thực chất, nó chỉ là một giao diện dựa trên hình thức trò chuyện cho bất kỳ mô hình nào hỗ trợ. Hệ thống ChatGPT đã trở nên phổ biến trong vài tháng gần đây là một cách để người dùng tương tác với GPT-3.5 và hiện giờ là để tương tác với GPT-4.
Hãy cùng nhau điểm qua 5 điểm khác biệt chính giữa các hệ thống AI tổng quát này.
GPT-4 có khả năng xem và hiểu hình ảnh
Thay đổi đáng chú ý nhất đối với hệ thống học máy linh hoạt này của OpenAI là nó đã trở nên “đa năng”, có nghĩa là nó có thể hiểu nhiều hơn một “phương tiện” thông tin. ChatGPT và GPT-3 bị hạn chế chỉ trong văn bản. Chúng có thể đọc và viết nhưng chỉ có thể là thế.
Tuy nhiên, GPT-4 có khả năng nhận diện hình ảnh và tự động xử lý để tìm thông tin liên quan. Bạn có thể yêu cầu nó mô tả những gì xuất hiện trong một bức tranh, nhưng sự hiểu biết của nó vượt xa hơn điều đó. Ví dụ, OpenAI cung cấp các giải thích hài hước liên quan đến việc giải thích trò đùa bằng hình ảnh về những chiếc giắc cắm iPhone quá khổ.
Tuy nhiên, không chỉ dừng lại ở đó, với việc hợp tác với Be My Eyes - một ứng dụng được sử dụng bởi người mù và người có thị lực kém - công nghệ này cho phép các tình nguyện viên mô tả những gì điện thoại của họ nhìn thấy. Điều này cũng mở ra một tương lai tươi sáng hơn cho các ứng dụng liên quan.

Be My Eyes có nghĩa là “Hãy là đôi mắt của tôi”
Trong video giới thiệu, GPT-4 đã mô tả hoa văn trên một chiếc váy, nhận diện loại cây, giải thích cách sử dụng máy tập trong phòng tập thể dục, dịch các nhãn dán, đọc bản đồ và thực hiện nhiều tác vụ khác để chứng tỏ nó thực sự hiểu những gì có trong một hình ảnh.
Tất nhiên, điều kiện là cần hỏi đúng câu hỏi. AI có thể biết về trang phục nhưng không biết liệu nó phù hợp với cuộc phỏng vấn hay đi chơi của bạn.
GPT-4 sẽ khó bị lừa hơn
Một điểm yếu chung của các AI tổng quát, và là điều công chúng lo ngại nhất, là chúng dễ bị lạc lối. Chỉ cần một chút dỗ dành, người dùng có thể thuyết phục hệ thống rằng họ đang chỉ mô phỏng và “không làm điều xấu” mặc dù thực tế yêu cầu AI hỗ trợ những điều không đúng.
OpenAI đã đưa ra giải pháp. GPT-4 đã được huấn luyện với nhiều lời nhắc độc hại mà người dùng đã cung cấp trong một hoặc hai năm qua. Nhờ đó, mô hình mới này vượt trội hơn nhiều so với các mô hình trước đó về tính thực tế, khả năng kiểm soát và khả năng từ chối việc vượt quá giới hạn.
Trong ví dụ được cung cấp, GPT-4 sẽ nhận ra và không hỗ trợ người dùng những thứ như cách chế tạo bom hoặc vũ khí nguy hiểm. Tổng thể, các biện pháp can thiệp ở mức độ mô hình sẽ làm tăng độ khó trong việc khơi gợi các hành vi xấu.
Theo cách mà OpenAI mô tả, GPT-3.5 (hỗ trợ ChatGPT) là một “lần chạy thử nghiệm” của một kiến trúc đào tạo mới và họ đã áp dụng các bài học từ đó vào phiên bản mới. Kết quả cho thấy phiên bản GPT-4 này “ổn định hơn bao giờ hết”.
GPT-4 có bộ nhớ lớn hơn

Các mô hình ngôn ngữ lớn được đào tạo trên hàng triệu dữ liệu từ các trang web, sách và văn bản khác. Nhưng khi chúng trò chuyện với người dùng, sẽ có giới hạn về mức độ nội dung mà hệ thống có thể “ghi nhớ”.
Giới hạn đó với GPT-3.5 và phiên bản cũ của ChatGPT là 4.096 “token”, tương đương với khoảng 8.000 từ hoặc 4 đến 5 trang sách. Vì vậy, họ sẽ gần như quên mọi thứ sau khi đi quá xa và mức độ chú ý sẽ giảm.
Nhưng GPT-4 có tối đa 32.768 “token”. Điều đó có nghĩa là khoảng 64.000 từ hoặc 50 trang văn bản, đủ cho một vở kịch hoặc truyện ngắn.
Điều này có nghĩa là trong quá trình trò chuyện hoặc viết văn bản, GPT-4 có thể ghi nhớ tối đa 50 trang nội dung hoặc hơn. Vì vậy, nó sẽ nhớ những gì người dùng đã nói trước đó khoảng 20 trang, hoặc khi viết một câu chuyện hoặc bài luận, nó có thể đề cập đến các sự kiện đã xảy ra cách đây khoảng 35 trang. Tóm lại, bộ nhớ đã được mở rộng và khả năng tương ứng sẽ tăng theo.
GPT-4 hỗ trợ nhiều ngôn ngữ hơn
Thế giới của AI hiện nay chủ yếu là tiếng Anh và hầu hết dữ liệu, thử nghiệm và tài liệu nghiên cứu đều bằng ngôn ngữ này. Tuy nhiên, các mô hình ngôn ngữ lớn có thể áp dụng cho bất kỳ ngôn ngữ nào.
GPT-4 đã tiến thêm một bước để thực hiện điều này bằng cách chứng minh rằng nó có thể trả lời hàng nghìn câu hỏi trắc nghiệm với độ chính xác cao trên 26 ngôn ngữ, từ tiếng Ý, tiếng Ukraina đến tiếng Hàn.
Các thử nghiệm ban đầu về khả năng đa ngôn ngữ này đầy triển vọng. Tuy nhiên, cần một thời gian dài để nắm bắt hết các khả năng đa ngôn ngữ, vì các tiêu chí kiểm tra đã được dịch từ tiếng Anh và các câu hỏi trắc nghiệm không phản ánh đầy đủ lời nói thông thường. Tuy nhiên, hệ thống đã chứng tỏ rằng nó có thể hoạt động tốt trong một miền không phải tiếng Anh, cho thấy GPT-4 sẽ thân thiện hơn với những người không nói tiếng Anh.
GPT-4 có các “tính cách” khác nhau

“Khả năng điều khiển” là một khái niệm thú vị trong AI, đề cập đến khả năng thay đổi hành vi theo yêu cầu của người dùng. GPT-4 đã tích hợp khả năng điều khiển tự nhiên hơn so với GPT-3.5 và người dùng có thể điều chỉnh “tính cách” của ChatGPT theo nhu cầu của họ.
Điều này có thể được thực hiện bằng cách “trích dẫn” chatbot AI bằng các thông báo như “Giả vờ bạn là GM trong một game nhập vai” hoặc “Trả lời như bạn đang được phỏng vấn”....
Có nhiều điểm khác biệt giữa GPT-4 và các phiên bản tiền nhiệm của nó, một phần lớn được nhà phát triển tinh chỉnh hoặc kỹ thuật. Và người dùng sẽ dần khám phá nhiều hơn trong quá trình trải nghiệm và sử dụng.
Bạn có muốn trải nghiệm GPT-4 ngay bây giờ? Hãy đợi một chút. Nó sẽ sớm có trong dịch vụ trả phí ChatGPT Plus của OpenAI, và sẽ sớm được cung cấp qua API cho các nhà phát triển và có thể sẽ có bản demo miễn phí trong tương lai gần.
Tham khảo TechCrunch
