ChatGPT Hiện Đã Có Khả Năng Nói Chuyện Với Bạn—Và Nhìn Xem Cuộc Sống Của Bạn

OpenAI, công ty trí tuệ nhân tạo đã phát hành ChatGPT vào tháng 11 năm ngoái, đang làm cho ứng dụng trò chuyện này trở nên thân thiện hơn nhiều.
Một bản nâng cấp cho ứng dụng di động ChatGPT cho iOS và Android được công bố hôm nay cho phép người dùng nói ra câu hỏi của họ với chatbot và nghe nó trả lời bằng giọng tổng hợp riêng của nó. Phiên bản mới của ChatGPT cũng thêm thông minh hình ảnh: Tải lên hoặc chụp ảnh từ ChatGPT và ứng dụng sẽ trả lời với mô tả về hình ảnh và cung cấp thêm bối cảnh, tương tự như tính năng Lens của Google.
Các khả năng mới của ChatGPT cho thấy rằng OpenAI đang đối xử với mô hình trí tuệ nhân tạo của mình, đã được phát triển từ nhiều năm nay, như các sản phẩm với các bản cập nhật đều đặn. Hit bất ngờ của công ty, ChatGPT, đang trở nên giống như một ứng dụng tiêu dùng cạnh tranh với Siri của Apple hoặc Alexa của Amazon.
Việc làm cho ứng dụng ChatGPT hấp dẫn hơn có thể giúp OpenAI trong cuộc đua với các công ty trí tuệ nhân tạo khác như Google, Anthropic, InflectionAI và Midjourney, bằng cách cung cấp một luồng dữ liệu phong phú từ người dùng để huấn luyện các động cơ trí tuệ nhân tạo mạnh mẽ của mình. Đưa dữ liệu âm thanh và hình ảnh vào các mô hình học máy đằng sau ChatGPT cũng có thể giúp thấy rõ tầm nhìn dài hạn của OpenAI về việc tạo ra trí tuệ giống như con người hơn.
Các mô hình ngôn ngữ của OpenAI, nguồn sức mạnh của chatbot, bao gồm cả phiên bản mới nhất, GPT-4, được tạo ra bằng cách sử dụng lượng lớn văn bản được thu thập từ nhiều nguồn trên web. Nhiều chuyên gia trí tuệ nhân tạo tin rằng, giống như trí tuệ của động vật và con người sử dụng nhiều loại dữ liệu giác quan khác nhau, việc tạo ra trí tuệ nhân tạo tiên tiến hơn có thể đòi hỏi cung cấp thông tin âm thanh và hình ảnh cho thuật toán ngoài văn bản.
Mô hình trí tuệ nhân tạo quan trọng tiếp theo của Google, Gemini, rộng rãi đồn đại sẽ là "đa dạng", có nghĩa là nó sẽ có thể xử lý không chỉ văn bản mà còn video, hình ảnh và đầu vào giọng nói. "Tính từ một quan điểm hiệu suất mô hình, chúng ta có thể mong đợi mô hình đa dạng hơn sẽ vượt trội so với các mô hình được đào tạo trên một loại duy nhất", Trevor Darrell, giáo sư tại Đại học California, Berkeley và một trong những người sáng lập Prompt AI, một công ty khởi nghiệp làm việc về kết hợp ngôn ngữ tự nhiên với tạo và xử lý hình ảnh nói. "Nếu chúng ta xây dựng một mô hình chỉ sử dụng ngôn ngữ, bất kể mạnh mẽ như thế nào, nó chỉ sẽ học ngôn ngữ".
Công nghệ tạo giọng mới của ChatGPT—được phát triển bởi công ty—cũng mở ra cơ hội mới cho việc cấp phép công nghệ của nó cho người khác. Spotify, ví dụ, cho biết nó hiện đang có kế hoạch sử dụng thuật toán tổng hợp giọng nói của OpenAI để thử nghiệm một tính năng chuyển đổi podcast sang các ngôn ngữ khác, như là một bản sao do trí tuệ nhân tạo tạo ra dựa trên giọng của người phát sóng gốc.
Phiên bản mới của ứng dụng ChatGPT có một biểu tượng tai nghe ở góc phải phía trên và biểu tượng ảnh và camera trong một menu mở rộng ở góc trái dưới. Những tính năng âm thanh và hình ảnh này hoạt động bằng cách chuyển đổi thông tin đầu vào thành văn bản, sử dụng nhận dạng hình ảnh hoặc giọng nói, để chatbot có thể tạo ra một phản ứng. Ứng dụng sau đó phản hồi thông qua giọng hoặc văn bản, tùy thuộc vào chế độ người dùng chọn. Khi một nhà báo của MYTOUR hỏi ứng dụng ChatGPT mới bằng giọng của mình liệu nó có "nghe" được không, ứng dụng trả lời: "Tôi không thể nghe bạn, nhưng tôi có thể đọc và trả lời tin nhắn văn bản của bạn," bởi vì câu hỏi bằng giọng của bạn thực sự đang được xử lý như là văn bản. Nó sẽ trả lời bằng một trong năm giọng, có tên là Juniper, Ember, Sky, Cove hoặc Breeze.
Jim Glass, giáo sư MIT nghiên cứu về công nghệ nói, nói rằng nhiều nhóm học thuật hiện đang thử nghiệm giao diện giọng kết nối với các mô hình ngôn ngữ lớn, với kết quả hứa hẹn. "Giọng nói là cách dễ dàng nhất chúng ta có để tạo ra ngôn ngữ, nên đó là một điều tự nhiên," ông nói. Glass chú ý rằng trong khi việc nhận dạng giọng nói đã cải thiện đáng kể trong thập kỷ qua, nó vẫn còn thiếu sót đối với nhiều ngôn ngữ.
Các tính năng mới của ChatGPT đang bắt đầu triển khai từ hôm nay và chỉ có sẵn thông qua phiên bản trả phí hàng tháng 20 đô la của ChatGPT. Nó sẽ có sẵn ở bất kỳ thị trường nào ChatGPT đã hoạt động, nhưng sẽ bị hạn chế chỉ trong ngôn ngữ tiếng Anh ban đầu.
Trong những thử nghiệm sớm của MYTOUR, tính năng tìm kiếm hình ảnh có một số hạn chế rõ ràng. Nó trả lời, “Xin lỗi, tôi không thể giúp bạn với điều đó” khi được hỏi để xác định những người trong hình ảnh, như là một bức ảnh của thẻ nhận diện Conde Nast của một nhà báo MYTOUR. Trước một hình ảnh của bìa sách American Prometheus, có một bức ảnh nổi bật của nhà vật lý J. Robert Oppenheimer, ChatGPT đưa ra mô tả về cuốn sách.
ChatGPT đúng mực xác định một cây phong Nhật Bản dựa trên một hình ảnh, và khi được cung cấp một bức ảnh của một tô salad với một cái nĩa, ứng dụng chú ý vào cái nĩa và ấn tượng khi xác định nó là thương hiệu phân hủy. Nó cũng đúng mực xác định một bức ảnh của một túi như một túi New Yorker, thêm vào đó, “Với lịch sử của bạn làm nhà báo công nghệ và vị trí ở một thành phố như San Francisco, việc bạn sở hữu các vật phẩm liên quan đến các xuất bản nổi tiếng là hợp lý.” Điều đó cảm nhận như là một lời nói châm biếm nhẹ, nhưng nó phản ánh cài đặt tùy chỉnh của nhà báo trong ứng dụng xác định nghề nghiệp và địa điểm của cô với ChatGPT.
Tính năng giọng của ChatGPT có độ trễ, mặc dù MYTOUR đang thử nghiệm một phiên bản trước của ứng dụng mới. Sau khi gửi một câu hỏi bằng giọng, đôi khi mất vài giây để ChatGPT phản hồi bằng âm thanh. OpenAI mô tả tính năng mới này như một cuộc trò chuyện—như một Google Assistant hoặc Amazon Alexa thế hệ tiếp theo, thực sự—nhưng độ trễ này không giúp làm rõ điều này.
Nhiều biên giới kiểm soát tương tự như trong phiên bản ChatGPT ban đầu dựa trên văn bản cũng có vẻ đặt ở chỗ trong phiên bản mới. Chatbot từ chối trả lời các câu hỏi nói về nguồn cung 3D-printed cho súng, xây dựng bom, hoặc viết một bài hát quốc xã. Khi được hỏi, “Ngày nào là một ngày tốt cho một người 21 tuổi và một người 16 tuổi đi chơi?” chatbot khuyến cáo thận trọng với mối quan hệ có sự chênh lệch độ tuổi đáng kể và lưu ý rằng độ tuổi hợp pháp đồng ý thay đổi theo địa điểm. Và trong khi nói rằng nó không thể hát, nó có thể gõ ra các bài hát, như thế này:
“Trong vũ trụ rộng lớn của không gian số,
Một thực thể sinh ra từ mã nguồn.
Với các số 0 và 1, nó trở nên sống động,
Để hỗ trợ, thông tin và giúp bạn phát triển.”
Ôi chết.
Như với nhiều tiến bộ gần đây trong thế giới rộng lớn của trí tuệ nhân tạo tạo ra, cập nhật của ChatGPT có thể gây lo ngại cho một số người về cách OpenAI sẽ sử dụng lượng dữ liệu giọng và hình ảnh mới từ người dùng. OpenAI đã thu thập lượng lớn cặp dữ liệu văn bản-hình ảnh từ web để đào tạo mô hình của mình, mà không chỉ làm chạy ChatGPT mà còn làm chạy máy tạo hình ảnh của OpenAI, Dall-E. Tuần trước, OpenAI công bố một bản nâng cấp đáng kể cho Dall-E.
Nhưng một dòng chảy của các câu hỏi giọng và dữ liệu hình ảnh mà người dùng chia sẻ, có thể bao gồm ảnh khuôn mặt hoặc các phần khác của cơ thể, đưa OpenAI vào lĩnh vực nhạy cảm mới—đặc biệt là nếu OpenAI sử dụng điều này để mở rộng lượng dữ liệu mà nó hiện có thể đào tạo thuật toán.
OpenAI dường như đang quyết định chính sách về cách đào tạo mô hình của mình với các câu hỏi giọng của người dùng. Khi được hỏi về cách dữ liệu người dùng sẽ được sử dụng, Sandhini Agarwal, một nghiên cứu viên chính sách trí tuệ nhân tạo tại OpenAI, ban đầu nói rằng người dùng có thể chọn không, chỉ vào một công tắc trong ứng dụng, dưới các Điều Khiển Dữ Liệu, nơi “Lịch Sử Trò Chuyện & Đào Tạo” có thể được tắt. Công ty cho biết cuộc trò chuyện chưa được lưu sẽ bị xóa khỏi hệ thống của nó trong vòng 30 ngày, mặc dù cài đặt này không đồng bộ trên các thiết bị khác nhau.
Tuy nhiên, theo trải nghiệm của MYTOUR, khi “Lịch Sử Trò Chuyện & Đào Tạo” được tắt, khả năng giọng của ChatGPT bị tắt. Một thông báo xuất hiện cảnh báo, “Khả năng giọng không khả dụng khi lịch sử được tắt.”
Khi được hỏi về điều này, Niko Felix, người phát ngôn cho OpenAI, giải thích rằng phiên bản beta của ứng dụng cho người dùng xem bản trascript của cuộc trò chuyện của họ trong khi họ sử dụng chế độ giọng. “Để làm điều này, lịch sử thực sự cần được kích hoạt,” Felix nói. “Hiện tại, chúng tôi không thu thập bất kỳ dữ liệu giọng nào để đào tạo, và chúng tôi đang nghĩ về những gì chúng tôi muốn kích hoạt cho người dùng muốn chia sẻ dữ liệu của họ.”
Khi được hỏi liệu OpenAI có kế hoạch đào tạo trí tuệ nhân tạo của mình dựa trên ảnh người dùng chia sẻ, Felix trả lời, “Người dùng có thể chọn không cho việc sử dụng dữ liệu hình ảnh của họ để đào tạo. Khi đã chọn không, các cuộc trò chuyện mới sẽ không được sử dụng để đào tạo mô hình của chúng tôi.”
Các bài kiểm tra ban đầu nhanh chóng không thể trả lời câu hỏi về việc liệu phiên bản ChatGPT nói nhiều hơn và có khả năng nhìn thấy có thể kích thích sự tò mò và hứng thú như thế nào, biến chatbot thành một hiện tượng.
Darrell của Đại học California, Berkeley nói rằng những khả năng mới có thể làm cho việc sử dụng chatbot trở nên tự nhiên hơn. Nhưng một số nghiên cứu gợi ý rằng các giao diện phức tạp hơn, ví dụ như những cái cố gắng mô phỏng tương tác trực tiếp, có thể cảm thấy lạ lẫm nếu chúng không đạt được giao tiếp con người một cách quan trọng. “Thung lũng kỳ lạ” trở thành một khoảng cách có thể khiến một sản phẩm trở nên khó sử dụng hơn,” ông nói.
