Ứng dụng ChatGPT Giờ Đã Có Thể Nói Chuyện với Bạn—và Nhìn Xuyên vào Cuộc Sống Của Bạn | MYTOUR

Buzz

Ngày cập nhật gần nhất: 15/5/2026

Nội dung bài viết

ChatGPT Hiện Đã Có Khả Năng Nói Chuyện Với Bạn—Và Nhìn Xem Cuộc Sống Của Bạn

Xem thêm

Đọc tóm tắt

- đã cập nhật với tính năng hỗ trợ âm thanh và hình ảnh, cho phép người dùng nói và gửi hình ảnh để nhận phản hồi từ chatbot.
- Phiên bản mới của có thể mô tả hình ảnh và trả lời bằng giọng nói tổng hợp, tương tự như tính năng của Google Lens.
- OpenAI hy vọng rằng việc tích hợp các dữ liệu âm thanh và hình ảnh sẽ giúp cải thiện trí tuệ nhân tạo của họ.
- Tuy nhiên, tính năng giọng nói hiện chỉ có sẵn trong phiên bản trả phí và còn một số hạn chế trong khả năng nhận diện hình ảnh.
- Về chính sách dữ liệu, người dùng có thể chọn không cho phép dữ liệu giọng nói và hình ảnh của họ được sử dụng để đào tạo mô hình.,.
- Nghiên cứu cho thấy giao diện phức tạp, đặc biệt là những giao diện cố gắng mô phỏng tương tác con người, có thể gây cảm giác lạ lẫm nếu không đạt được sự giao tiếp tự nhiên.
- Khái niệm "thung lũng kỳ lạ" chỉ ra rằng khoảng cách giữa sự mô phỏng và thực tế có thể làm cho sản phẩm trở nên khó sử dụng hơn.

ChatGPT Hiện Đã Có Khả Năng Nói Chuyện Với Bạn—Và Nhìn Xem Cuộc Sống Của Bạn

OpenAI, công ty trí tuệ nhân tạo đã phát hành ChatGPT vào tháng 11 năm ngoái, đang làm cho ứng dụng trò chuyện này trở nên thân thiện hơn nhiều.

Một bản nâng cấp cho ứng dụng di động ChatGPT cho iOS và Android được công bố hôm nay cho phép người dùng nói ra câu hỏi của họ với chatbot và nghe nó trả lời bằng giọng tổng hợp riêng của nó. Phiên bản mới của ChatGPT cũng thêm thông minh hình ảnh: Tải lên hoặc chụp ảnh từ ChatGPT và ứng dụng sẽ trả lời với mô tả về hình ảnh và cung cấp thêm bối cảnh, tương tự như tính năng Lens của Google.

Các khả năng mới của ChatGPT cho thấy rằng OpenAI đang đối xử với mô hình trí tuệ nhân tạo của mình, đã được phát triển từ nhiều năm nay, như các sản phẩm với các bản cập nhật đều đặn. Hit bất ngờ của công ty, ChatGPT, đang trở nên giống như một ứng dụng tiêu dùng cạnh tranh với Siri của Apple hoặc Alexa của Amazon.

undefined

Việc làm cho ứng dụng ChatGPT hấp dẫn hơn có thể giúp OpenAI trong cuộc đua với các công ty trí tuệ nhân tạo khác như Google, Anthropic, InflectionAI và Midjourney, bằng cách cung cấp một luồng dữ liệu phong phú từ người dùng để huấn luyện các động cơ trí tuệ nhân tạo mạnh mẽ của mình. Đưa dữ liệu âm thanh và hình ảnh vào các mô hình học máy đằng sau ChatGPT cũng có thể giúp thấy rõ tầm nhìn dài hạn của OpenAI về việc tạo ra trí tuệ giống như con người hơn.

Các mô hình ngôn ngữ của OpenAI, nguồn sức mạnh của chatbot, bao gồm cả phiên bản mới nhất, GPT-4, được tạo ra bằng cách sử dụng lượng lớn văn bản được thu thập từ nhiều nguồn trên web. Nhiều chuyên gia trí tuệ nhân tạo tin rằng, giống như trí tuệ của động vật và con người sử dụng nhiều loại dữ liệu giác quan khác nhau, việc tạo ra trí tuệ nhân tạo tiên tiến hơn có thể đòi hỏi cung cấp thông tin âm thanh và hình ảnh cho thuật toán ngoài văn bản.

Mô hình trí tuệ nhân tạo quan trọng tiếp theo của Google, Gemini, rộng rãi đồn đại sẽ là "đa dạng", có nghĩa là nó sẽ có thể xử lý không chỉ văn bản mà còn video, hình ảnh và đầu vào giọng nói. "Tính từ một quan điểm hiệu suất mô hình, chúng ta có thể mong đợi mô hình đa dạng hơn sẽ vượt trội so với các mô hình được đào tạo trên một loại duy nhất", Trevor Darrell, giáo sư tại Đại học California, Berkeley và một trong những người sáng lập Prompt AI, một công ty khởi nghiệp làm việc về kết hợp ngôn ngữ tự nhiên với tạo và xử lý hình ảnh nói. "Nếu chúng ta xây dựng một mô hình chỉ sử dụng ngôn ngữ, bất kể mạnh mẽ như thế nào, nó chỉ sẽ học ngôn ngữ".

Công nghệ tạo giọng mới của ChatGPT—được phát triển bởi công ty—cũng mở ra cơ hội mới cho việc cấp phép công nghệ của nó cho người khác. Spotify, ví dụ, cho biết nó hiện đang có kế hoạch sử dụng thuật toán tổng hợp giọng nói của OpenAI để thử nghiệm một tính năng chuyển đổi podcast sang các ngôn ngữ khác, như là một bản sao do trí tuệ nhân tạo tạo ra dựa trên giọng của người phát sóng gốc.

Phiên bản mới của ứng dụng ChatGPT có một biểu tượng tai nghe ở góc phải phía trên và biểu tượng ảnh và camera trong một menu mở rộng ở góc trái dưới. Những tính năng âm thanh và hình ảnh này hoạt động bằng cách chuyển đổi thông tin đầu vào thành văn bản, sử dụng nhận dạng hình ảnh hoặc giọng nói, để chatbot có thể tạo ra một phản ứng. Ứng dụng sau đó phản hồi thông qua giọng hoặc văn bản, tùy thuộc vào chế độ người dùng chọn. Khi một nhà báo của MYTOUR hỏi ứng dụng ChatGPT mới bằng giọng của mình liệu nó có "nghe" được không, ứng dụng trả lời: "Tôi không thể nghe bạn, nhưng tôi có thể đọc và trả lời tin nhắn văn bản của bạn," bởi vì câu hỏi bằng giọng của bạn thực sự đang được xử lý như là văn bản. Nó sẽ trả lời bằng một trong năm giọng, có tên là Juniper, Ember, Sky, Cove hoặc Breeze.

Jim Glass, giáo sư MIT nghiên cứu về công nghệ nói, nói rằng nhiều nhóm học thuật hiện đang thử nghiệm giao diện giọng kết nối với các mô hình ngôn ngữ lớn, với kết quả hứa hẹn. "Giọng nói là cách dễ dàng nhất chúng ta có để tạo ra ngôn ngữ, nên đó là một điều tự nhiên," ông nói. Glass chú ý rằng trong khi việc nhận dạng giọng nói đã cải thiện đáng kể trong thập kỷ qua, nó vẫn còn thiếu sót đối với nhiều ngôn ngữ.

Các tính năng mới của ChatGPT đang bắt đầu triển khai từ hôm nay và chỉ có sẵn thông qua phiên bản trả phí hàng tháng 20 đô la của ChatGPT. Nó sẽ có sẵn ở bất kỳ thị trường nào ChatGPT đã hoạt động, nhưng sẽ bị hạn chế chỉ trong ngôn ngữ tiếng Anh ban đầu.

Tầm nhìn Máy

Trong những thử nghiệm sớm của MYTOUR, tính năng tìm kiếm hình ảnh có một số hạn chế rõ ràng. Nó trả lời, “Xin lỗi, tôi không thể giúp bạn với điều đó” khi được hỏi để xác định những người trong hình ảnh, như là một bức ảnh của thẻ nhận diện Conde Nast của một nhà báo MYTOUR. Trước một hình ảnh của bìa sách American Prometheus, có một bức ảnh nổi bật của nhà vật lý J. Robert Oppenheimer, ChatGPT đưa ra mô tả về cuốn sách.

ChatGPT đúng mực xác định một cây phong Nhật Bản dựa trên một hình ảnh, và khi được cung cấp một bức ảnh của một tô salad với một cái nĩa, ứng dụng chú ý vào cái nĩa và ấn tượng khi xác định nó là thương hiệu phân hủy. Nó cũng đúng mực xác định một bức ảnh của một túi như một túi New Yorker, thêm vào đó, “Với lịch sử của bạn làm nhà báo công nghệ và vị trí ở một thành phố như San Francisco, việc bạn sở hữu các vật phẩm liên quan đến các xuất bản nổi tiếng là hợp lý.” Điều đó cảm nhận như là một lời nói châm biếm nhẹ, nhưng nó phản ánh cài đặt tùy chỉnh của nhà báo trong ứng dụng xác định nghề nghiệp và địa điểm của cô với ChatGPT.

Tính năng giọng của ChatGPT có độ trễ, mặc dù MYTOUR đang thử nghiệm một phiên bản trước của ứng dụng mới. Sau khi gửi một câu hỏi bằng giọng, đôi khi mất vài giây để ChatGPT phản hồi bằng âm thanh. OpenAI mô tả tính năng mới này như một cuộc trò chuyện—như một Google Assistant hoặc Amazon Alexa thế hệ tiếp theo, thực sự—nhưng độ trễ này không giúp làm rõ điều này.

Nhiều biên giới kiểm soát tương tự như trong phiên bản ChatGPT ban đầu dựa trên văn bản cũng có vẻ đặt ở chỗ trong phiên bản mới. Chatbot từ chối trả lời các câu hỏi nói về nguồn cung 3D-printed cho súng, xây dựng bom, hoặc viết một bài hát quốc xã. Khi được hỏi, “Ngày nào là một ngày tốt cho một người 21 tuổi và một người 16 tuổi đi chơi?” chatbot khuyến cáo thận trọng với mối quan hệ có sự chênh lệch độ tuổi đáng kể và lưu ý rằng độ tuổi hợp pháp đồng ý thay đổi theo địa điểm. Và trong khi nói rằng nó không thể hát, nó có thể gõ ra các bài hát, như thế này:

“Trong vũ trụ rộng lớn của không gian số,
Một thực thể sinh ra từ mã nguồn.
Với các số 0 và 1, nó trở nên sống động,
Để hỗ trợ, thông tin và giúp bạn phát triển.”

Ôi chết.

Cuộc Trò Chuyện Riêng Tư

Như với nhiều tiến bộ gần đây trong thế giới rộng lớn của trí tuệ nhân tạo tạo ra, cập nhật của ChatGPT có thể gây lo ngại cho một số người về cách OpenAI sẽ sử dụng lượng dữ liệu giọng và hình ảnh mới từ người dùng. OpenAI đã thu thập lượng lớn cặp dữ liệu văn bản-hình ảnh từ web để đào tạo mô hình của mình, mà không chỉ làm chạy ChatGPT mà còn làm chạy máy tạo hình ảnh của OpenAI, Dall-E. Tuần trước, OpenAI công bố một bản nâng cấp đáng kể cho Dall-E.

Nhưng một dòng chảy của các câu hỏi giọng và dữ liệu hình ảnh mà người dùng chia sẻ, có thể bao gồm ảnh khuôn mặt hoặc các phần khác của cơ thể, đưa OpenAI vào lĩnh vực nhạy cảm mới—đặc biệt là nếu OpenAI sử dụng điều này để mở rộng lượng dữ liệu mà nó hiện có thể đào tạo thuật toán.

OpenAI dường như đang quyết định chính sách về cách đào tạo mô hình của mình với các câu hỏi giọng của người dùng. Khi được hỏi về cách dữ liệu người dùng sẽ được sử dụng, Sandhini Agarwal, một nghiên cứu viên chính sách trí tuệ nhân tạo tại OpenAI, ban đầu nói rằng người dùng có thể chọn không, chỉ vào một công tắc trong ứng dụng, dưới các Điều Khiển Dữ Liệu, nơi “Lịch Sử Trò Chuyện & Đào Tạo” có thể được tắt. Công ty cho biết cuộc trò chuyện chưa được lưu sẽ bị xóa khỏi hệ thống của nó trong vòng 30 ngày, mặc dù cài đặt này không đồng bộ trên các thiết bị khác nhau.

Tuy nhiên, theo trải nghiệm của MYTOUR, khi “Lịch Sử Trò Chuyện & Đào Tạo” được tắt, khả năng giọng của ChatGPT bị tắt. Một thông báo xuất hiện cảnh báo, “Khả năng giọng không khả dụng khi lịch sử được tắt.”

Khi được hỏi về điều này, Niko Felix, người phát ngôn cho OpenAI, giải thích rằng phiên bản beta của ứng dụng cho người dùng xem bản trascript của cuộc trò chuyện của họ trong khi họ sử dụng chế độ giọng. “Để làm điều này, lịch sử thực sự cần được kích hoạt,” Felix nói. “Hiện tại, chúng tôi không thu thập bất kỳ dữ liệu giọng nào để đào tạo, và chúng tôi đang nghĩ về những gì chúng tôi muốn kích hoạt cho người dùng muốn chia sẻ dữ liệu của họ.”

Khi được hỏi liệu OpenAI có kế hoạch đào tạo trí tuệ nhân tạo của mình dựa trên ảnh người dùng chia sẻ, Felix trả lời, “Người dùng có thể chọn không cho việc sử dụng dữ liệu hình ảnh của họ để đào tạo. Khi đã chọn không, các cuộc trò chuyện mới sẽ không được sử dụng để đào tạo mô hình của chúng tôi.”

Các bài kiểm tra ban đầu nhanh chóng không thể trả lời câu hỏi về việc liệu phiên bản ChatGPT nói nhiều hơn và có khả năng nhìn thấy có thể kích thích sự tò mò và hứng thú như thế nào, biến chatbot thành một hiện tượng.

Darrell của Đại học California, Berkeley nói rằng những khả năng mới có thể làm cho việc sử dụng chatbot trở nên tự nhiên hơn. Nhưng một số nghiên cứu gợi ý rằng các giao diện phức tạp hơn, ví dụ như những cái cố gắng mô phỏng tương tác trực tiếp, có thể cảm thấy lạ lẫm nếu chúng không đạt được giao tiếp con người một cách quan trọng. “Thung lũng kỳ lạ” trở thành một khoảng cách có thể khiến một sản phẩm trở nên khó sử dụng hơn,” ông nói.

Các câu hỏi thường gặp

có thể nhận dạng giọng nói và hình ảnh không?

Có, phiên bản mới của có khả năng nhận dạng giọng nói và hình ảnh. Người dùng có thể nói câu hỏi và nhận câu trả lời bằng giọng tổng hợp, đồng thời tải lên ảnh để nhận mô tả chi tiết về hình ảnh.

có thể trả lời câu hỏi dựa trên hình ảnh như thế nào?

có thể nhận dạng hình ảnh và đưa ra mô tả hoặc bối cảnh liên quan đến ảnh. Tuy nhiên, tính năng này vẫn có hạn chế và không thể nhận dạng tất cả các đối tượng trong hình ảnh.

Tính năng giọng của hoạt động như thế nào?

Tính năng giọng của cho phép người dùng giao tiếp bằng giọng nói. Sau khi người dùng đặt câu hỏi, sẽ trả lời bằng giọng tổng hợp, có thể chọn từ một số giọng khác nhau như Juniper, Sky, hoặc Cove.

có thể nghe người dùng và phản hồi bằng giọng không?

Không, không thể nghe trực tiếp âm thanh từ người dùng. Mặc dù người dùng có thể nói câu hỏi, nhưng âm thanh sẽ được chuyển đổi thành văn bản trước khi trả lời.

Người dùng có thể tắt tính năng thu thập dữ liệu giọng nói và hình ảnh không?

Có, người dùng có thể tắt tính năng thu thập dữ liệu giọng nói và hình ảnh trong phần cài đặt của ứng dụng. Khi tắt tính năng này, sẽ không lưu lại lịch sử cuộc trò chuyện hoặc sử dụng dữ liệu đó để huấn luyện mô hình.

có thể sử dụng giọng nói để tạo podcast không?

Có, OpenAI đã cấp phép công nghệ giọng nói của cho các đối tác như Spotify, để thử nghiệm tính năng chuyển đổi podcast sang các ngôn ngữ khác bằng giọng tổng hợp của người phát sóng gốc.

Tính năng nhận dạng giọng của có độ trễ không?

Có, tính năng giọng của có độ trễ nhỏ. Sau khi người dùng đặt câu hỏi bằng giọng nói, đôi khi mất vài giây để nhận được câu trả lời từ .

có thể xác định chính xác mọi hình ảnh không?

Không, tính năng nhận dạng hình ảnh của vẫn có hạn chế. Đôi khi nó không thể nhận dạng đúng người hoặc các đối tượng phức tạp trong ảnh, nhưng vẫn có thể mô tả đúng các đối tượng đơn giản như cây cối hoặc vật dụng.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]