Đích đến lý tưởng của trí tuệ nhân tạo trong lĩnh vực robot chính là đây.
Figure - công ty công nghệ Mỹ - vừa đạt bước đột phá trong phát triển robot hình người thông qua hệ thống Helix. Đây là nền tảng AI tích hợp đa giác quan (thị giác-ngôn ngữ-hành động), cho phép robot nhận diện hình ảnh, hiểu lệnh bằng lời và thực thi thao tác một cách mượt mà. Đoạn video demo gần đây cho thấy robot được điều khiển bởi Helix có thể gấp khăn tắm tỉ mỉ, sắp xếp chúng ngăn nắp vào giỏ với độ chính xác gần như người thật.

Điểm ưu việt của Helix nằm ở khả năng khắc phục nhược điểm phổ biến của robot truyền thống - vốn cần lập trình phức tạp hoặc đào tạo lại khi chuyển sang tác vụ mới. Giờ đây, chỉ cần hướng dẫn bằng lời nói tự nhiên, robot có thể tự điều chỉnh để xử lý các tình huống chưa từng gặp.
Trong video thử nghiệm, robot Figure 02 thực hiện chuỗi động tác gấp khăn một cách bài bản: tiếp cận vật thể, nhặt lên từng chiếc, làm phẳng bề mặt rồi gấp gọn. Dù đôi chỗ cần điều chỉnh, robot vẫn thể hiện sự tập trung và kiên trì đáng kinh ngạc. Các cử động từ ngón tay, cổ tay đến thân mình đều uyển chuyển, phá vỡ hình ảnh cứng nhắc thường thấy ở máy móc.
Helix còn gây bất ngờ với tính năng điều phối đa robot. Hệ thống cho phép nhiều robot cùng hoạt động đồng bộ để giải quyết nhiệm vụ dài hạn, kể cả khi tiếp xúc với vật thể không quen thuộc. Bằng cách sử dụng chung bộ trọng số mạng nơ-ron cho đa dạng thao tác - từ cầm nắm đồ vật, mở tủ đến tương tác giữa các robot - Helix loại bỏ nhu cầu hiệu chỉnh riêng lẻ, vừa tiết kiệm thời gian vừa nâng cao hiệu suất.
Được vận hành trên dòng GPU nhúng tiết kiệm năng lượng, Helix tối ưu hóa khả năng triển khai thực tế. Sự hội tụ của 3 yếu tố: thao tác tinh vi, khả năng thích ứng và hiệu suất năng lượng cao đã đặt nền móng mới cho thế hệ robot hình người có thể hoạt động trong môi trường đời thường phức tạp.


Khả năng của robot này không dừng lại ở việc gấp đồ, mà còn mở rộng sang nhiều công việc gia đình khác.
Về mặt kiến trúc, Helix vận hành dựa trên hai hệ thống cốt lõi. Hệ thống S1 đóng vai trò xử lý tín hiệu thị giác và điều khiển vận động tốc độ cao, biến các phân tích từ Hệ thống S2 thành hành động tức thì. Trong khi đó, S2 là mô hình VLM được đào tạo từ dữ liệu mạng, tuy tốc độ chậm hơn nhưng có ưu thế trong nhận diện ngữ cảnh và hiểu lệnh ngôn ngữ. S2 tập trung vào xử lý logic phức tạp, còn S1 đảm bảo độ chính xác và tốc độ phản ứng.
Figure chia sẻ rằng cơ chế phân tách chức năng này giúp Helix khắc phục những hạn chế cố hữu trong ngành robot: cân bằng giữa tốc độ xử lý và khả năng ứng biến, thực hiện các thao tác đa nhiệm phức tạp, đồng thời duy trì cấu trúc hệ thống đơn giản. Helix được dự đoán sẽ cách mạng hóa lĩnh vực robot hình người, mở ra khả năng đảm nhận những công việc đòi hỏi sự khéo léo vốn được coi là độc quyền của con người.
