
Kể từ khi ra mắt vào năm 2018, dịch vụ trò chuyện của Autodesk, chatbot AVA với hình ảnh AI, đã hoạt động rất tích cực.
Tắt gọn từ Autodesk Virtual Assistant, AVA xử lý hơn 100,000 yêu cầu hỗ trợ của khách hàng mỗi tháng—từ sự cố cơ bản đến hỗ trợ kỹ thuật chi tiết trên hơn 100 sản phẩm mà công ty cung cấp—và đã giảm thời gian phản hồi của Autodesk đối với các yêu cầu chính từ khách hàng từ vài giờ xuống còn chỉ năm phút. Nói cách khác, AVA làm việc rất hiệu quả.
Tuy nhiên, cho đến gần đây, AVA đang gặp vấn đề riêng của mình. Được hỗ trợ bởi các thuật toán học máy, AVA phản ứng và đáp lại thông qua các mô hình ngôn ngữ tự nhiên mở rộng cung cấp câu trả lời cho sự kết hợp gần như vô tận của các đầu vào mà khách hàng cung cấp. Nhưng khi các đầu vào của khách hàng tăng về khối lượng và biến động, Autodesk đã phải áp dụng các mô hình phức tạp hơn để phục vụ các yêu cầu của AVA—và những mô hình mới, tinh vi hơn này đang đe dọa vượt xa ngân sách của Autodesk để chạy và hỗ trợ chúng.
“Chúng tôi đối mặt với một thách thức trực tiếp,” giải thích bởi Alex O’Connor, một Quản lý Cao cấp trong Khoa Khoa học Dữ liệu và Học máy tại Autodesk. “Khối lượng dữ liệu lớn hơn đòi hỏi một sự chuyển đổi từ những mô hình mà chúng tôi đã sử dụng truyền thống sang những mô hình mới, tiên tiến, và chúng tôi đang đối mặt với một sự tăng chi phí lớn chỉ để duy trì hoạt động các mô hình.”
Phổ cập hóa học máy
Trong tình huống khó khăn này, Autodesk không hề đơn độc.
Trong mười năm qua, học máy đã trở nên phổ biến đến mức cơ chế và độ chính xác của nó dễ bị coi là điều hiển nhiên. Đó là bí mật đằng sau các chatbot; là chìa khóa cho một hộp thư đến không có rác; là giọng nói của Alexa.
Mục tiêu đã là một mục tiêu cao cả. Sau tất cả, AWS đã đặt ra mục tiêu tạo ra một sản phẩm để làm cho máy học trở nên dễ tiếp cận hơn nhiều: giảm chi phí đáng kể, mà không ảnh hưởng đến sự dễ sử dụng hoặc hiệu suất. Việc suy luận (cách một mô hình máy học xác định một đầu ra cụ thể) là nơi tự nhiên để bắt đầu; việc huấn luyện một mô hình thường là một chi phí có ràng buộc, trong khi suy luận thường có thể là một chi phí tích tụ, nhanh chóng chiếm đa phần ngân sách và nguồn lực.
May mắn thay, AWS đã bắt đầu đầu tư vào vi xử lý silicon tùy chỉnh như một giải pháp linh hoạt để mở khóa thêm hiệu suất và cung cấp độ an toàn lớn hơn. Nó cũng có những bài học được áp dụng từ sự phát triển của bộ xử lý Graviton đột phá của mình; như việc bao early các chuyên gia phần mềm vào quá trình phát triển để đảm bảo sự dễ sử dụng và tương thích với các framework và công cụ máy học hàng đầu.
Chỉ hơn một năm sau khi đội ngũ AWS bắt đầu phát triển giải pháp của họ, Inferentia ra đời: một vi xử lý silicon tùy chỉnh điều khiển các trường hợp Amazon EC2 Inf1 và được kết hợp với, và được tối ưu hóa bởi, bộ công cụ phần mềm Neuron của AWS. Sau khi ra mắt ban đầu, AWS đã tiếp tục cải tiến Neuron, thêm hỗ trợ cho nhiều mô hình, toán tử và các framework và công cụ mã nguồn mở khác. Điều này đã giúp Inferentia mang lại giá trị hiệu suất chi phí không giới hạn, thông lượng cao, độ trễ thấp và cải thiện đáng kể về sự dễ sử dụng.
Những gì trước đây là một mục tiêu cao cả—vi xử lý máy học mạnh mẽ với một phần giá—đột nhiên trở nên cụ thể hơn nhiều.
Bước nhảy vọt
Sau khi chuyển đổi mô hình của họ sang Inferentia, Autodesk đã ấn tượng: hệ thống không chỉ dễ tích hợp—đôi khi chỉ cần một hoặc hai dòng mã—mà còn trong thời gian ngắn, tỷ lệ hiệu suất chi phí của AVA tăng gấp năm lần. “Bạn có thể xem đó là khả năng phục vụ năm lần số lượng người với cùng chi phí,” O'Connor nói, “hoặc bạn có thể nghĩ về việc, với cùng ngân sách cố định, chúng ta có thể ra mắt năm mô hình mới.” O'Connor cũng chú ý rằng sản phẩm dường như đã được thiết kế với sự chú ý của các nhà phát triển. Binghui Ouyang, nhà khoa học dữ liệu cấp cao tại Autodesk, đã mô tả quá trình biên dịch một mô hình bằng cách sử dụng Neuron như là “chủ yếu tự động.” Với quy trình được tối ưu hóa của mình, Inferentia có thể tạo ra một mô hình đã được theo dõi chỉ với vài dòng mã. “Điều này là một ưu điểm lớn cho việc kiểm thử và kỹ thuật mô hình mới một cách nhanh chóng,” Ouyang viết.
Giữa độ trễ thấp và chi phí triển khai thấp, O'Connor và đồng nghiệp cũng cảm thấy như họ đã được “ngân sách thời gian.” Tiết kiệm chi phí của Inferentia giải phóng một lượng lớn nguồn lực, nhưng cũng thiết lập một mức độ tự tin rằng công ty có thể dám đổi mới trong tương lai.

AWS muốn giúp định hình tương lai đó. Vào cuối năm nay, AWS dự định xây dựng trên Inferentia với việc ra mắt AWS Trainium. Một chip đào tạo tùy chỉnh được xây dựng từ đầu và được tối ưu hóa cho việc đào tạo mô hình học sâu, Trainium sẽ cung cấp cơ sở hạ tầng đào tạo học sâu với chi phí thấp và hiệu suất cao. Điều này đánh dấu một bước tiến lớn khác trong việc làm cho máy học trở nên rộng rãi tiếp cận—và đó là nơi các khả năng trở nên vô tận. Autodesk đã bao gồm trong đó.
Sử dụng Inferentia, Autodesk đã có được hiệu suất thông lượng cao hơn 4.9 lần so với các trường hợp dựa trên GPU cho Mô hình Ý định cho AVA, cũng như giảm chi phí lên đến 45% cho các ứng dụng xử lý ngôn ngữ tự nhiên đa dạng của họ.1 Các mô hình Ý định của Ava được xây dựng bằng PyTorch, một framework máy học mã nguồn mở phổ biến giúp tăng tốc quá trình chuyển mô hình từ việc prototyping đến triển khai sản xuất hiệu quả bằng các công cụ được tích hợp chặt chẽ với các dịch vụ AWS.
“Tôi cảm thấy thoải mái hơn khi nói, 'Có, chúng ta có thể triển khai mô hình đó,' và 'Có, chúng ta có thể quản lý thêm một mô hình',” O’Connor nói. “Bất cứ điều gì chúng ta muốn xây dựng từ góc độ học sâu, chúng ta có thể thực hiện từ [Inferentia].”
Chuyện này được sản xuất bởi Mytour Brand Lab cho Amazon Web Services.

