
Sự phát triển mạnh mẽ của trí tuệ nhân tạo (AI) trong những năm gần đây đã tạo ra một cơn sốt lớn, với NVIDIA là nhà lãnh đạo không thể phủ nhận. Với vai trò là nhà cung cấp duy nhất của chip tăng tốc AI trên thị trường, NVIDIA đã nhanh chóng trở thành một trong những công ty có vốn hoá lớn nhất thế giới. Tuy nhiên, sự độc quyền này cũng đồng nghĩa với việc thế giới đang đối mặt với sự hạn chế và thiếu sự đa dạng trong lĩnh vực AI, khi mà hầu hết mọi người không có nhiều lựa chọn ngoài các sản phẩm của NVIDIA.Tất cả chúng ta đều không muốn phụ thuộc vào một nhà sản xuất duy nhất, và cũng không ai muốn NVIDIA kiểm soát hoàn toàn thị trường trí tuệ nhân tạo. Một trong những đối thủ không muốn điều đó xảy ra là Intel. Tuy nhiên, để thực sự cạnh tranh và chiếm được thị phần, Intel đang phải sử dụng mọi mưu mẹo của mình. Một trong số đó là sản phẩm đặc biệt - Gaudi từ Habana Labs.
Trước khi đào sâu vào thế giới của Gaudi và Habana, hãy cùng nhau khám phá một chút về thị trường chip AI hiện đại. Nghiên cứu về chip xử lý AI không phải là điều mới mẻ gần đây, mà đã có lịch sử từ những năm cuối của thập kỷ 80 trong thế kỷ trước. Mặc dù thuật toán AI lúc ấy còn khá sơ khai, nhưng phần cứng để hỗ trợ chúng cũng khá cơ bản. Phần lớn chúng được sử dụng để nhận diện văn bản từ các hình ảnh. Tuy nhiên, phạm vi ngôn ngữ mà chúng có thể hiểu thực sự bị giới hạn bởi tư duy của nhà phát triển và kích thước của tập dữ liệu, chủ yếu là tiếng Anh.Sau này, với tốc độ xử lý của các bộ xử lý ngày càng tăng lên, đặc biệt khi SIMD (Single Instruction, Multiple Data) xuất hiện trên các chip ngày càng phổ biến hơn, chúng trở thành lựa chọn phù hợp cho các nhiệm vụ AI. Tuy nhiên, CPU được thiết kế để làm nhiều nhiệm vụ (general purpose), không được tối ưu hóa cho bất kỳ nhiệm vụ cụ thể nào. Vì vậy, CPU về cơ bản vẫn có thể xử lý AI, nhưng tổng thể thì vẫn chưa đủ nhanh để xử lý các công việc có khối lượng lớn hơn, đặc biệt là khi tập dữ liệu ngày càng phình to từ khi Internet trở nên phổ biến.
Siêu máy tính EOS của NVIDIA được tạo ra từ 10.752 GPU Hopper H100.
Các con thú trong kỳ lân kỳ diệu đã hội tụ để tham gia vào một cuộc hội nghị to lớn, nơi mà họ cùng nhau thảo luận về sự phát triển của công nghệ AI và ứng dụng của nó trong lĩnh vực học máy và học sâu. Tất cả mọi người đều nhất trí rằng GPU đang chơi một vai trò then chốt trong việc thúc đẩy tiến bộ trong lĩnh vực này.
So sánh giữa CPU và GPU có thể được hiểu một cách đơn giản như so sánh giữa một người thợ thủ công chuyên nghiệp và một nhóm công nhân tay mơ. Mặc dù CPU có thể xử lý nhiều công việc khác nhau, nhưng GPU lại xuất sắc hơn trong việc xử lý hàng loạt nhiệm vụ cụ thể, đặc biệt là trong lĩnh vực của AI.
Như một người hiểu biết về máy móc đã nói: 'Nhân CPU có thể mạnh mẽ và linh hoạt, nhưng họ thường chậm chạp khi phải xử lý lượng dữ liệu lớn.' Điều này thể hiện sự cần thiết của GPU trong các ứng dụng đòi hỏi xử lý hàng loạt dữ liệu như AI.Trong thế giới của công nghệ, CPU và GPU luôn là hai 'đối thủ' không ngừng cạnh tranh. Mỗi cái có những ưu và nhược điểm riêng, khiến cho việc lựa chọn giữa chúng trở nên khá phức tạp.
AI là một lĩnh vực công nghệ đầy hứa hẹn với nhiều tiềm năng phát triển. Trong đó, FPGA đóng vai trò quan trọng trong việc nghiên cứu và phát triển các ứng dụng trí tuệ nhân tạo.Sự sáng tạo và sự cạnh tranh giữa các hãng công nghệ hàng đầu thế giới đã đưa FPGA trở thành một công cụ quan trọng trong việc xây dựng và thử nghiệm các giải pháp AI mới.
FPGA là một công cụ mạnh mẽ để lập trình trí tuệ nhân tạo, tuy nhiên chi phí của nó khá cao và không phổ biến rộng rãi
Câu chuyện về Gaudi được đề cập trong nội dung này. Gaudi là một sản phẩm vi mạch chuyên dụng (ASIC - Application-Specific Integrated Circuit) được tạo ra đặc biệt để thực hiện tính toán trong lĩnh vực trí tuệ nhân tạo. Khác với các chip GPU của AMD hay NVIDIA, Gaudi không phải là GPGPU (General Purpose Graphics Processing Unit). Trong thời điểm hiện tại, GPU không chỉ đơn thuần thực hiện các tác vụ đồ họa, mà còn hỗ trợ giải mã video, xử lý hậu kỳ phim ảnh, tính toán siêu máy tính, cũng như khai thác tiền điện tử. Tóm lại, GPU hiện nay có tính linh hoạt cao hơn so với mục đích ban đầu của nó là chỉ thực hiện tính toán đồ họa 2D/3D.
Do phải xử lý quá nhiều nhiệm vụ, GPU dần mất đi sự chuyên môn của mình. Thiết kế GPU hiện nay phải tích hợp quá nhiều thành phần khác nhau, từ các nhân đồ họa tiêu chuẩn đến các nhân điện toán cao cấp 64-bit, cũng như bộ mã/ giải mã phương tiện, và các nhân tensor cho trí tuệ nhân tạo. Điều này dẫn đến việc lượng silicon cần thiết cho GPU là rất lớn, nhưng đối với việc chỉ thực hiện tính toán trí tuệ nhân tạo thì không cần thiết. Từ một góc nhìn khác, có thể coi là việc này là lãng phí vì khi thực hiện tính toán trí tuệ nhân tạo, các thành phần không liên quan sẽ không được tận dụng.
Cấu trúc 1/144 SM của H100 có quá nhiều yếu tố chức năng dẫn đến việc không thể tận dụng hết cùng một lúc
Đây cũng là một trong những lý do khiến một số công ty công nghệ như Amazon, Microsoft hay Google chuyển sang sử dụng chip trí tuệ nhân tạo của riêng mình (ngoài việc tránh phụ thuộc vào NVIDIA). Với thiết kế ASIC, sẽ tận dụng tối đa lượng silic của mình để phục vụ trí tuệ nhân tạo mà không bị 'tạp nham' như những con chip đa nhiệm. Vì vậy, Gaudi, Gaudi 2 và Gaudi 3 của Habana là những mẫu ASIC đáng chú ý.
Một điều cần làm rõ là Gaudi ban đầu không phải là sản phẩm của Intel. Habana Labs được thành lập từ năm 2016 với mục tiêu tạo ra những con chip trí tuệ nhân tạo hàng đầu. Cho đến năm 2019, khi sản phẩm đầu tiên là Gaudi ra đời, Habana mới trở thành một công ty con của Intel. Gaudi được sản xuất trên tiến trình 16 nm của TSMC nên hoàn toàn không liên quan đến Intel vào thời điểm đó.Giới thiệu về Gaudi
Tuy nhiên, điểm quan trọng ở đây là Habana không tuân theo con đường AI như AMD hay NVIDIA hay Intel (trước Gaudi). Cả ba công ty đó vẫn duy trì nguyên tắc thiết kế đa nhiệm vụ (CPU/GPU) khi đề xuất về AI. Có thể nói công ty nào tiên phong trong AI sẽ luôn có lợi thế hơn 'người đến sau'. Và Intel lại là người tiên phong ít nhất trong cả thiết kế GPU và AI. Nếu cố gắng theo kịp NVIDIA bằng cách thiết kế GPU tốt rồi sau đó cải tiến thêm nhân Tensor để tăng cường về mặt AI thì sẽ tốn rất nhiều thời gian (thực tế, Intel vẫn áp dụng cách tiếp cận này trên dòng sản phẩm GPU Flex, nhưng đó sẽ là một câu chuyện khác) và không chắc đã có thể theo kịp.
Cấu trúc của Gaudi rất đơn giản nhưng hiệu quả caoVì thế nếu không có sự xuất hiện của 'điều kỳ diệu', thì rất khó có thể xảy ra 'phép màu'. Gaudi của Habana chính là 'điều kỳ diệu' này. Ban đầu, nó được thiết kế với mục đích chính là phục vụ trí tuệ nhân tạo, với toàn bộ sự tập trung và nỗ lực của nó đều hướng về phía đó. Vì vậy, mặc dù tổng số transistor trên chip ASIC có thể ít hơn so với GPU, nhưng hiệu suất của nó trong lĩnh vực trí tuệ nhân tạo vẫn không thua kém. Trở lại ví dụ về công việc, dù số lượng công nhân có thể ít hơn số lượng thợ, nhưng yêu cầu quan trọng ở đây là chuyên môn và tập trung vào một công việc cụ thể.Về mặt kiến trúc, Gaudi có thể được coi là khá 'đơn giản' so với các thiết kế CPU/GPU đa nhiệm nhiệm vụ khác. Sức mạnh chính của nó nằm ở 8 nhân Tensor (TPC - Tensor Processor Core) VLIW (Very Long Instruction Word) SIMD và 1 Engine nhân ma trận (GEMM - General Matrix Multiply). Tất cả chúng chia sẻ một bộ nhớ SRAM 24 MB và được bổ sung thêm 4 chip nhớ HBM2 để tổng dung lượng RAM đạt 32 GB. Giao tiếp với các chip Gaudi khác hoặc CPU trong cùng hệ thống được thực hiện thông qua 10 cổng Ethernet 100 Gbit và 16 lane PCI Express 4.0. Các nhân TPC hỗ trợ nhiều loại toán tử như FP32, BF16, INT32, INT16, INT8, UINT32, UINT16 và UINT8.Tuy nhiên, Gaudi có thể được coi là một sản phẩm tương đối 'trễ trệ' khi được sản xuất trên quy trình công nghệ 16 nm của TSMC. Tuy nhiên, điều này cũng có thể được hiểu và tha thứ vì Habana, trước khi được Intel mua lại, chỉ là một công ty nhỏ, khó có thể cạnh tranh với các đối thủ lớn khác trong ngành công nghệ bán dẫn. Sau khi thuộc về Intel, phiên bản Gaudi 2 mới thực sự là một bước đột phá đáng chú ý.
Gaudi 2, vũ khí mới của Intel, vượt trội hơn hẳn Ampere A100 của NVIDIA trong lĩnh vực trí tuệ nhân tạo.
Habana đã chứng minh sức mạnh của Gaudi 2 qua các số liệu benchmark, đánh bại hoàn toàn đối thủ cùng phân khúc từ NVIDIA.
Không thể phủ nhận sức hút và uy lực của Gaudi 2 trên thị trường AI, khiến cho Ampere A100 phải dè chừng.Sự xuất hiện đột ngột của Gaudi 2 đã khiến NVIDIA bất ngờ. Hopper H100 ra đời để cạnh tranh vị trí số 1. H100 chiếm ưu thế với công nghệ sản xuất 4 nm của TSMC và số lượng transistor lớn hơn gấp đôi so với A100.
Gaudi 2 đã thêm toán tử FP8 và đạt hiệu năng gấp đôi so với trước đó. Dù vẫn cách xa H100, nhưng cạnh tranh chính xác là giữa Gaudi 2 và A100, không phải H100.
So sánh hiệu năng làm nổi bật Gaudi 2 hơn.Mặc dù NVIDIA đã thể hiện sức mạnh của H100, Gaudi 2 lại vượt trội về hiệu năng/giá. Ví dụ, trong bài test Stable Diffusion, hệ thống 64 chip Gaudi 2 chỉ mất hơn 20 phút để huấn luyện, trong khi đó 64 chip H100 lại mất gần một nửa thời gian. Đáng chú ý, hệ thống 1024 chip H100 lại mất tới 2.5 phút (chỉ nhanh gấp 4 lần), điều này cho thấy sự không tương xứng trong hiệu suất. Bước đi này đã khiến cho NVIDIA phải đối mặt với một thách thức lớn!
Tuy nhiên, để thật sự đánh bại NVIDIA, Intel cần phải mạnh mẽ hơn. Đó chính là mục tiêu của Gaudi 3. Thực tế, ngay từ khi Gaudi 2 ra mắt, COO của Habana - Eitan Medina - đã tiết lộ về kế hoạch sắp tới của Gaudi 3. Sản phẩm này sẽ được sản xuất trên công nghệ TSMC 5 nm và dự kiến sẽ ra mắt vào đầu năm 2024, ngay sau khi Intel công bố dòng chip Xeon Emerald Rapids mới.
Hiện tại, thông số cấu hình của Gaudi 3 vẫn chưa được tiết lộ hoàn toàn. Tuy nhiên, dựa vào hình ảnh rò rỉ, có thể thấy Gaudi 3 sử dụng thiết kế với 2 chiplet. Nâng cấp số lượng chip nhớ HBM lên 8 chip, năng lực xử lý BF16 tăng gấp 4 lần và băng thông mạng tăng gấp đôi. Nếu mọi điều này không thay đổi, Gaudi 3 có thể hoàn toàn vượt trội H100 khi ra mắt. Điều này có thể khiến NVIDIA buộc phải sớm tung ra dòng chip Blackwell, được đồn đoán sẽ sử dụng công nghệ 3 nm của TSMC. Tuy nhiên, vấn đề nằm ở chỗ chúng ta vẫn chưa biết liệu số transistor trên Blackwell có nhiều hơn Hopper bao nhiêu lần. Tuy nhiên, từ 7 nm xuống 4 nm, Hopper chỉ có 80 tỉ transistor so với 54 tỉ của Ampere. Nếu Blackwell tương tự, dự kiến sẽ có khoảng 120 tỉ transistor. Sự đua tranh giữa Gaudi 3 và Blackwell sẽ là một điểm nóng trong thời gian sắp tới.
Nhận ra cái gì phù hợp nhất cho AI: ASIC hay GPGPU? Câu trả lời không nằm ở việc đánh giá mạnh mẽ các GPU từ AMD và NVIDIA. Nhưng việc chúng phải chứa đựng quá nhiều chức năng đã làm cho chúng trở nên không hiệu quả về mặt tiêu thụ năng lượng. Một thiết kế dành cho siêu máy tính (HPC) yêu cầu các khả năng tính toán cao như FP64, nhưng AI lại không cần điều đó và ngược lại.
Xem xét cấu trúc sản phẩm AI của Intel, Gaudi nắm vị trí hàng đầu, trong khi GPU/CPU đa chức năng chỉ chiếm các vị trí thấp hơn. Có phải một thiết kế đa nhiệm vụ dành cho mọi thứ sẽ hiệu quả hơn so với việc tập trung vào một lĩnh vực? Điều này cần sự chú ý từ AMD, NVIDIA và những tên tuổi công nghệ khác.
Deeptalk là loại bài phân tích sâu với nội dung chất lượng và đồ họa đẹp mắt. Hình ảnh trong bài được mở rộng để bạn có thể tận hưởng thông tin theo cách hoàn toàn mới. Hãy thưởng thức Deeptalk kèm một ly cà phê thơm ngon để trải nghiệm sự phê khích!
