Amazon cung cấp siêu máy tính chip AI cho ‘đối thủ Open AI’, thay thế chip NVIDIA

Amazon Web Services (AWS) vừa công bố kế hoạch xây dựng "Ultracluster", một siêu máy tính AI khổng lồ sử dụng hàng trăm nghìn chip Trainium do chính hãng phát triển. Thông báo được đưa ra tại hội nghị thường niên 're:Invent' ở Las Vegas hôm thứ Ba.

Dự án Rainier, được triển khai cho startup AI Anthropic - đối tác mới nhận khoản đầu tư 4 tỷ USD từ Amazon, dự kiến hoàn thành vào năm 2025. Theo ông Dave Brown, phó Chủ tịch dịch vụ mạng và điện toán của AWS, đây sẽ là một trong những cụm máy tính AI lớn nhất thế giới.

Amazon phát triển siêu máy tính AI khổng lồ, sử dụng hàng trăm nghìn con chip do chính hãng phát triển thay vì NVIDIA - ảnh 1

Qiong Zhao, một kỹ sư thử nghiệm ASIC tại phòng thí nghiệm của AWS, chạy nhiều thử nghiệm khác nhau trên chip Trainium2 mới

Bên cạnh đó, AWS còn giới thiệu Ultraserver - máy chủ mới với 64 chip kết nối riêng, và công bố Apple là một trong những khách hàng đầu tiên sử dụng công nghệ này.

Động thái này nhằm thách thức vị thế thống trị của NVIDIA trong thị trường chip AI. Theo International Data Corp., thị trường chất bán dẫn AI dự kiến đạt 193,3 tỷ USD vào năm 2027, trong khi NVIDIA hiện chiếm khoảng 95% thị phần.

Ông Matt Garman, giám đốc điều hành AWS, khẳng định: "Ngày nay, thực sự chỉ có một lựa chọn duy nhất về GPU, đó là NVIDIA. Chúng tôi tin rằng khách hàng sẽ đánh giá cao việc có nhiều lựa chọn."

Không chỉ riêng Amazon, các ông lớn công nghệ như Microsoft và Google, đến các startups mới nổi như Cerebras Systems và SambaNova Systems, cũng đang phát triển chip AI riêng, nhằm giảm sự phụ thuộc vào NVIDIA. Chiến lược này tương tự như cách AWS đã thành công với bộ xử lý Graviton từ năm 2018.

Với việc phát triển chip Trainium, AWS đang khẳng định quyết tâm tạo ra một giải pháp thay thế chi phí thấp nhưng không kém hiệu quả so với các giải pháp hiện tại trên thị trường.

AWS đã công bố Inferentia vào năm 2018, một con chip học máy chuyên dụng cho suy luận, là quá trình chạy dữ liệu qua một mô hình AI để tạo ra đầu ra. Nhóm đã theo đuổi suy luận trước tiên, vì đây là một nhiệm vụ ít đòi hỏi hơn so với đào tạo, James Hamilton, phó Chủ tịch cấp cao và kỹ sư xuất sắc của Amazon cho biết.

Amazon phát triển siêu máy tính AI khổng lồ, sử dụng hàng trăm nghìn con chip do chính hãng phát triển thay vì NVIDIA - ảnh 2

Rami Sinno, giám đốc kỹ thuật tại Annapurna Labs ở Austin,Texas

Đầu não trong nỗ lực phát triển chip AI của Amazon Web Services (AWS) nằm tại Austin, Texas, nơi đặt phòng thí nghiệm của Annapurna Labs - công ty vi điện tử Israel mà Amazon đã mua lại với giá 350 triệu USD vào năm 2015.

Ông Gadi Hutt, Giám đốc sản phẩm và kỹ thuật khách hàng, tiết lộ rằng phòng thí nghiệm chip đã được thành lập ngay từ những ngày đầu, với chiến lược chọn địa điểm nằm trong khu vực trọng điểm của các hãng chip hàng đầu.

Năm 2020 đánh dấu bước ngoặt khi Annapurna giới thiệu Trainium - chip AI đầu tiên dành cho khách hàng đào tạo mô hình. Năm ngoái, AWS đã nâng cấp lên Trainium2 và đang nghiên cứu thế hệ tiếp theo - Trainium3, được cho là mạnh gấp bốn lần phiên bản tiền nhiệm.

Trong bối cảnh các mô hình AI và bộ dữ liệu ngày càng phát triển mạnh mẽ, các hãng công nghệ lớn đang đua nhau đầu tư vào chip và cụm chip để tối ưu hóa năng lực xử lý. Không chỉ mua chip từ Nvidia hay tự thiết kế, họ còn tìm cách tích hợp nhiều chip nhất có thể vào một hệ thống duy nhất.

Amazon, thông qua sự hợp tác giữa Annapurna và Anthropic, đã xây dựng một cụm chip mới để phục vụ nhu cầu đào tạo và triển khai các mô hình AI tương lai. AWS cho biết cụm này lớn hơn năm lần, tính theo exaflop, so với cụm đào tạo hiện tại của Anthropic. Để so sánh, siêu máy tính Colossus của xAI, do Elon Musk dẫn dắt, sử dụng 100.000 chip Nvidia Hopper.

Theo Dave Hamilton, chuyên gia của Amazon, việc mở rộng quy mô máy chủ giúp cải thiện hiệu suất tổng thể. Ông nhận định: "Ngay khi nhận ra lợi ích này, bạn bắt đầu tập trung tối đa hóa quy mô và khả năng của mỗi máy chủ."

Amazon giới thiệu "Ultraserver" với thiết kế liên kết 64 chip thành một cụm duy nhất, mỗi máy chủ chứa 16 chip Tranium. Tuy nhiên, Amazon không chỉ nhấn mạnh vào việc cạnh tranh với Nvidia. Thay vào đó, hãng cam kết mang lại sự linh hoạt, cho phép khách hàng sử dụng bất kỳ sự kết hợp phần cứng nào phù hợp với nhu cầu trên nền tảng đám mây của mình.

Eiso Kant, nhà đồng sáng lập startup AI Poolside, chia sẻ rằng công ty tiết kiệm được khoảng 40% chi phí khi sử dụng chip của Amazon thay vì GPU Nvidia. Tuy vậy, Poolside cũng phải đầu tư thêm thời gian và nguồn lực để tùy chỉnh phần mềm tương thích với hệ thống của Amazon.

Amazon phát triển siêu máy tính AI khổng lồ, sử dụng hàng trăm nghìn con chip do chính hãng phát triển thay vì NVIDIA - ảnh 3

Một siêu máy tính Trainium2 Ultraserver mới trong phòng thí nghiệp Annapurna Labs; một kỹ sư đang làm việc trên đơn vị thử nghiệm của Trainium2 Ultraserver

Điểm mạnh của Amazon, theo Kant, là khả năng sản xuất chip silicon trực tiếp qua TSMC và tích hợp vào các trung tâm dữ liệu của mình. Điều này đảm bảo tính ổn định và giảm rủi ro cho các startup AI, bởi bất kỳ sự chậm trễ nào trong 6 tháng cũng có thể đe dọa sự tồn tại của doanh nghiệp.

Cạnh tranh trong lĩnh vực này không chỉ gói gọn ở Amazon và Nvidia. Tại một sự kiện mới đây, Benoit Dupin, Giám đốc cấp cao về AI tại Apple, tiết lộ rằng công ty đang thử nghiệm chip Trainium2 của Amazon và kỳ vọng cắt giảm tới 50% chi phí vận hành.

Các nhà phân tích cho rằng, đối với đa số doanh nghiệp, việc lựa chọn nhà cung cấp chip giữa Nvidia và Amazon không phải là ưu tiên cấp bách. Trọng tâm của các công ty lớn vẫn là khai thác giá trị từ các mô hình AI, chứ không phải chi tiết kỹ thuật đằng sau.

Xu hướng này lại là lợi thế cho Amazon. Thực tế, hãng có thể dễ dàng hợp tác với các đối tác như Databricks để tích hợp chip Trainium mà hầu như khách hàng sẽ không nhận ra sự khác biệt. Mục tiêu cuối cùng vẫn là cung cấp dịch vụ điện toán hiệu quả và chi phí thấp.

Nhà phân tích Alex Haissl còn nhấn mạnh lợi thế ít được chú ý của AWS ở các lĩnh vực như mạng lưới, trình tăng tốc và nền tảng Bedrock - giải pháp cho phép các công ty sử dụng mô hình AI.

Tuy nhiên, các lãnh đạo vẫn giữ một thái độ thực tế. Matt Garman, giám đốc điều hành AWS, thẳng thắn thừa nhận: "Nvidia vẫn sẽ thống trị thị trường trong một thời gian dài, khi hiện tại họ chiếm đến 99% khối lượng công việc".

Ông cho rằng chip Trainium sẽ tìm được "thị trường ngách" riêng, phù hợp với một số lượng lớn nhưng không phải tất cả các khối lượng công việc AI.

Theo WSJ