Startup AI Trung Quốc làm choáng váng thế giới: Ra mắt mô hình AI mới, mạnh ngang ChatGPT, có thể chấm dứt cơn khát GPU NVIDIA cao cấp của Trung Quốc

Admin

30/12/2024 16:12

Quan trọng hơn, mô hình AI này có thể được huấn luyện mà không cần đến các GPU cao cấp của NVIDIA, vốn bị cấm xuất khẩu sang Trung Quốc.

Trong một bước tiến ấn tượng, DeepSeek, công ty khởi nghiệp có trụ sở tại Hàng Châu, Trung Quốc, đã trình làng mô hình ngôn ngữ lớn (LLM) mới mang tên DeepSeek V3. Điều đáng chú ý là mô hình này đã vượt qua các đối thủ nặng ký của Meta Platforms và OpenAI trong những bài kiểm tra hiệu năng, cho dù có chi phí huấn luyện thấp hơn đáng kể.

Trong một bài đăng trên WeChat vào thứ Năm, DeepSeek tiết lộ rằng mô hình DeepSeek V3 mới sở hữu 671 tỷ tham số và chỉ mất khoảng 2 tháng để huấn luyện với chi phí 5,58 triệu USD, sử dụng ít tài nguyên tính toán hơn đáng kể so với các mô hình được phát triển bởi các công ty công nghệ lớn hơn. Các mô hình LLM là công nghệ nền tảng cho các công cụ AI tạo sinh như ChatGPT. Trong AI, số lượng tham số cao đóng vai trò quan trọng, cho phép LLM thích ứng với các mẫu dữ liệu phức tạp hơn và đưa ra dự đoán chính xác hơn.

Startup AI Trung Quốc làm choáng váng thế giới: Ra mắt mô hình AI mới, mạnh ngang ChatGPT, có thể chấm dứt cơn khát GPU NVIDIA cao cấp của Trung Quốc- Ảnh 1.

DeepSeek, startup AI mới nổi của Trung Quốc

Ngay cả Andrej Karpathy, nhà khoa học máy tính và là thành viên nhóm sáng lập OpenAI, đã bày tỏ sự ngạc nhiên trước báo cáo kỹ thuật về mô hình AI mới của DeepSeek. Trong một bài đăng trên nền tảng X, ông viết: "DeepSeek làm cho nó trông dễ dàng với việc phát hành một LLM hàng đầu với ngân sách huấn luyện gần như không đáng kể."

Đáng chú ý, mô hình V3 được huấn luyện với chỉ 2,78 triệu giờ GPU, tức là tổng thời gian sử dụng bộ xử lý đồ họa để huấn luyện một LLM. Hơn thế nữa quá trình này sử dụng GPU H800 của NVIDIA, vốn được thiết kế riêng cho Trung Quốc và có hiệu năng thấp hơn.

Con số này thấp hơn đáng kể so với 30,8 triệu giờ GPU mà Llama 3.1 của Meta cần để huấn luyện trên GPU H100 tiên tiến hơn của NVIDIA, loại chip vốn không được phép xuất khẩu sang Trung Quốc.

Startup AI Trung Quốc làm choáng váng thế giới: Ra mắt mô hình AI mới, mạnh ngang ChatGPT, có thể chấm dứt cơn khát GPU NVIDIA cao cấp của Trung Quốc- Ảnh 2.

Kích thước của DeepSeek V3 ngang ngửa với các mô hình AI hàng đầu thế giới hiện nay, nhưng chi phí huấn luyện thấp hơn đáng kể

Báo cáo kỹ thuật về V3 cho thấy LLM này vượt trội hơn Llama 3.1 của Meta và Qwen 2.5 của Alibaba Group Holding trong một loạt các bài kiểm tra đánh giá khả năng hiểu và tạo văn bản, kiến thức chuyên gia, lập trình và giải quyết vấn đề toán học.

Bên cạnh đó, kết quả benchmark của V3 cũng cho thấy nó có thể sánh ngang với mô hình GPT-4o của OpenAI và Claude 3.5 Sonnet của Anthropic, các mô hình AI hàng đầu thế giới hiện nay.

Sự ra đời của DeepSeek V3 cho thấy các công ty AI Trung Quốc đã tiến bộ như thế nào, bất chấp các lệnh trừng phạt của Mỹ đã chặn quyền truy cập của họ vào các bán dẫn tiên tiến được sử dụng để huấn luyện mô hình. Bằng cách tận dụng kiến trúc mới được thiết kế để đạt được hiệu quả chi phí trong quá trình huấn luyện, DeepSeek đã chứng minh rằng việc phát triển một LLM mạnh mẽ không nhất thiết phải đòi hỏi nguồn vốn khổng lồ như các công ty lớn thường đầu tư.

Startup AI Trung Quốc làm choáng váng thế giới: Ra mắt mô hình AI mới, mạnh ngang ChatGPT, có thể chấm dứt cơn khát GPU NVIDIA cao cấp của Trung Quốc- Ảnh 3.

Việc huấn luyện V3 được thực hiện hoàn toàn trên GPU H800 của NVIDIA, GPU được phép xuất khẩu sang Trung Quốc

DeepSeek được tách ra từ High-Flyer Quant vào tháng 7 năm ngoái, công ty sử dụng AI để vận hành một trong những quỹ đầu cơ định lượng lớn nhất ở Trung Quốc. High-Flyer đã chi 200 triệu nhân dân tệ (27,4 triệu USD) để phát triển cụm AI Fire Flyer I trong giai đoạn 2019-2020, và sau đó chi thêm 1 tỷ nhân dân tệ để xây dựng Fire-Flyer II.

Trong một thông báo vào tháng 4 năm ngoái, High-Flyer cho biết mục tiêu phát triển của DeepSeek là tạo ra "AI sẽ mang lại lợi ích cho toàn nhân loại". Trước đó, DeepSeek đã ra mắt một loạt các mô hình AI, được các nhà phát triển sử dụng để xây dựng các ứng dụng của bên thứ ba, cũng như chatbot của riêng mình.

Với DeepSeek V3, công ty khởi nghiệp Trung Quốc đã chứng tỏ rằng việc phát triển các mô hình AI tiên tiến không còn là sân chơi riêng của các gã khổng lồ công nghệ. Thành tích này hứa hẹn sẽ thúc đẩy sự cạnh tranh và đổi mới trong ngành, đồng thời mở ra cơ hội cho các công ty nhỏ hơn tham gia vào cuộc đua AI. Điều này cũng đặt ra câu hỏi về vai trò của Trung Quốc trong tương lai của AI, khi quốc gia này đang nỗ lực vượt qua các rào cản để trở thành một cường quốc về công nghệ.