AI "giá rẻ" của Trung Quốc làm Thung lũng Silicon chao đảo: Đòn khắc chế Bắc Kinh của Mỹ vô hiệu?

Admin

27/01/2025 20:30

Theo WSJ, điều này cho thấy những hạn chế xuất khẩu của Mỹ đang gặp khó khăn trong việc ngăn chặn những tiến bộ nhanh chóng ở Trung Quốc.

DeepSeek - công ty trí tuệ nhân tạo (AI) Trung Quốc đã khiến Thung lũng Silicon kinh ngạc về cách lập trình viên của họ đạt được những thành tựu gần như tương đương với các đối thủ Mỹ mặc dù sử dụng chip kém tiên tiến hơn.

Các mô hình AI từ DeepSeek đã vươn lên và lọt vào top 10 toàn cầu về hiệu suất trên bảng xếp hạng Chatbot Arena. Theo đánh giá của Wall Street Journal (WSJ), điều này cho thấy những hạn chế xuất khẩu của Mỹ đang gặp khó khăn trong việc ngăn chặn những tiến bộ nhanh chóng ở Trung Quốc.

Sản phẩm được DeepSeek ra mắt trong bối cảnh Mỹ vẫn duy trì các hạn chế xuất khẩu ngặt nghèo áp đặt lên ngành công nghiệp bán dẫn của Trung Quốc. Đây vốn là một trong những nỗ lực quy mô lớn của chính quyền Mỹ tiền nhiệm nhằm cản trở khả năng của Trung Quốc trong việc tiếp cận và sản xuất các chip mà Washington cho là có thể giúp thúc đẩy AI, phục vụ cho các ứng dụng quân sự, hoặc có thể đe dọa an ninh quốc gia của Mỹ.

Thung lũng Silicon phải bất ngờ

Ngày 20/1, DeepSeek đã cho ra mắt R1, một mô hình chuyên biệt được thiết kế cho các nhiệm vụ yêu cầu suy luận và giải quyết vấn đề phức tạp.

"Deepseek R1 là một trong những phát triển đáng kinh ngạc và ấn tượng nhất mà tôi từng thấy," Marc Andreessen, nhà đầu tư mạo hiểm Thung lũng Silicon từng tham gia cố vấn cho Tổng thống Trump nhận xét trong một bài đăng trên X.

Hiện tại, cả 2 mô hình R1 và V3 của Deepseek đều nằm trong top 10 trên Chatbot Arena, nền tảng do các nhà nghiên cứu tại Đại học California, Berkeley tổ chức nhằm đánh giá hiệu suất chatbot. Gemini của Google giữ vị trí đầu bảng, trong khi DeepSeek vượt qua mô hình Claude của Anthropic và Grok do xAI của Elon Musk phát triển.

Các chuyên gia cho rằng công nghệ của DeepSeek vẫn kém hơn so với OpenAI và Google nhưng thừa nhận công ty Trung Quốc là đối thủ sát sườn dù sử dụng chip kém tiên tiến hơn, với số lượng ít hơn, và trong một số trường hợp còn bỏ qua những bước mà các nhà phát triển Mỹ coi là cần thiết.

Mô hình AI "giá rẻ"

DeepSeek tiết lộ, họ mất 5,6 triệu USD để đào tạo một trong những mô hình mới nhất của mình, thấp hơn nhiều so với mức 100 triệu đến 1 tỷ USD mà Dario Amodei, giám đốc điều hành của startup AI Anthropic đưa ra hồi năm ngoái cho chi phí để xây dựng 1 mô hình.

Barrett Woodside, đồng sáng lập công ty phần cứng AI Positron tại San Francisco, cho biết ông và đồng nghiệp của mình đã bàn tán sôi nổi về DeepSeek. "Thật là tuyệt vời," Woodside vừa nói vừa chỉ vào các mô hình mã nguồn mở của DeepSeek, trong đó mã phần mềm đằng sau mô hình AI được cung cấp miễn phí.

Mặc dù mô hình của DeepSeek là miễn phí, nhưng người dùng sẽ mất phí để kết nối ứng dụng của mình với mô hình và cơ sở hạ tầng tính toán của DeepSeek. Ví dụ như trường hợp một doanh nghiệp muốn khai thác công nghệ để cung cấp câu trả lời AI cho câu hỏi của khách hàng.

Đầu năm ngoái, DeepSeek đã giảm giá dịch vụ này xuống chỉ bằng một phần so với các nhà cung cấp khác. Điều này cho thấy ngành công nghiệp ở Trung Quốc đã bắt đầu cuộc chiến giá cả.

Anthony Poo, đồng sáng lập một công ty khởi nghiệp đặt trụ sở ở Thung lũng Silicon, cho biết công ty của ông đã chuyển từ mô hình Claude của Anthropic sang sử dụng mô hình của DeepSeek vào tháng 9. Các thử nghiệm cho thấy DeepSeek hoạt động tương tự chỉ với khoảng một phần tư chi phí.

"Mô hình của OpenAI là tốt nhất về hiệu suất, nhưng chúng tôi không muốn trả tiền cho những tính năng mà chúng tôi không cần", Poo nói.

Một số nhà nghiên cứu cho rằng mô hình DeepSeek thiếu một số tính năng nhất định của các đối thủ đắt tiền hơn, chẳng hạn như duy trì ngữ cảnh trong các cuộc hội thoại dài.

AI "giá rẻ" của Trung Quốc làm Thung lũng Silicon chao đảo: Đòn khắc chế Bắc Kinh của Mỹ vô hiệu?- Ảnh 1.

Cái khó ló cái khôn

DeepSeek phát triển từ đơn vị nghiên cứu AI của High-Flyer, đơn vị quản lý quỹ phòng hộ với 8 tỷ USD tài sản, nổi tiếng với việc sử dụng AI để giao dịch.

Năm 2019, High-Flyer bắt đầu xây dựng một cụm chip phục vụ cho nghiên cứu AI, một phần từ nguồn vốn thu được nhờ kinh doanh tài chính. Công ty này sau đó đã xây dựng một cụm chip lớn hơn với khoảng 10.000 đơn vị xử lý đồ họa Nvidia, có thể được sử dụng để đào tạo các mô hình ngôn ngữ lớn.

Chỉ có một vài công ty ở Trung Quốc có cơ sở hạ tầng máy tính đủ mạnh để phát triển những mô hình như vậy vào cuối năm 2022, khi OpenAI phát hành ChatGPT.

DeepSeek cho biết trong một báo cáo kỹ thuật rằng họ đã sử dụng một cụm hơn 2.000 chip Nvidia để đào tạo mô hình V3 của mình, ít hơn so với hàng chục nghìn chip mà các nhà phát triển khác đã sử dụng để đào tạo các mô hình cùng kích thước.

Một số chuyên gia AI Mỹ gần đây đã đặt câu hỏi liệu High-Flyer và DeepSeek có đang tiếp cận sức mạnh hạ tầng vượt trội hơn những gì họ đã công bố hay không.

Đối với mô hình mới nhất được phát hành hôm 20/1, DeepSeek đã bỏ qua quá trình tinh chỉnh có giám sát (SFT), trong đó các lập trình viên nhập vào kiến thức của các chuyên gia để cho mô hình một khởi đầu. DeepSeek cho biết mô hình của họ có thể sánh ngang với mô hình lý luận o1 của OpenAI dù bỏ qua quá trình SFT và tập trung vào quá trình học tăng cường (RL).

Jim Fan, nhà khoa học nghiên cứu cấp cao tại Nvidia đã khen báo cáo của DeepSeek là đột phá. Ông cho biết, DeepSeek khiến ông nhớ tới các chương trình AI tiên phong từng làm chủ các trò chơi như cờ vua "từ con số 0, mà không phải bắt chước các kỳ thủ hàng đầu trước".

Zack Kass, cựu giám đốc điều hành tại OpenAI, nhận xét rằng những tiến bộ mà DeepSeek có được dù gặp phải hạn chế từ Mỹ "nhấn mạnh một bài học lớn hơn: Cái khó ló cái khôn".

Thi Anh