Deepseek: Người đột phá cách mạng hóa cảnh quan AI

Nhóm AIPU Waton

Giới thiệu

Sự lo lắng liên tục giữa các mô hình lớn cạnh tranh, các nhà cung cấp đám mây cạnh tranh để thị phần và các nhà sản xuất chip chăm chỉ, các hiệu ứng Deepseek vẫn tồn tại.

Khi lễ hội mùa xuân kết thúc, sự phấn khích xung quanh Deepseek vẫn mạnh mẽ. Kỳ nghỉ gần đây đã nhấn mạnh một cảm giác cạnh tranh đáng kể trong ngành công nghệ, với nhiều người thảo luận và phân tích "cá trê" này. Thung lũng Silicon đang trải qua một cảm giác khủng hoảng chưa từng có: những người ủng hộ nguồn mở đang lên tiếng lại ý kiến ​​của họ, và thậm chí Openai đang đánh giá lại liệu chiến lược nguồn đóng của nó có phải là lựa chọn tốt nhất hay không. Mô hình mới về chi phí tính toán thấp hơn đã gây ra phản ứng chuỗi giữa các gã khổng lồ chip như NVIDIA, dẫn đến việc ghi lại tổn thất giá trị thị trường một ngày trong lịch sử thị trường chứng khoán Hoa Kỳ, trong khi các cơ quan chính phủ đang điều tra sự tuân thủ của chip do Deepseek sử dụng. Giữa những đánh giá hỗn hợp về Deepseek ở nước ngoài, trong nước, nó đang trải qua sự tăng trưởng phi thường. Sau khi ra mắt mô hình R1, ứng dụng liên quan đã chứng kiến ​​sự gia tăng lưu lượng truy cập, cho thấy sự tăng trưởng trong các lĩnh vực ứng dụng sẽ thúc đẩy hệ sinh thái AI tổng thể về phía trước. Khía cạnh tích cực là Deepseek sẽ mở rộng các khả năng của ứng dụng, cho thấy rằng việc dựa vào TATGPT sẽ không đắt như vậy trong tương lai. Sự thay đổi này đã được phản ánh trong các hoạt động gần đây của Openai, bao gồm việc cung cấp một mô hình lý luận có tên O3-Mini cho người dùng miễn phí để đáp ứng với Deepseek R1, cũng như các nâng cấp tiếp theo làm cho chuỗi tư tưởng của O3-Mini công khai. Nhiều người dùng ở nước ngoài bày tỏ lòng biết ơn đối với Deepseek cho những phát triển này, mặc dù chuỗi suy nghĩ này đóng vai trò là một bản tóm tắt.

Một cách lạc quan, rõ ràng là Deepseek đang thống nhất những người chơi trong nước. Tập trung vào việc giảm chi phí đào tạo, các nhà sản xuất chip ngược dòng, các nhà cung cấp đám mây trung gian và nhiều công ty khởi nghiệp đang tích cực tham gia hệ sinh thái, tăng cường hiệu quả chi phí khi sử dụng mô hình DeepSeek. Theo các bài báo của Deepseek, việc đào tạo đầy đủ mô hình V3 chỉ cần 2,788 triệu giờ H800 GPU và quy trình đào tạo rất ổn định. Kiến trúc MOE (hỗn hợp của các chuyên gia) là rất quan trọng để giảm chi phí đào tạo trước một hệ số mười so với Llama 3 với 405 tỷ thông số. Hiện tại, V3 là mô hình được công nhận công khai đầu tiên thể hiện sự thưa thớt cao như vậy trong MOE. Ngoài ra, MLA (sự chú ý nhiều lớp) hoạt động hiệp đồng, đặc biệt là trong các khía cạnh lý luận. "MOE càng tăng, kích thước lô càng lớn trong quá trình lý luận để sử dụng đầy đủ sức mạnh tính toán, với kích thước của KVCache là yếu tố hạn chế quan trọng; MLA làm giảm đáng kể kích thước KVCache", nhà nghiên cứu lưu ý từ công nghệ Chuanjing trong phân tích để đánh giá công nghệ AI. Nhìn chung, thành công của Deepseek nằm ở sự kết hợp của các công nghệ khác nhau, không chỉ là một công nghệ duy nhất. Những người trong ngành ca ngợi khả năng kỹ thuật của đội DeepSeek, lưu ý đến sự xuất sắc của họ trong đào tạo song song và tối ưu hóa nhà điều hành, đạt được kết quả đột phá bằng cách tinh chỉnh mọi chi tiết. Phương pháp tiếp cận nguồn mở của Deepseek tiếp tục phát triển tổng thể các mô hình lớn và dự đoán rằng nếu các mô hình tương tự mở rộng thành hình ảnh, video và hơn thế nữa, điều này sẽ kích thích đáng kể nhu cầu trong ngành.

Cơ hội cho các dịch vụ lý luận của bên thứ ba

Dữ liệu chỉ ra rằng kể từ khi phát hành, Deepseek đã tích lũy 22,15 triệu người dùng hoạt động hàng ngày (DAU) chỉ trong 21 ngày, đạt được 41,6% cơ sở người dùng của TATGPT và vượt qua 16,95 triệu người dùng hoạt động hàng ngày của người dùng Doubao, do đó trở thành ứng dụng phát triển nhanh nhất trên toàn cầu, đứng đầu các cửa hàng ứng dụng Apple trong 157 Tuy nhiên, trong khi người dùng đổ xô vào các nhóm, các tin tặc mạng đã không ngừng tấn công ứng dụng DeepSeek, gây ra sự căng thẳng đáng kể cho các máy chủ của mình. Các nhà phân tích ngành tin rằng điều này là một phần do DeepSeek triển khai thẻ để đào tạo trong khi thiếu đủ sức mạnh tính toán để lý luận. Một người trong công nghiệp đã thông báo cho đánh giá công nghệ AI, "Các vấn đề máy chủ thường xuyên có thể được giải quyết dễ dàng bằng cách tính phí hoặc tài trợ để mua thêm máy móc; cuối cùng, nó phụ thuộc vào quyết định của Deepseek." Điều này trình bày sự đánh đổi trong việc tập trung vào công nghệ so với sản xuất. Deepseek chủ yếu dựa vào lượng tử hóa lượng tử để tự chịu đựng, đã nhận được rất ít tài trợ bên ngoài, dẫn đến áp lực dòng tiền tương đối thấp và môi trường công nghệ tinh khiết hơn. Hiện tại, trong bối cảnh các vấn đề đã nói ở trên, một số người dùng đang thúc giục Deepseek trên phương tiện truyền thông xã hội nâng cao ngưỡng sử dụng hoặc giới thiệu các tính năng trả phí để tăng cường sự thoải mái cho người dùng. Ngoài ra, các nhà phát triển đã bắt đầu sử dụng API chính thức hoặc API của bên thứ ba để tối ưu hóa. Tuy nhiên, nền tảng mở của Deepseek gần đây đã công bố, "Tài nguyên máy chủ hiện tại đang khan hiếm và các bộ sạc dịch vụ API đã bị đình chỉ.

 

Điều này chắc chắn mở ra nhiều cơ hội hơn cho các nhà cung cấp bên thứ ba trong lĩnh vực cơ sở hạ tầng AI. Gần đây, nhiều người khổng lồ đám mây trong nước và quốc tế đã ra mắt mô hình API của Deepseek, người khổng lồ Microsoft và Amazon là một trong những người đầu tiên tham gia vào cuối tháng 1. Nhà lãnh đạo trong nước, Huawei Cloud, đã thực hiện bước đầu tiên, phát hành các dịch vụ lý luận của Deepseek R1 và V3 phối hợp với dòng chảy dựa trên Silicon vào ngày 1 tháng 2. Các công ty công nghệ lớn của Big Bat BAT (Baidu, Alibaba, Tencent) và Bytedance, cũng phát hành các ưu đãi thời gian giới hạn, chi phí thấp bắt đầu từ ngày 3 tháng 2, gợi nhớ đến nhà cung cấp đám mây của nhà cung cấp giá cả năm ngoái được đốt cháy bởi sự ra mắt mô hình V2 của Deepseek, nơi Deepseek bắt đầu được mệnh danh là "Price Butcher." Các hành động điên cuồng của các nhà cung cấp đám mây lặp lại mối quan hệ mạnh mẽ trước đó giữa Microsoft Azure và Openai, trong năm 2019, Microsoft đã đầu tư 1 tỷ đô la vào OpenAI và gặt hái các lợi ích sau khi ra mắt vào năm 2023. Trong trường hợp này, Deepseek đã không chỉ vượt qua TATGPT về nhiệt sản phẩm mà còn giới thiệu các mô hình nguồn mở sau bản phát hành O1, tương tự như sự phấn khích xung quanh sự hồi sinh của Llama về GPT-3.

 

Trong thực tế, các nhà cung cấp đám mây cũng đang định vị mình là cổng giao thông cho các ứng dụng AI, có nghĩa là việc tăng cường mối quan hệ với các nhà phát triển chuyển sang lợi thế ưu tiên. Các báo cáo chỉ ra rằng Baidu Smart Cloud đã có hơn 15.000 khách hàng sử dụng mô hình DeepSeek thông qua nền tảng Qianfan vào ngày ra mắt của mô hình. Ngoài ra, một số công ty nhỏ hơn đang cung cấp các giải pháp, bao gồm dòng chảy dựa trên silicon, công nghệ Luchen, công nghệ Chuanjing và các nhà cung cấp AI Infra khác nhau đã đưa ra hỗ trợ cho các mô hình Deepseek. Đánh giá công nghệ AI đã học được rằng các cơ hội tối ưu hóa hiện tại cho việc triển khai cục bộ của DeepSeek chủ yếu tồn tại trong hai lĩnh vực: một là tối ưu hóa cho các đặc điểm thưa thớt của mô hình MOE bằng cách sử dụng phương pháp lý luận hỗn hợp để triển khai mô hình MOE tham số 671 tỷ trong khi sử dụng giải pháp GPU/CPU lai. Ngoài ra, việc tối ưu hóa MLA là rất quan trọng. Tuy nhiên, hai mô hình của Deepseek vẫn phải đối mặt với một số thách thức trong việc tối ưu hóa triển khai. "Do kích thước của mô hình và nhiều thông số, tối ưu hóa thực sự rất phức tạp, đặc biệt đối với việc triển khai địa phương trong đó đạt được sự cân bằng tối ưu giữa hiệu suất và chi phí sẽ là một thách thức", một nhà nghiên cứu từ Chuanjing Technology nói. Rào cản đáng kể nhất nằm ở việc khắc phục giới hạn dung lượng bộ nhớ. "Chúng tôi áp dụng phương pháp hợp tác không đồng nhất để sử dụng đầy đủ CPU và các tài nguyên tính toán khác, chỉ đặt các phần không chia sẻ của ma trận MOE thưa thớt trên CPU/DRAM để xử lý bằng cách sử dụng các toán tử CPU hiệu suất cao, trong khi các phần dày đặc vẫn ở trên GPU," ông tiếp tục giải thích. Các báo cáo chỉ ra rằng các Ktransformers nguồn mở của Chuanjing chủ yếu đưa các chiến lược và vận hành khác nhau vào triển khai Transformers ban đầu thông qua một mẫu, tăng cường đáng kể tốc độ suy luận bằng các phương pháp như Cudagraph. Deepseek đã tạo ra cơ hội cho các công ty khởi nghiệp này, vì lợi ích tăng trưởng đang trở nên rõ ràng; Nhiều công ty đã báo cáo tăng trưởng khách hàng đáng chú ý sau khi ra mắt API DeepSeek, nhận được yêu cầu từ các khách hàng trước đó đang tìm kiếm tối ưu hóa. Những người trong ngành đã lưu ý: "Trong quá khứ, các nhóm khách hàng được thành lập thường bị khóa vào các dịch vụ tiêu chuẩn của các công ty lớn hơn, bị ràng buộc chặt chẽ bởi lợi thế chi phí của họ do quy mô. Hiện tại, có vẻ như Deepseek đang làm cho hiệu suất suy luận mô hình ngày càng trở nên quan trọng và với việc áp dụng rộng hơn các mô hình lớn, điều này sẽ tiếp tục ảnh hưởng đến sự phát triển trong ngành công nghiệp AI Infra đáng kể. Nếu một mô hình cấp độ sâu thẳm có thể được triển khai tại địa phương với chi phí thấp, thì nó sẽ hỗ trợ rất nhiều cho các nỗ lực chuyển đổi kỹ thuật số của chính phủ và doanh nghiệp. Tuy nhiên, những thách thức vẫn tồn tại, vì một số khách hàng có thể giữ những kỳ vọng cao về khả năng mô hình lớn, cho thấy rõ ràng rằng việc cân bằng hiệu suất và chi phí trở nên quan trọng trong việc triển khai thực tế. 

Để đánh giá xem DeepSeek có tốt hơn TATGPT hay không, điều cần thiết là phải hiểu sự khác biệt, điểm mạnh và trường hợp sử dụng chính của họ. Đây là một so sánh toàn diện:

Tính năng/khía cạnh Deepseek Chatgpt
Quyền sở hữu Được phát triển bởi một công ty Trung Quốc Được phát triển bởi Openai
Mô hình nguồn Nguồn mở Độc quyền
Trị giá Miễn phí để sử dụng; Tùy chọn truy cập API rẻ hơn ĐĂNG KÝ HOẶC TRẢ TIỀN TIỀN TIỀN
Tùy chỉnh Có thể tùy chỉnh cao, cho phép người dùng điều chỉnh và xây dựng nó Tùy chỉnh hạn chế có sẵn
Hiệu suất trong các nhiệm vụ cụ thể Vượt trội trong các lĩnh vực nhất định như phân tích dữ liệu và truy xuất thông tin Đa năng với hiệu suất mạnh mẽ trong việc viết sáng tạo và các nhiệm vụ đàm thoại
Hỗ trợ ngôn ngữ Tập trung mạnh mẽ vào ngôn ngữ và văn hóa Trung Quốc Hỗ trợ ngôn ngữ rộng nhưng trung tâm của Hoa Kỳ
Chi phí đào tạo Chi phí đào tạo thấp hơn, được tối ưu hóa cho hiệu quả Chi phí đào tạo cao hơn, yêu cầu tài nguyên tính toán đáng kể
Biến thể đáp ứng Có thể đưa ra các phản ứng khác nhau, có thể bị ảnh hưởng bởi bối cảnh địa chính trị Câu trả lời nhất quán dựa trên dữ liệu đào tạo
Đối tượng mục tiêu Nhằm vào các nhà phát triển và nhà nghiên cứu muốn linh hoạt Nhằm vào người dùng chung đang tìm kiếm khả năng trò chuyện
Sử dụng trường hợp Hiệu quả hơn cho việc tạo mã và các tác vụ nhanh chóng Lý tưởng để tạo văn bản, trả lời các truy vấn và tham gia vào cuộc đối thoại

Một quan điểm phê phán về "phá vỡ Nvidia"

Hiện tại, ngoài Huawei, một số nhà sản xuất chip trong nước như Moore Threads, Muxi, Biran Technology và Tianxu Zhixin cũng thích nghi với hai mô hình của Deepseek. Một nhà sản xuất chip nói với AI Technology Review, "Cấu trúc của Deepseek thể hiện sự đổi mới, nhưng nó vẫn là một LLM. Sự thích nghi của chúng tôi với Deepseek chủ yếu tập trung vào các ứng dụng lý luận, làm cho việc thực hiện kỹ thuật khá đơn giản và nhanh chóng." Tuy nhiên, phương pháp MOE đòi hỏi nhu cầu cao hơn về lưu trữ và phân phối, cùng với việc đảm bảo khả năng tương thích khi triển khai với chip trong nước, đưa ra nhiều thách thức kỹ thuật cần giải quyết trong quá trình thích ứng. "Hiện tại, sức mạnh tính toán trong nước không phù hợp với NVIDIA về khả năng sử dụng và ổn định, đòi hỏi sự tham gia của nhà máy ban đầu để thiết lập môi trường phần mềm, khắc phục sự cố và tối ưu hóa hiệu suất nền tảng", một nhà thực hành công nghiệp cho biết dựa trên kinh nghiệm thực tế. Đồng thời, "Do thang đo tham số lớn của Deepseek R1, sức mạnh tính toán trong nước đòi hỏi nhiều nút hơn để song song hóa. Ngoài ra, các thông số kỹ thuật phần cứng trong nước vẫn còn phần nào phía sau; ví dụ, Huawei 910B hiện không thể hỗ trợ suy luận FP8 được đưa ra bởi Deepseek." Một trong những điểm nổi bật của mô hình Deepseek V3 là việc giới thiệu khung đào tạo chính xác hỗn hợp FP8, được xác nhận hiệu quả trên một mô hình cực kỳ lớn, đánh dấu một thành tựu đáng kể. Trước đây, những người chơi lớn như Microsoft và Nvidia đã đề xuất công việc liên quan, nhưng nghi ngờ kéo dài trong ngành về tính khả thi. Điều này được hiểu rằng so với INT8, lợi thế chính của FP8 là lượng tử hóa sau đào tạo có thể đạt được độ chính xác gần như không mất trong khi tăng cường đáng kể tốc độ suy luận. Khi so sánh với FP16, FP8 có thể nhận ra gia tốc lên tới hai lần trên H20 của NVIDIA và gia tốc hơn 1,5 lần trên H100. Đáng chú ý, khi các cuộc thảo luận xung quanh xu hướng sức mạnh tính toán trong nước cộng với các mô hình trong nước đạt được động lực, suy đoán về việc NVIDIA có thể bị phá vỡ hay không, và liệu Moat Cuda có thể bị bỏ qua hay không, có ngày càng phổ biến. Một thực tế không thể phủ nhận là Deepseek thực sự đã gây ra sự sụt giảm đáng kể về giá trị thị trường của NVIDIA, nhưng sự thay đổi này đặt ra các câu hỏi liên quan đến tính toàn vẹn sức mạnh tính toán cao cấp của Nvidia. Các câu chuyện được chấp nhận trước đây liên quan đến tích lũy tính toán theo vốn đang bị thách thức, nhưng NVIDIA vẫn khó được thay thế đầy đủ trong các kịch bản đào tạo. Phân tích cách sử dụng sâu của CUDA cho thấy tính linh hoạt, ví dụ như sử dụng SM để giao tiếp hoặc trực tiếp thao túng các thẻ mạng, không khả thi đối với GPU thông thường để phù hợp. Quan điểm của ngành nhấn mạnh rằng con hào của Nvidia bao gồm toàn bộ hệ sinh thái CUDA thay vì chỉ CUDA và các hướng dẫn PTX (thực thi luồng song song) mà Deepseek sử dụng vẫn là một phần của hệ sinh thái CUDA. "Trong ngắn hạn, sức mạnh tính toán của NVIDIA không thể bị bỏ qua, điều này đặc biệt rõ ràng trong đào tạo; tuy nhiên, việc triển khai thẻ trong nước cho lý luận sẽ tương đối dễ dàng hơn, vì vậy tiến trình có thể sẽ nhanh hơn. Việc thích ứng với các thẻ trong nước chủ yếu tập trung vào việc xem xét các thẻ phân tích trong ngành công nghiệp. Nhìn chung, từ quan điểm suy luận, các trường hợp đang khuyến khích các chip mô hình lớn trong nước. Các cơ hội cho các nhà sản xuất chip trong nước trong lĩnh vực suy luận là rõ ràng hơn do các yêu cầu quá cao của đào tạo, cản trở sự tham gia. Các nhà phân tích cho rằng chỉ đơn giản là khai thác thẻ suy luận trong nước đủ; Nếu cần thiết, việc có được một máy bổ sung là khả thi, trong khi các mô hình đào tạo đặt ra những thách thức độc đáo, việc quản lý số lượng máy tăng có thể trở nên nặng nề và tỷ lệ lỗi cao hơn có thể ảnh hưởng tiêu cực đến kết quả đào tạo. Đào tạo cũng có các yêu cầu quy mô cụm cụ thể, trong khi các yêu cầu về các cụm để suy luận không nghiêm ngặt, do đó làm giảm các yêu cầu GPU. Hiện tại, hiệu suất của thẻ H20 duy nhất của NVIDIA không vượt qua Huawei hoặc Cambrian; Sức mạnh của nó nằm trong phân cụm. Tác động tổng thể đối với thị trường năng lượng tính toán, người sáng lập Công nghệ Luchen, You Yang, đã lưu ý trong một cuộc phỏng vấn với Đánh giá công nghệ AI, "Deepseek có thể tạm thời làm suy yếu việc thiết lập và cho thuê các cụm tính toán cực kỳ lớn. liên tục thúc đẩy nhu cầu bền vững trong thị trường điện tính toán. " Ngoài ra, "nhu cầu về dịch vụ lý luận và tinh chỉnh cao của Deepseek tương thích hơn với cảnh quan tính toán trong nước, nơi năng lực địa phương tương đối yếu, giúp giảm thiểu chất thải từ các tài nguyên nhàn rỗi sau khi thành lập cụm; Luchen Technology đã hợp tác với Huawei Cloud để ra mắt loạt API lý luận và dịch vụ hình ảnh đám mây DeepSeek R1 dựa trên sức mạnh tính toán trong nước. Bạn Yang bày tỏ sự lạc quan về tương lai: "Deepseek thấm nhuần sự tự tin vào các giải pháp sản xuất trong nước, khuyến khích sự nhiệt tình và đầu tư lớn hơn vào các khả năng tính toán trong nước trong tương lai."

_20240614024031.jpg1

Phần kết luận

Việc DeepSeek có "tốt hơn" so với TATGPT hay không phụ thuộc vào nhu cầu và mục tiêu cụ thể của người dùng. Đối với các nhiệm vụ cần sự linh hoạt, chi phí thấp và tùy chỉnh, DeepSeek có thể vượt trội. Để viết sáng tạo, yêu cầu chung và giao diện đàm thoại thân thiện với người dùng, TATGPT có thể dẫn đầu. Mỗi công cụ phục vụ các mục đích khác nhau, vì vậy sự lựa chọn sẽ phụ thuộc rất nhiều vào bối cảnh mà chúng được sử dụng.

Tìm giải pháp cáp ELV

Cáp điều khiển

Đối với BMS, xe buýt, công nghiệp, cáp thiết bị.

Hệ thống cáp có cấu trúc

Mạng & Dữ liệu, cáp quang, dây vá, mô-đun, tấm mặt

2024 Đánh giá Triển lãm & Sự kiện

Ngày 18 tháng 4 đến 18, 2024 Trung Đông năng lượng ở Dubai

Ngày 18 tháng 4 đến 18, 2024 Securika tại Moscow

Tháng 5, 2024 Sự kiện ra mắt sản phẩm & công nghệ mới tại Thượng Hải

Ngày 2 tháng 10 đến ngày 25 tháng 10 năm 2024 Trung Quốc an ninh ở Bắc Kinh

19-20/2019, 2024 KSA thế giới kết nối


Thời gian đăng: Tháng 2-10-2025