Thử nghiệm thông minh nhất trên thế giới Grok3 Grok3

Nhóm AIPU Waton (1)

Giới thiệu

Bạn có nghĩ rằng Grok3 sẽ là "điểm cuối" của các mô hình được đào tạo trước không?

Elon Musk và nhóm XAI đã chính thức ra mắt phiên bản mới nhất của Grok, Grok3, trong một buổi livestream. Trước sự kiện này, một lượng đáng kể thông tin liên quan, cùng với sự cường điệu quảng cáo 24/7 của Musk, đã tăng kỳ vọng toàn cầu đối với GROK3 lên mức chưa từng có. Chỉ một tuần trước, Musk tự tin tuyên bố trong một buổi livestream trong khi bình luận về Deepseek R1, "Xai sắp ra mắt một mô hình AI tốt hơn." Từ dữ liệu được trình bày trực tiếp, Grok3 đã vượt qua tất cả các mô hình chính hiện tại trong các điểm chuẩn cho toán học, khoa học và lập trình, với Musk thậm chí còn cho rằng GROK3 sẽ được sử dụng cho các nhiệm vụ tính toán liên quan đến các nhiệm vụ của SARCEX, dự đoán "đột phá ở cấp độ giải thưởng trong vòng ba năm." Tuy nhiên, đây chỉ là những khẳng định của Musk. Sau khi ra mắt, tôi đã thử nghiệm phiên bản beta mới nhất của Grok3 và đặt ra câu hỏi lừa cổ điển cho các mô hình lớn: "Cái nào lớn hơn, 9.11 hoặc 9.9?" Đáng tiếc, không có bất kỳ vòng loại hay dấu hiệu nào, cái gọi là Grok3 thông minh nhất vẫn không thể trả lời câu hỏi này một cách chính xác. Grok3 không xác định chính xác ý nghĩa của câu hỏi.

 

Thử nghiệm này nhanh chóng thu hút sự chú ý đáng kể từ nhiều người bạn, và trùng hợp, các thử nghiệm tương tự khác nhau ở nước ngoài đã cho thấy Grok3 phải vật lộn với các câu hỏi vật lý/toán học cơ bản như "Bóng nào rơi đầu tiên từ Tháp Leaning of Pisa?" Vì vậy, nó đã được dán nhãn hài hước là "một thiên tài không muốn trả lời các câu hỏi đơn giản".

640

Grok3 là tốt, nhưng nó không tốt hơn R1 hoặc O1-Pro.

GROK3 đã trải qua "thất bại" trên nhiều bài kiểm tra kiến ​​thức phổ biến trong thực tế. Trong sự kiện ra mắt XAI, Musk đã thể hiện sử dụng Grok3 để phân tích các lớp nhân vật và hiệu ứng từ đường dẫn trò chơi lưu vong 2, mà anh ta tuyên bố chơi thường xuyên, nhưng hầu hết các câu trả lời do GROK3 cung cấp là không chính xác. Musk trong khi phát trực tiếp đã không nhận thấy vấn đề rõ ràng này.

 

Sai lầm này không chỉ cung cấp thêm bằng chứng cho các cư dân mạng ở nước ngoài để chế giễu Musk vì "tìm kiếm sự thay thế" trong chơi game mà còn làm dấy lên những lo ngại đáng kể về độ tin cậy của GROK3 trong các ứng dụng thực tế. Đối với một "thiên tài" như vậy, bất kể khả năng thực tế của nó, độ tin cậy của nó trong các kịch bản ứng dụng cực kỳ phức tạp, chẳng hạn như các nhiệm vụ khám phá sao Hỏa, vẫn còn bị nghi ngờ.

 

Hiện tại, nhiều người thử nghiệm đã nhận được quyền truy cập vào GROK3 tuần trước và những người vừa thử nghiệm khả năng mô hình trong vài giờ ngày hôm qua, tất cả đều chỉ ra một kết luận chung: "Grok3 là tốt, nhưng nó không tốt hơn R1 hoặc O1-Pro."

640 (1)

Một quan điểm phê phán về "phá vỡ Nvidia"

Trong PPT được trình bày chính thức trong quá trình phát hành, Grok3 đã được chứng minh là xa phía trước trên phạm vi trên đấu trường Chatbot, nhưng các kỹ thuật đồ họa được sử dụng khéo léo này: trục dọc trên bảng xếp hạng chỉ được liệt kê kết quả trong phạm vi điểm 1400-1300, làm cho sự khác biệt 1% ban đầu trong kết quả kiểm tra có vẻ đặc biệt có ý nghĩa trong hiện tại.

640

Trong kết quả ghi điểm mô hình thực tế, Grok3 chỉ vượt xa 1-2% so với Deepseek R1 và GPT-4.0, tương ứng với nhiều trải nghiệm của người dùng trong các thử nghiệm thực tế không tìm thấy "không có sự khác biệt đáng chú ý". GROK3 chỉ vượt quá 1%-2%kế thừa của nó.

640

Mặc dù Grok3 đã đạt điểm cao hơn tất cả các mô hình hiện đang được thử nghiệm công khai, nhưng nhiều người không thực hiện điều này một cách nghiêm túc: sau tất cả, XAI trước đây đã bị chỉ trích vì "thao túng điểm số" trong kỷ nguyên GROK2. Khi bảng xếp hạng bị phạt phong cách dài câu trả lời, điểm số đã giảm đi rất nhiều, những người trong ngành hàng đầu thường chỉ trích hiện tượng "ghi điểm cao nhưng khả năng thấp".

 

Cho dù thông qua bảng xếp hạng "Thao tác" hoặc thủ thuật thiết kế trong hình minh họa, họ tiết lộ nỗi ám ảnh của XAI và Musk với khái niệm "dẫn đầu gói" trong các khả năng mô hình. Musk đã trả giá cao cho các tỷ suất lợi nhuận này: trong khi ra mắt, anh ta tự hào sử dụng 200.000 GPU H100 (tuyên bố "hơn 100.000" trong khi phát trực tiếp) và đạt được tổng thời gian đào tạo là 200 triệu giờ. Điều này khiến một số người tin rằng nó đại diện cho một lợi ích quan trọng khác cho ngành công nghiệp GPU và coi tác động của Deepseek đối với lĩnh vực này là "dại dột". Đáng chú ý, một số người tin rằng sức mạnh tính toán tuyệt đối sẽ là tương lai của đào tạo mô hình.

 

Tuy nhiên, một số cư dân mạng đã so sánh mức tiêu thụ 2000 GPU H800 trong hai tháng để tạo ra DeepSeek V3, tính toán rằng mức tiêu thụ sức mạnh đào tạo thực tế của GROK3 là 263 lần so với V3. Khoảng cách giữa Deepseek V3, ghi được 1402 điểm và Grok3 chỉ dưới 100 điểm. Sau khi phát hành dữ liệu này, nhiều người nhanh chóng nhận ra rằng đằng sau tiêu đề của Grok3 là "mạnh nhất thế giới" có hiệu ứng tiện ích cận biên rõ ràng, logic của các mô hình lớn hơn tạo ra hiệu suất mạnh hơn đã bắt đầu cho thấy lợi nhuận giảm dần.

640 (2)

Ngay cả với "tính điểm cao nhưng khả năng thấp", Grok2 vẫn có số lượng lớn dữ liệu của bên thứ nhất chất lượng cao từ nền tảng X (Twitter) để hỗ trợ việc sử dụng. Tuy nhiên, trong quá trình đào tạo Grok3, XAI đã tự nhiên gặp phải "trần" mà Openai hiện đang phải đối mặt với việc thiếu dữ liệu đào tạo cao cấp nhanh chóng phơi bày tiện ích cận biên của khả năng của mô hình.

 

Các nhà phát triển của Grok3 và Musk có khả năng là người đầu tiên hiểu và xác định những sự thật này sâu sắc, đó là lý do tại sao Musk đã liên tục đề cập trên phương tiện truyền thông xã hội rằng người dùng phiên bản đang trải qua bây giờ là "vẫn chỉ là bản beta" và "phiên bản đầy đủ sẽ được phát hành trong những tháng tới. Musk đã đảm nhận vai trò người quản lý sản phẩm của GROK3, cho thấy người dùng cung cấp phản hồi về các vấn đề khác nhau gặp phải trong phần bình luận.

 

Tuy nhiên, trong vòng một ngày, hiệu suất của GROK3 chắc chắn đã đưa ra báo động cho những người hy vọng dựa vào "cơ bắp tính toán lớn" để đào tạo các mô hình lớn mạnh hơn: dựa trên thông tin Microsoft có sẵn công khai, GPT-4 của Openai có kích thước tham số là 1,8 nghìn tỷ thông số, hơn mười lần so với GPT-3. Tin đồn cho thấy kích thước tham số của GPT-4.5 có thể thậm chí còn lớn hơn.

 

Khi các kích thước tham số mô hình tăng vọt, chi phí đào tạo cũng tăng vọt. Với sự hiện diện của GROK3, các ứng cử viên như GPT-4.5 và những người khác muốn tiếp tục đốt cháy tiền để đạt được hiệu suất mô hình tốt hơn thông qua kích thước tham số phải xem xét mức trần hiện đang rõ ràng và suy ngẫm về cách khắc phục nó. Tại thời điểm này, Ilya Sutskever, cựu nhà khoa học trưởng tại Openai, đã tuyên bố trước đó vào tháng 12 năm ngoái, "việc đào tạo trước chúng tôi quen thuộc sẽ kết thúc", đã xuất hiện trở lại trong các cuộc thảo luận, thúc đẩy những nỗ lực tìm con đường thực sự để đào tạo các mô hình lớn.

640 (3)

Quan điểm của Ilya đã phát ra tiếng chuông báo thức trong ngành. Ông đã thấy trước chính xác sự kiệt sức sắp xảy ra của dữ liệu mới có thể truy cập, dẫn đến tình huống hiệu suất không thể tiếp tục được tăng cường thông qua việc thu thập dữ liệu, ví nó với sự cạn kiệt của nhiên liệu hóa thạch. Ông chỉ ra rằng "giống như nội dung dầu, do con người tạo ra trên internet là một nguồn lực hạn chế." Theo dự đoán của Sutskever, thế hệ mô hình tiếp theo, đào tạo hậu-PRE, sẽ sở hữu "tự chủ thực sự" và khả năng lý luận "tương tự như bộ não con người".

 

Không giống như các mô hình được đào tạo trước ngày nay, chủ yếu dựa vào kết hợp nội dung (dựa trên nội dung mô hình đã học trước đó), các hệ thống AI trong tương lai sẽ có thể học và thiết lập các phương pháp để giải quyết các vấn đề theo cách gần giống với "suy nghĩ" của bộ não con người. Một con người có thể đạt được sự thành thạo cơ bản trong một chủ đề chỉ có tài liệu chuyên nghiệp cơ bản, trong khi một mô hình lớn AI yêu cầu hàng triệu điểm dữ liệu để đạt được hiệu quả nhập cảnh cơ bản nhất. Ngay cả khi từ ngữ được thay đổi một chút, những câu hỏi cơ bản này có thể không được hiểu chính xác, minh họa rằng mô hình chưa được cải thiện thực sự về trí thông minh: các câu hỏi cơ bản nhưng không thể giải quyết được đề cập ở đầu bài viết thể hiện một ví dụ rõ ràng về hiện tượng này.

_20240614024031.jpg1

Phần kết luận

Tuy nhiên, ngoài lực lượng vũ phu, nếu GROK3 thực sự thành công trong việc tiết lộ ngành công nghiệp rằng "các mô hình được đào tạo trước đang đến gần kết thúc của họ", nó sẽ mang những ý nghĩa quan trọng đối với lĩnh vực này.

Có lẽ sau khi GROK3 phát điên dần dần giảm dần, chúng ta sẽ chứng kiến ​​nhiều trường hợp như ví dụ của FEI-FEI LI về "điều chỉnh các mô hình hiệu suất cao trên một bộ dữ liệu cụ thể chỉ với 50 đô la", cuối cùng phát hiện ra con đường thực sự đến AGI.

Tìm giải pháp cáp ELV

Cáp điều khiển

Đối với BMS, xe buýt, công nghiệp, cáp thiết bị.

Hệ thống cáp có cấu trúc

Mạng & Dữ liệu, cáp quang, dây vá, mô-đun, tấm mặt

2024 Đánh giá Triển lãm & Sự kiện

Ngày 18 tháng 4 đến 18, 2024 Trung Đông năng lượng ở Dubai

Ngày 18 tháng 4 đến 18, 2024 Securika tại Moscow

Tháng 5, 2024 Sự kiện ra mắt sản phẩm & công nghệ mới tại Thượng Hải

Ngày 2 tháng 10 đến ngày 25 tháng 10 năm 2024 Trung Quốc an ninh ở Bắc Kinh

19-20/2019, 2024 KSA thế giới kết nối


Thời gian đăng: Tháng 2-19-2025