放荡出遗迹地表最强AI？马斯克用20万张GPU“砸出”Grok3 语音形态施展上线！记者实测：9.9和9.11谁大？它粗放拿下

发布日期：2025-02-28 16:46 点击次数：89

　　近日，东谈主工智能初创公司xAI发布了更新版Grok 3大模子，埃隆·马斯克称之为“地球上最智谋的东谈主工智能”。

　　北京时候2月23日，马斯克在酬酢平台X发文秘书，Grok语音形态早期测试版现已在Grok应用步骤上线。“固然这是早期测试版块，可能还会遭遇一些问题（不外咱们会赶快处置），但它依然特地棒。”

　　证据官方公开的测试兑现，Grok 3在包括AIME（评估模子在一系列数学问题上的走漏）和 GPQA（评估模子在博士级别的物理学、生物学和化学问题上的走漏）等基准测试中，远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模子。

　　在大模子竞技场 Chatbot Arena（LMSYS）测试中，xAI工程师暗示，早期版块的Grok 3得到了第一的收获，达到了140分，超过了Gemini 2.0 Flash Thinking实验版块、ChatGPT-4o最新版块以及最近大火的DeepSeek R1等等。

　　基于Grok 3的优秀走漏，不少业内东谈主士再度闪现了对算力堆积这种“放荡出遗迹”旅途的招供。更有分析东谈主士指出，Grok 3阐发了缩放次第（scaling law）在达到上限之前仍有发展空间——这对统共这个词行业来说是一个令东谈主荧惑的信号。

　　关系词，有些用户在体验后却对Grok 3的才智产生了质疑，他们以为Grok 3的才智并莫得马斯克宣称的那么强大。OpenAI应用参谋支配Boris Power则对Grok团队在模子评估中的步履暗示失望，指出其存在舞弊和糊弄的动机。Boris Power提到，o3-mini在各项评估中均优于Grok 3。

　　真相到底怎样，马斯克自满了吗？《逐日经济记者》测试发现，Grok 3确乎是寰球顶级模子的水平，但并莫得和其他模子拉开太大差距。独一拉开差距的是它极快的反应速率。

9.9和9.11谁大

Grok 3粗放拿下

　　Grok 3是由马斯克旗下的东谈主工智能公司xAI发布的最新一代AI模子。马斯克在发布会上称其为“地球上最智谋的东谈主工智能”，并暗示Grok 3的才智比前代居品Grok 2跨越一个数目级，具备更强的推理、计较和合乎才智。

　　在新闻发布会上，马斯克宣称Grok 3在数学、科学和编程等基准测试中走漏出色，超过了谷歌的Gemini、DeepSeek的V3模子、Anthropic的Claude和OpenAI的GPT-4o等竞争敌手。

　　Grok 3在发布后仅48小时内，xAI秘书将其免费洞开给所灵验户，直至做事器负载达到极限。当今用户每天不错体验十条“念念考形态”Grok3，及不限量免费平淡Grok 3。

　　《逐日经济新闻》记者在Grok 3发布后也亲身进行了测试，望望Grok3真有马斯克宣传的那么狠恶吗？

　　领先，从最经典的基础问题驱动：9.9和9.11谁大？

Grok 3

　　这个问题毫无难度，Grok 3粗放拿下。

逻辑念念考和翰墨清爽才智：

Grok 3不如DeepSeek R1

　　马斯克发布会上自傲的少量是，Grok 3“念念考模子”下的逻辑推理才智，他宣称，Grok 3 (Think) 学会了更动其处置问题的政策，通过回溯更动缺陷，简化身手，并期骗其在预西宾本事得到的常识。就像东谈主类在处置复杂问题时相通，Grok 3 (Think) 不错破耗几秒钟到几分钟的时候进行推理，粗鄙会研讨多种方法，考证我方的处置决策，并评估怎样精准满足问题的条目。

　　每经记者用弱智吧的问题来覆按一下它的逻辑是不是果真过关。

　　（编者注：“弱智吧”是百度贴吧的一个子论坛。在这个论坛中，用户粗鄙发布包含双关语、多义词、因果很是调和音词等具有挑战性的内容，好多内容想象有逻辑罗网，即使对东谈主类来说也颇具挑战。）

　　第一个问题：用水来兑水，得到的是浓水照旧稀水？