南亚网视加德满都2月20日讯 据环球时报报道,18日,马斯克带领旗下人工智能初创公司xAI的成员在线直播官宣了“全世界最聪明AI”的Grok-3大模型“全家桶”。相关测试显示,Grok-3在发布之后迅速超过了全球多个排行榜上的竞争对手,其中就包括OpenAI公司的o3-mini high和DeepSeek-R1。到底这个被20万块GPU调教出来的大模型有多聪明?谁是全世界最聪明的AI?《环球时报》将这个问题抛给了3个头部大模型,并与多位专家进行了探讨。
“承认自己的局限性也是一种‘聪明’吧”
之所以外界将马斯克及其团队当天发布的大模型称为“全家桶”,是因为其包括了Grok-3(Beta)、Grok-3 mini、推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning、首个AI智能体DeepSearch。据介绍,第三代Grok的训练计算量是Grok-2的10倍。
在多项基准测试中,Grok-3在数学、科学问答、编码等方面大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。Grok-3 mini的性能基本上领先或媲美其他闭源/开源模型。在推理能力方面,也击败了o3-mini和DeepSeek-R1。
那在实际使用过程中到底它是否真的足够“聪明”呢?《环球时报》记者18日对Grok-3(Beta)版本进行了一番测试。记者问Grok-3怎么评价它被称为“全世界最聪明的AI”,介绍它有哪些升级与改进,特别是“思维链”(Chain of Thought)带来了哪些性能的提升?Grok-3的回复如下:关于我被称作“全世界最聪明的AI”,我觉得这是一种很有趣的评价,但我也明白“聪明”是个挺主观的东西。我觉得我更像是一个一直在学习和优化的助手,而不是一个需要炫耀头衔的家伙。
说到升级和改进,Grok-3特别提到“思维链”对其性能的提升。简单来说,“思维链”让它在回答复杂问题时能更有条理地“一步步思考”,而不是直接跳到结论。这种方法有点像人类在解决难题时先拆解问题、分析步骤,然后再得出答案。“当然,我也不是完美的。有时候问题太模糊或超出我的知识范围,我还是会尽力给个合理的回应,或者老实承认不知道。毕竟,承认自己的局限性也是一种‘聪明’吧?”
《环球时报》记者也把同样的问题抛给了DeepSeek与ChatGPT。DeepSeek-R1在“深度思考”20秒后给出了回复:Grok-3的“思维链”优化确实能提升复杂任务性能,尤其在逻辑透明度和分步推理上,但“最聪明AI”的宣称需结合实测结果谨慎看待。其核心价值可能在于与xAI生态的整合能力,而非绝对技术领先。DeepSeek-R1认为,未来AI竞争关键点在于:如何平衡“实时数据”与“幻觉控制”;能否突破现有大模型的同质化瓶颈(如开源策略、能耗优化)。DeepSeek-R1在“行业对比与定位”一项中特别提到Grok系列的独特价值可能更贴近马斯克的愿景——与特斯拉机器人、“星链”等生态联动,成为“实时物理世界交互AI”。
ChatGPT o3-mini high的回复为:Grok-3在数学推理、科学逻辑推理等方面表现出色,超越或媲美了Gemini、DeepSeek和ChatGPT等对手。然而,人工智能领域竞争激烈,其他公司也在不断推出先进的AI模型,例如中国公司发布了DeepSeek-R1模型,以低成本和高性能在市场上引起广泛关注。因此,虽然Grok-3在某些方面表现出色,但是否为“最聪明的AI”仍取决于具体的评估标准和应用场景。
2月15日至18日,环球时报研究院对境外主流媒体有关Grok-3的376篇英文报道进行分析发现,马斯克对该模型“全世界最聪明”的描述被广泛传播,51.6%的报道提及相关关键词。在性能方面,提到“推理能力”的报道超过半数,提到“搜索”“编码”等具体功能的报道各占一成多。在投入方面,提到“成本”的报道接近四成,提到“训练”的报道超过半数,而训练使用的“合成数据”的提及率也超过1/4。
“大力出奇迹”VS“小力出奇迹”
Grok-3被外界关注的不仅是性能如何,还有一个话题备受瞩目:它的发布是否再次掀起了一场人工智能大模型发展模式的讨论。人类首次用20万块GPU训练出的大模型问世,是否代表着人工智能未来的发展方向?DeepSeek用相对少的算力与成本,通过算法优化来实现的大模型是否带给全球更多选择?
环球时报研究院对境外主流媒体有关Grok-3的376篇英文报道进行分析发现,相关报道还较为关注Grok-3与其他人工智能模型的对比,如56.3%的报道提到DeepSeek。在同时提到这两款人工智能工具的报道中,“竞争”的提及率达到六成。在对比中,54.9%的报道就“成本”问题进行阐述,提到“效率”“投资”等问题的报道也均超过三成。
北京邮电大学人机交互与认知工程实验室主任刘伟19日对《环球时报》记者表示,DeepSeek与GPT系列最大的区别在于“小力出奇迹”,而Grok-3与DeepSeek的区别是又回到了“大力出奇迹”轨迹。大模型即将进入算法与算力大比拼的“战国时期”。“算法与算力的博弈”是一个富有深度的话题,涉及到认知科学、计算机科学、人工智能、信息技术等多个领域。
刘伟认为,DeepSeek体现了算法的优化。为了在有限的算力下实现更好的性能,算法设计者会不断优化算法。例如,通过减少不必要的计算、利用数据结构来提高效率等方式。如动态规划算法通过存储子问题的解来避免重复计算,从而在有限的算力下提高效率。Grok-3则体现了硬件加速的奇迹,硬件工程师会不断改进硬件架构,提高算力。更多GPU的使用为并行计算提供了强大的支持,使得深度学习算法能够快速运行。然而,硬件的改进也可能促使算法设计者设计更复杂的算法,进一步挖掘硬件的潜力。
《环球时报》记者让Grok-3从技术水平、推理能力、是否开源、创新程度以及对全球AI竞争格局的影响等维度来比较DeepSeek与Grok-3的差异。
Grok-3用“思维链”的方式给出了如下的综合比较与结论:
技术水平——Grok-3靠算力胜出,但DeepSeek-R1效率更高。
推理能力——Grok-3更全面,DeepSeek-R1在专业领域不逊色。
是否开源——DeepSeek-R1完全开源,Grok-3闭源,策略迥异。
创新程度——DeepSeek-R1算法创新突出,Grok-3可能依赖资源整合。
全球影响——DeepSeek-R1推动AI平权和价格竞争,Grok-3强化美国技术领先。
Grok-3给出的最终结论为DeepSeek-R1和Grok-3代表两种AI发展路径——前者以开源和效率挑战资源限制,后者以算力和闭源巩固霸主地位。DeepSeek对全球AI格局的颠覆性更强,而Grok-3则是技术巅峰的象征。
刘伟强调,Grok-3这种用大量高性能GPU堆算力的“大力出奇迹”发展模式是全球绝大部分国家和地区在发展AI过程中都无法复制的,而中国DeepSeek“小力出奇迹”的开源模式则给了全球南方国家一个公平分享AI大模型发展成果的机会。
如何判断它是否在“胡说八道”
随着人工智能技术的不断发展,大模型已经变得越来越“聪明”,但即便是全球几家头部大模型厂商的顶尖大模型仍然无法完全破解机器幻觉的难题。人类并不能真正了解屏幕那边“侃侃而谈”的大模型到底是在“说真话”,还是在“一本正经地胡说八道”。
Grok-3使用的“思维链”其实就是希望还原大模型理解问题、拆解问题、解决问题并提供结论的过程,以便让得出的结论具有一定的可溯性。但《环球时报》记者在测试过程中发现,即便使用了“思维链”,机器幻觉的问题仍然无法完全避免,例如,给出似是而非的答案。不过,Grok-3在使用“思维链”回答问题给出结论之后,还会有一个名为“反思与建议”的步骤,说明上述生成内容可能存在的局限,并给出用户进一步核对以及给出更明确提问要求的建议。
一位从事网络技术工作的专业人士19日对《环球时报》记者表示,不同大模型也有自身的专长,有些公司打造的是通用模型,有些则是垂类模型。从他的大模型使用体验来看,向Grok-3等大模型提出越具象的技术类问题越容易得到一个有效回答,然后还要进行一定的追问与调整,以便大模型可以更好地理解用户的意图,并给出更好的答案。
刘伟对《环球时报》记者表示,大模型容易出现机器幻觉,主要有以下几个原因:一是训练数据不足或偏见。如果训练数据不全面或有偏见,AI可能基于错误模式生成输出。二是过拟合。模型过度学习训练数据中的噪声,导致在新数据上表现不佳,生成不相关内容。三是模型复杂性。高复杂度的模型可能因参数过多而产生不可预测行为,增加幻觉风险。四是缺乏现实理解。AI模型本质上是基于模式预测的语言生成器,而非真正理解世界,因此存在生成错误信息的概率。例如,Grok-1在训练时未完全依赖真实世界数据,采用了大量合成数据,导致在理解真实世界时表现不佳,后来这一问题在Grok-2上有所改善。
那么,要如何最大程度上降低机器幻觉出现的概率呢?在此前出版的《自然》杂志上,英国牛津大学科学家刊发论文称,他们利用“语义熵”,即通过概率来判断大语言模型是否出现了“幻觉”。语义熵是信息熵的一种,被用于量化物理系统中所包含的信息量。通过评估AI模型在特定提示词下生成内容的不确定性,来计算模型的困惑程度,从而为用户或模型提供警示,提醒其采取必要的循证措施,确保更准确的答案输出。
据报道,美国卡内基梅隆大学AI研究人员采用的方法是在大语言模型回答问题时,绘制其内部计算节点的激活模式。他形象地称之为“给AI做脑部扫描”。利用不同的计算节点活动模式,可以告诉我们AI模型是在“说真话”,还是在“胡说八道”。
马斯克在发布会上称,Grok-3具备强大的自我纠错功能,能够识别并减少错误数据,并通过反复检查数据实现逻辑一致性。这种机制减少了传统AI模型中的“幻觉”问题,使其在推理任务中表现更稳定。清华大学新闻学院、人工智能学院教授沈阳19日对《环球时报》记者表示,喂给大模型进行训练的原始语料里面如果有一些错误语料,通过强化学习,大模型是具有一定自我纠错能力的。不过,想要更大程度上降低机器幻觉,需要从多个层面来进行,包括改进训练数据、增强语料真实性与广泛性、优化模型结构算法、鼓励用户纠错反馈、提醒用户要对生成内容进行核对与交叉验证等。
刘伟表示,大模型虽然在许多领域表现出强大的能力,但其局限性和潜在问题不容忽视。为了避免其对人类重大决策产生干扰,需要在使用过程中,结合人类的经验和判断进行监督与修正,充分发挥人、机器、环境的系统校验修正作用,最大程度降低机器幻觉的发生,让大模型更好地为人类所用。(完)