马斯克Grok 4.1登顶LMArena，情商高、性能强免费试用！-人工智能-PHP中文网

马斯克Grok 4.1登顶LMArena，情商高、性能强免费试用！

蓮花仙者

发布： 2025-12-03 13:23:43

原创

851人浏览过

近日，大模型领域再度掀起波澜。马斯克旗下xAI推出的Grok 4.1在LMArena榜单上短暂登顶，尽管随后谷歌发布了Gemini 3 Pro，但Grok 4.1依然稳居第一梯队，凭借其在情商表现与技术路径上的创新，引发广泛关注。此次Grok 4.1推出了两个版本：具备深度推理能力的“Thinking”版（代号quasarflux），以及响应更为迅捷的非推理版（代号tensor）。在LMArena的盲测中，Grok 4.1 Thinking以1483分的成绩超越此前领先的Gemini 2.5 Pro达31分之多；即便是不具备深度思考功能的普通版本，也位列榜单第二。这一成绩标志着xAI在底层模型能力方面实现了显著突破。目前，用户已可通过Grok官网、X平台，或iOS、Android应用免费体验该模型。除了强大的基础性能，Grok 4.1最引人注目的亮点在于其出色的情商表现。在EQ-Bench（情绪智能评测）中，Grok 4.1的两个版本包揽前两名，国产模型Kimi K2位列第三。其高情商不仅体现在对指令的理解，更在于能敏锐捕捉用户的情绪状态。使用过程中，它如同一位更具同理心的倾听者，甚至会在回复末尾自然地加入“比心”等情感化表达，为需要情感支持或细腻互动的场景提供了全新体验。在创意写作方面，Grok 4.1同样进步明显。测试数据显示，其得分较上一代提升约600分，语言更加流畅自然，叙事更具画面感，摆脱了以往单纯堆砌辞藻的局限。从实际使用来看，Grok 4.1还带来了多项优化体验。系统提供两种模式：“快速模式”适用于日常对话，无需等待推理过程，实现即时响应；而面对复杂任务时，“思考模式”则可启动深度分析，且整体节奏紧凑高效，兼顾效率与深度。其上下文长度最高支持256,000 tokens，在Fast模式下更可扩展至200万tokens，无论是阅读长篇文档、撰写万字报告，还是进行长时间连续对话，都能保持出色的连贯性。值得一提的是，xAI在强化学习机制（RLHF）上进行了关键升级。团队首次将真实用户的对话偏好直接作为训练信号，并引入先进的智能体式推理模型作为奖励模型进行自动打分，从而实现大规模自主评估与迭代。相比传统依赖人工标注的方式，这种方法效率更高、标准更统一，也解释了为何Grok 4.1能在短时间内实现性能飞跃。这一新训练范式还有效降低了幻觉率。据官方披露，Grok 4.1的幻觉率由上一代的12.09%大幅下降至4.22%，降幅接近三倍，意味着在回答事实性问题时出错概率显著减少，可靠性大幅提升。关于下一代Grok 5，马斯克曾在访谈中透露，预计将拥有高达6万亿参数，目标直指AGI（通用人工智能）。但由于计算资源需求庞大且测试标准极为严苛，发布已推迟至明年。当前的Grok 4.1更像是xAI用于验证全新训练路线、填补Grok 5上线前空白期的一款高质量过渡产品。对于Grok 4.1的表现，业界存在两种声音。一派认为，这是xAI在通往AGI道路上稳步前行的重要标志；另一派则持谨慎态度，指出当前的排名领先仅反映阶段性成果，后续还需观察谷歌Gemini 3.0等竞品的应对策略。学界和市场对排行榜高度敏感，但分数差异仅代表某一轮迭代的结果，并不意味着最终格局已定。未来的竞争将逐渐从单次发布的惊艳程度，转向长期迭代能力与系统稳定性的比拼，人们会更关注模型是否具备持续进化的能力，以及在真实应用场景中的稳定输出表现。 ![图片](https://example.com/image1.jpg) ![图片](https://example.com/image2.png)

以上就是马斯克Grok 4.1登顶LMArena，情商高、性能强免费试用！的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

怎么给Grok的回答提供反馈 Grok反馈功能使用方法【步骤】如何让Grok帮忙写代码 Grok编程辅助功能使用指南【技巧】如何分享Grok的聊天记录 Grok对话内容一键分享教程【方法】如何向Grok提问 Grok高效提问技巧与方法分享【详解】 Grok怎么停止生成回答 Grok中断输出操作方法【教程】