https://x.com/dotey/status/19908081179578124731. 成本不再是障碍:普通人也能用得起的强大AI
谷歌这次从零开始,在自家的TPU芯片上训练了Gemini 3模型。它采用了专家混合网络(Mixture of Experts,简称MoE)架构,可以处理超长输入(高达100万token)和输出(64k token),而MoE设计的精妙之处就在于:即便性能爆炸提升,成本也并不会疯涨。也就是说,普通用户未来用上这么强大的AI,花费也不会太高!
2. 电脑操作能力大跃升:真正实现自动化的知识工作
Gemini 3在一项鲜为人知却非常实用的测试ScreenSpot Pro中表现惊艳。这个测试考验AI理解各种软件截图的能力,包括AutoCAD、PhotoShop等专业工具界面。结果Gemini 3以73%的得分一举超过之前最好的模型足足两倍,遥遥领先!这意味着Gemini 3真正能够在复杂的工作场景下,帮助人们高效自动化完成专业的知识型工作。
3. 数学能力“一骑绝尘”:其他模型望尘莫及
Gemini 3这次特别经过大量数学定理证明的强化学习,数学能力超凡。在美国数学邀请赛(AIME)中几乎达到了“完美表现”,而在难度超高的**MathArena**数学基准测试中也达到了惊人的23%(其他主流模型几乎都只有1%左右)。此外,它在体现真正“通用推理能力”的ARC AGI 2测试中,也创造了30%的领先记录,这显示Gemini 3不仅在数学上是顶尖的,通用推理能力也同样拔群。
4. 编程能力惊人,但还有成长空间
Gemini 3在编程测试中展现了惊人的实力,比如在LiveCodeBench的国际象棋等级分(Elo)评分超过了2400,非常优秀。但也有一点小插曲:它在软件工程基准(SWE Bench)中并未拿下第一,反而输给了竞争对手。但在“工具调用”和“终端使用”等测试上,它依然稳居第一。这说明Gemini 3在互动编程、实时问题解决方面非常强悍,但在复杂、长期的代码维护方面,还有提升的空间。
---
谷歌这次几乎动用了所有的“压箱底绝招”:完善的训练方法、大量私有数据、全新的模型架构,然后在几乎所有重要的基准测试中都实现了碾压式领先。这次升级,明确告诉我们:AI领域的发展速度不仅没有放缓,甚至还在加速向前。