Google Gemini 3 Pro Preview 测评
Google Gemini 3 Pro Preview 测评 by 大模型观测员
短的结论:下一个时代的大模型灯塔
基本情况:
9月底,Gemini 2.5 Flash中期更新之后,性能直逼2.5 Pro,已经预示了下一代Gemini 3 Pro 将有超预期表现,而实际情况确实比预计的要更乐观,Gemini 3 Pro在公开的各项测试中都可以稳定不劣于GPT-5。Gemini系列向来以世界知识丰富著称,再搭配这次更新的一流硬智力,使得Gemini 3 Pro的整体可用性和泛化性再上一个台阶。在难度不高的日常使用中,体验差异应当更为显著。别忘了Gemini 系列的多模态能力也长期领先,3 Pro 成为一款水桶模型,在2025年11月为止的大模型竞赛中无可争议的全面SOTA。
而且特别注意,Gemini 3 Pro相比2.5 Pro,Token消耗并没有显著变化,相比GPT-5优势明显。反而显得GPT-5系列比o3/o4 Token上涨超过一倍沦为另类。3 Pro的百万Token定价虽然略高,但综合下来成本甚至低于GPT-5。
逻辑成绩:
*1 表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。
*2 题目及测试方式,参见:大语言模型-逻辑能力横评 25-010月榜。相比10月题目增加了#51、#52题。
*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/
编程成绩:
下面重点对比GPT-5,少量参考Gemini 2.5 Pro。
优势:
稳定性:GPT-5率先将稳定性大幅提升,其中位数只差不到4%,用户体感大概率就是极限水准。而Gemini 3 Pro也追了上来,不到5%的中位数差距大幅优于2.5 Pro 的16%。考虑到测试误差,可以认为Gemini 与 GPT属于同一水准。在所有测试题中,Gemini 3 Pro 有64%稳定满分,持平GPT-5。
解空间压缩:不给条件,只给目标的题目统称为解空间探索或解空间压缩问题,考察大模型的归纳,洞察能力。Gemini 3 Pro在这一项的表现显著领先于对手GPT-5,大幅领先于GPT-5 以外的其他所有模型。在GPT-5 也能求解的题目上,Gemini 3 Pro可以只用一半Token甚至更少,比如从字母中找规律的题目,Gemini 3 Pro消耗仅为GPT-5 的1/4。虽然看不到思维链,但这预示着Gemini 3 Pro的思维过程更接近人类直觉,不是暴力求解。在测试题之外的标准猜词测试中,有多个抽象概念词Gemini 3 Pro 猜对了一半。在意识到目标不是实体,不是物理可观测对象后,迅速转向时间空间概念。这关键的一跃难倒了先前所有大模型。
空间智力:笔者在之前的测试中从未单独评价过模型的空间智力,是因为考察空间智力的题大多被模型通过暴力方法求解,不值得单独讨论。而Gemini 3 Pro虽然未拥有完全类人的空间思维力,但通过有限的输出可以推断其空间想象力较现有模型存在巨大提升,开始尝试像人一样想象空间。当然,基于现实的考虑,也可能是Gemini 3 Pro针对类似ARC-AGI 的题目做了强化训练,进而涌现出来的能力,不代表模型真的觉醒。
编程能力:Gemini 3 Pro的编程能力得到广泛的测试和认同,在标准Benchmark中,Gemini 3 Pro首轮一遍过的能力显著强于GPT-5,在所有修正轮次中,成绩稳定提升,仅存在少量劣化。所有测试语言,除了golang,没有发现语法错误和运行时错误,代码至少都是可运行,可满足部分case。这样的成绩,加上其1M 的上下文,使得Gemini 3 Pro非常适合作为第一轮全局考虑,设计方案的模型。
不足:
幻觉:需要指出,Gemini 3 Pro仍然有与模型实力不相称的幻觉表现,在不同的题目中都有出现偶先的幻觉失控现象。比如从长文本中提取关键数据,Gemini 3 Pro大约只能成功70%左右。尤其当文本中有大量类似段落,相似表达时,其提取能力受到挑战。而GPT-5 在这方面表现近似,但下限要高一些,换言之,即便错,也不离谱。
计算能力:计算能力是先前Gemini 2.5 Pro的短板,到3 Pro 时代仍没有完全解决,在常规计算上精度不如GPT-5。其主要错误一部分在于计算过程中大量省略小数(可能是压缩Token的考虑),导致结果偏差过大。另一部分在于单纯的算错。
赛博史官曰:
Gemini 2.5 Pro 在3月发布时,成绩和彼时的o3 相近,都是当时的世界第一梯队领头羊。8个月的时间大模型市场瞬息万变,国产模型经过8个月追赶,纯智力基本摸到了当初Gemini 2.5 Pro,但世界知识,多模态能力都要有较大差距。Google并没有给竞争对手们留太多时间,今天的Gemini 3 Pro再次把智力,知识推向下一个时代。
对于大模型同行,Gemini 是一座灯塔,是暴风雪中前方的掌灯领路人。对于大模型用户,Gemini 代表了当今大模型综合最高水平。
原文链接