Google Gemini 3 Pro Preview 测评

2025-11-19

Bloger

Page content

Google Gemini 3 Pro Preview 测评 by 大模型观测员

短的结论：下一个时代的大模型灯塔

基本情况：

9月底，Gemini 2.5 Flash中期更新之后，性能直逼2.5 Pro，已经预示了下一代Gemini 3 Pro 将有超预期表现，而实际情况确实比预计的要更乐观，Gemini 3 Pro在公开的各项测试中都可以稳定不劣于GPT-5。Gemini系列向来以世界知识丰富著称，再搭配这次更新的一流硬智力，使得Gemini 3 Pro的整体可用性和泛化性再上一个台阶。在难度不高的日常使用中，体验差异应当更为显著。别忘了Gemini 系列的多模态能力也长期领先，3 Pro 成为一款水桶模型，在2025年11月为止的大模型竞赛中无可争议的全面SOTA。

而且特别注意，Gemini 3 Pro相比2.5 Pro，Token消耗并没有显著变化，相比GPT-5优势明显。反而显得GPT-5系列比o3/o4 Token上涨超过一倍沦为另类。3 Pro的百万Token定价虽然略高，但综合下来成本甚至低于GPT-5。

逻辑成绩：

*1 表格为了突出对比关系，仅展示部分可对照模型，不是完整排序。

*2 题目及测试方式，参见：大语言模型-逻辑能力横评 25-010月榜。相比10月题目增加了#51、#52题。

*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/

编程成绩：

下面重点对比GPT-5，少量参考Gemini 2.5 Pro。

优势：

稳定性：GPT-5率先将稳定性大幅提升，其中位数只差不到4%，用户体感大概率就是极限水准。而Gemini 3 Pro也追了上来，不到5%的中位数差距大幅优于2.5 Pro 的16%。考虑到测试误差，可以认为Gemini 与 GPT属于同一水准。在所有测试题中，Gemini 3 Pro 有64%稳定满分，持平GPT-5。
解空间压缩：不给条件，只给目标的题目统称为解空间探索或解空间压缩问题，考察大模型的归纳，洞察能力。Gemini 3 Pro在这一项的表现显著领先于对手GPT-5，大幅领先于GPT-5 以外的其他所有模型。在GPT-5 也能求解的题目上，Gemini 3 Pro可以只用一半Token甚至更少，比如从字母中找规律的题目，Gemini 3 Pro消耗仅为GPT-5 的1/4。虽然看不到思维链，但这预示着Gemini 3 Pro的思维过程更接近人类直觉，不是暴力求解。在测试题之外的标准猜词测试中，有多个抽象概念词Gemini 3 Pro 猜对了一半。在意识到目标不是实体，不是物理可观测对象后，迅速转向时间空间概念。这关键的一跃难倒了先前所有大模型。
空间智力：笔者在之前的测试中从未单独评价过模型的空间智力，是因为考察空间智力的题大多被模型通过暴力方法求解，不值得单独讨论。而Gemini 3 Pro虽然未拥有完全类人的空间思维力，但通过有限的输出可以推断其空间想象力较现有模型存在巨大提升，开始尝试像人一样想象空间。当然，基于现实的考虑，也可能是Gemini 3 Pro针对类似ARC-AGI 的题目做了强化训练，进而涌现出来的能力，不代表模型真的觉醒。
编程能力：Gemini 3 Pro的编程能力得到广泛的测试和认同，在标准Benchmark中，Gemini 3 Pro首轮一遍过的能力显著强于GPT-5，在所有修正轮次中，成绩稳定提升，仅存在少量劣化。所有测试语言，除了golang，没有发现语法错误和运行时错误，代码至少都是可运行，可满足部分case。这样的成绩，加上其1M 的上下文，使得Gemini 3 Pro非常适合作为第一轮全局考虑，设计方案的模型。

不足：

幻觉：需要指出，Gemini 3 Pro仍然有与模型实力不相称的幻觉表现，在不同的题目中都有出现偶先的幻觉失控现象。比如从长文本中提取关键数据，Gemini 3 Pro大约只能成功70%左右。尤其当文本中有大量类似段落，相似表达时，其提取能力受到挑战。而GPT-5 在这方面表现近似，但下限要高一些，换言之，即便错，也不离谱。
计算能力：计算能力是先前Gemini 2.5 Pro的短板，到3 Pro 时代仍没有完全解决，在常规计算上精度不如GPT-5。其主要错误一部分在于计算过程中大量省略小数（可能是压缩Token的考虑），导致结果偏差过大。另一部分在于单纯的算错。

赛博史官曰：

Gemini 2.5 Pro 在3月发布时，成绩和彼时的o3 相近，都是当时的世界第一梯队领头羊。8个月的时间大模型市场瞬息万变，国产模型经过8个月追赶，纯智力基本摸到了当初Gemini 2.5 Pro，但世界知识，多模态能力都要有较大差距。Google并没有给竞争对手们留太多时间，今天的Gemini 3 Pro再次把智力，知识推向下一个时代。

对于大模型同行，Gemini 是一座灯塔，是暴风雪中前方的掌灯领路人。对于大模型用户，Gemini 代表了当今大模型综合最高水平。

原文链接