来源:北大AI鱼博士
时间: 2025年11月19日 凌晨 04:00
坐标: 硅谷/北京
兄弟们,今晚彻底不用睡了。
就在刚刚,当半个地球的人还在睡梦中时,Google 在没有任何预警的情况下,像是突然被“夺舍”了一样,极其凶残地按下了一个红色的核按钮——Gemini 3.0正式发布。
没有漫长的预热,没有虚头巴脑的概念片,直接上线 Model Card(模型卡片),直接开放 API,直接端出应用平台。
如果说两年前的 Gemini 1.0 是一次仓促的追赶,一年前的 Gemini 2.0 是一次平起平坐的尝试,那么今天凌晨的 Gemini 3.0,给我的感觉只有两个字:窒息。
这不是形容词,是物理意义上的窒息。看完长达 60 页的技术报告和 20 个演示视频后,我必须负责任地说:Google 这次不装了,它不仅掀翻了牌桌,甚至把房子都拆了。
连 OpenAI 的掌门人 Sam Altman,都在半夜罕见给这一波发布点了个赞。这个赞背后的意味,是英雄惜英雄,还是感到脊背发凉,大家自己细品。
在这篇长文中,我将带大家逐帧拆解Gemini 3 到底强在哪里,为什么说它宣告了“Prompt Engineer(提示词工程师)”的死亡,以及它如何开启了软件开发的“自动驾驶”时代。
01. “满分”的恐怖:当 AI 终于捅穿了人类智商的天花板
不仅是强,而是“离谱”。
我们先看一张让所有数学家、做题家以及竞争对手都陷入沉默的图表。
在 AIME 2025(美国数学邀请赛) 的测试中,配合代码执行(Code Execution),Gemini 3 Pro的准确率是:100%。
你没看错,是100%。是满分。
以前我们在评测 GPT-4 或者 Claude 3.5 的时候,还在讨论“这道几何题它是不是蒙对的”、“这个逻辑陷阱它有没有跳过去”。但 Gemini 3 用这个满分直接终结了讨论:在现有的标准化数学测试体系下,它已经没有对手了,甚至连测试题都不够用了。
即使是撤掉所有工具,让他“裸考”(无工具模式),它的准确率也高达95.0%。作为对比,GPT-5.1 是 94.0%,Claude Sonnet 4.5 是 87.0%。
但这还不是最吓人的。
真正的屠杀发生在一个叫MathArena Apex的榜单上。这是数学竞赛的“地狱模式”,里面的题目充满了复杂的陷阱和极度晦涩的逻辑。在这个榜单上,包括 GPT-5.1 在内的所有顶尖模型,得分都在 1% 上下徘徊——这说明它们基本是在瞎蒙。
而Gemini 3 Pro呢?它拿到了23.4%。
兄弟们,从 1% 到 23.4%,这不仅仅是分数的提升,这是**“不可知”到“可知”的维度跨越**。这证明了 Gemini 3 不再是依靠概率预测下一个字的“鹦鹉”,它真正具备了深度推理(Reasoning)的能力。
核武器:Deep Think(深度思考模式)
Google 这次还藏了一手绝活——Gemini 3 Deep Think。
你可以把它理解为 Google 版的 o1,但更强、更稳。在这个模式下,模型会花更多时间进行思维链(CoT)的推导。
然而,Gemini 3 Deep Think在不使用任何工具的情况下,直接轰出了41.0%的高分。
这是什么概念?这意味着在纯粹的智力攻坚战中,在处理那些需要层层剥茧、逻辑嵌套极其复杂的博士级难题时,Gemini 3 已经甩开了竞争对手整整一个身位。
02. 72.7% vs 3.5%:GPT-5 就像个“瞎子”
如果说数学能力是“大脑”,那么接下来的这个数据,关乎 AI 的“眼睛”。而这,正是 Google 这一次能做成“真·Agent”的关键胜负手。
在 AI 圈子里,大家一直有个痛点:大模型虽然聪明,但它们对计算机屏幕的理解能力极差。给它截个图,它可能认不出哪个是“提交”按钮,哪个是“终端窗口”。
Google 这次专门针对Screen Understanding(屏幕理解)进行了魔鬼般的优化。
看 ScreenSpot-Pro 这一栏数据:
GPT-5.1 得分:3.5%Gemini 3 Pro 得分:72.7%
炸裂吗?这是20 倍 的差距!
这意味着什么?
意味着 GPT-5.1 在面对复杂的操作系统界面时,基本等同于一个“瞎子”。它只能靠猜,或者靠你把代码复制出来喂给它。
而Gemini 3 Pro拥有了“像素级的视觉智能”。它能像人类一样,看懂 IDE 里的报错红线,看懂浏览器渲染出的 UI 错位,看懂终端里滚动的日志。
正是因为有了这双“眼睛”,Google 才敢在今晚发布那个让所有程序员既兴奋又恐惧的产品——Antigravity。
03. Antigravity:程序员的“贾维斯”时刻
今晚发布会的真正高潮,不是模型本身,而是一个名为Google Antigravity(反重力)的全新开发平台。
之前大家都在吹 Cursor,说它是程序员最好的“外骨骼”。Cursor 的逻辑是:你写代码,AI 帮你补全;你问问题,AI 帮你回答。
但 Antigravity 的逻辑是:“你喝咖啡,我来搞定。”
Google 极其嚣张地将其定义为Agent-first(智能体优先)平台。
什么是“Vibe Coding”(直觉编程)?
Google 提出了一个新词:Vibe Coding。
意思是,你只需要把握一种“感觉”(Vibe),一种模糊的想法或意图,剩下的实现细节,全部交给 AI。
Antigravity不再是一个编辑器,它是一个拥有完整权限的虚拟员工。它集成了 Gemini 3 的推理大脑,配合 Gemini 2.5 Computer Use 模型(那是它的手),它可以直接控制你的 VS Code,直接在你的 Terminal 里敲命令,直接打开你的 Chrome 浏览器去测试网页。
实测案例:它真的在“自己干活”
让我们来看看 Google 放出的那个让 GitHub Copilot 看起来像上个世纪产物的演示——“开发一个航班追踪 App”。
第一步:任务下发
开发者只在对话框里输入了一句:“帮我做一个航班追踪应用,要有地图可视化。”
第二步:多 Agent 分裂(并行开发)
Antigravity瞬间在后台分裂出多个 Agent:
- Agent A(后端专家)
: 开始规划 API 接口,编写 Python 后端代码。
- Agent B(前端专家)
: 开始写 React 组件,并调用 Nano Banana 模型生成了所需的 UI 图标素材。
- Agent C(测试专家)
: 这个最骚。它直接打开了一个内置的浏览器窗口,像真人一样去点击页面上的按钮。
第三步:自我纠错
Agent C 发现地图加载不出来,报错了。注意,这时候开发者什么都没做。
Agent C 迅速截取了报错的屏幕(得益于那72.7%的屏幕理解能力),扔回给 Agent A。
Agent A 秒懂:“哦,API Key 没配置。”
它自己打开配置文件,填入 Mock 数据,重启服务。
Agent C 刷新页面:“通了。”
整个过程,开发者就像是一个 P8 级别的架构师,只是在旁边看着,偶尔点个“Approve(批准)”。
赚钱能力:它比你更懂商业
为了证明Antigravity不仅仅是个代码生成器,而是一个能解决复杂现实问题的 Agent,Google 搬出了 Vending-Bench 2 测试。
这是一个模拟经营自动售货机公司的测试,考察模型在长达一年的虚拟时间里,能否持续做出正确的维护、进货和定价决策。
结果相当讽刺:
GPT-5.1 忙活了一年,净资产赚了 $1,473.43。Gemini 3 Pro忙活了一年,净资产赚了$5,478.16。
Gemini 3 不仅代码写得好,它还没忘记这生意的本质是赚钱。它不仅是一个 Coder,更是一个Manager。
04. 对 SWE-Bench 的争议:为什么 Google 不在乎 SOTA?
眼尖的朋友可能发现了,在衡量软件工程能力的SWE-Bench Verified测试中,Gemini 3 Pro 得分 76.2%,虽然极强,但并没有超过 Claude Sonnet 4.5 的 77.2% 拿到世界第一(SOTA)。
有人可能会说:“你看,Google 还是不行嘛,写代码还是不如 Claude。”
大错特错。
这正是 Google 的鸡贼之处,也是Antigravity的可怕之处。SWE-Bench 测的是单一模型解决 GitHub Issue 的能力。但 Google 的思路是:我为什么要用一个模型去死磕?我用的是系统工程(System 2)。
Antigravity 的核心在于“工具链的整合”。
Claude 写代码也许略强 1%,但 Claude 没有原生集成到浏览器里去点点点,没有原生集成到终端里去运行 npm install。
Google 用76.2%的模型能力,加上100%的系统权限整合,加上72.7%的视觉理解,构建出了一个**“能跑通最后一公里”**的解决方案。
对于开发者来说,我不在乎你的代码是不是写得最最最优雅,我在乎的是当你写完代码报错的时候,能不能自己帮我修好?
在这点上,Gemini 3 + Antigravity目前是无敌的。
05. 搜索与生活:AI 终于学会“说人话”了
除了硬核的编程,Gemini 3在消费级产品上的落地也让人眼前一亮。
我们都受够了以前 AI 那种“作为一个大型语言模型,我建议你……”的爹味说教。
Google 这次在 Model Card 里专门写了一句话:"Telling you what you need to hear, not just what you want to hear."(告诉你需要的,而不是你想听的。)
它学会了“Read the room”(读懂空气)。
AI Mode in Search:不再是给链接,而是给答案
Google 搜索正式上线了AI Mode。这不是简单的搜索生成体验(SGE)升级,这是**“即时软件生成”**。
演示中,用户搜索“RNA 聚合酶是如何工作的?”
以前的搜索会给你一堆维基百科和生物学网站的链接。
现在的Gemini 3,直接在搜索结果页里,当场写代码生成了一个可交互的 3D 分子模型。你可以用鼠标拖拽这个模型,看酶是怎么结合的。
注意,这个 3D 模型不是预先存在网上的,是 Gemini 3 根据你的问题,On the fly(实时)敲代码写出来的。
多模态的温情时刻
还有一个案例特别打动我。
你想学习家里长辈传下来的做菜手艺,但长辈只会写潦草的方言笔记。 你把这些笔记拍照扔给 Gemini 3,再上传一段长辈做菜的视频。
Gemini 3不仅能识别那些连人都看不懂的字迹,还能结合视频动作,生成一份图文并茂、甚至带有“交互式倒计时”的电子食谱,顺便还能生成一段代码,把这个食谱做成一个精美的网页分享给家族群。
这就是 Google 宣称的:Learn anything, Build anything, Plan anything.
06. 护城河:Google 的“钞能力”与数据霸权
为什么是 Google?为什么不是 OpenAI?为什么不是 Anthropic?
在大模型跑马拉松的后半程,拼的早已不是单一算法的灵光一闪,而是算力、数据和生态的厚度。
1. TPU 的硅基霸权:
当全世界都在跪求黄仁勋分配一点 H100 显卡时,Google 坐在自家堆积如山的TPU v5/v6矿山上笑而不语。
TPU 是专门为 Transformer 架构设计的,拥有极高的带宽内存(HBM)。正是这种算力冗余,让 Google 敢于把 Gemini 3 的参数规模推向极致,敢于让 millions of users 同时使用Deep Think这种极度消耗算力的模式。
2. 数据的全维度覆盖:
Gemini 3的训练数据不仅是网上的文本。它吞噬了 YouTube 的长视频(视频理解能力的来源)、GitHub 的代码库、Google Scholar 的论文,以及——User Data(用户数据)。
当然,是在隐私协议下。但无可否认,Google 拥有地球上最庞大的用户交互数据。它知道用户在搜索什么,在点什么,在改什么代码。这些Human Feedback(人类反馈),是模型“情商”来源的根本。
07. 结语:不要焦虑,去成为那个“架构师”
看完发布会,我看很多技术群里开始哀嚎:“完了,程序员真要失业了。”
说实话,看完 Antigravity 的演示,初级“码农”(Coder)确实该抖三抖了。如果你的工作只是把产品经理的需求翻译成代码,那Gemini 3干得比你快、比你好、还比你便宜。
Architect(架构师)不会死。
Gemini 3 的出现,实际上是把软件开发的门槛再次拉低,同时把天花板无限拉高。
以前,你想做一个“3D 飞船游戏”,你需要学 Unity,学 C#,学 3D 建模,折腾一个月。
现在,你只需要在Antigravity里告诉 Gemini 3:“我要一个复古像素风的 3D 飞船游戏,要有光影渲染。”
30 秒后,游戏跑起来了。
这时候,什么最重要?
-
你的品味(Taste): 你知道什么样的游戏好玩。
-
你的创意(Idea): 你有别人想不到的点子。
-
你的判断力(Judgment): 你知道 AI 给出的方案里哪个是最好的。
Google 用Gemini 3告诉我们:AI 不是来替代你的,它是来帮你把脑海中那个最疯狂的想法,以光速变成现实的。
在这个新时代,最大的风险不是 AI 太强,而是你还抱着旧工具不放。
Action!
现在,Gemini 3已经全面上线。Antigravity虽然还是 Preview,但一定要去申请。
别睡了,起来试用。因为今晚之后,世界已经变了。