2月20日消息,今日凌晨,谷歌正式發布其新一代旗艦模型Gemini 3.1 Pro。根據谷歌放出的基準測試,谷歌最強復雜任務處理模型Gemini 3.1 Pro在12項測試中超過Gemini 3 Pro、Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.2等模型,拿下第一。

谷歌DeepMind主要提升了Gemini 3.1 Pro的推理能力。面對業界公認高難度的ARC-AGI-2通用智能基準測試,Gemini 3.1 Pro斬獲77.1%的高分,超越Claude、GPT模型,且成績相較Gemini 3 Pro實現翻倍提升。
去年9月加入谷歌DeepMind的清華物理系傳奇人物姚順宇(Shunyu Yao)也發文官宣了新模型發布,并稱“更好的Gemini模型正以勢不可擋的速度涌現”。

下面這一經典的“鵜鶘騎自行車SVG動畫”對比,直觀體現了新模型的能力提升,右側Gemini 3.1 Pro生成的鵜鶘身體結構、騎行姿態自然合理,且自行車的車架、鏈條、腳踏、座椅等細節完整,相比Gemini 3 Pro的生成結果符合物理常識,更像一個完整的動畫場景。

為Gemini 3.1開發SVG生成功能的清華校友Jiao Sun,在X上評論說“無比自豪”。

從今日起,Google AI Pro、Ultra訂閱用戶可以在Gemini應用、AI助手NotebookLM中使用Gemini 3.1 Pro,免費用戶可向Gemini 3.1 Pro提問2次。開發者和企業用戶可以在AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI及Android Studio的Gemini API預覽版中使用Gemini 3.1 Pro。
Gemini 3.1 Pro預覽版的API價格采用分級計費模式,與上一代Gemini 3 Pro預覽版保持一致,提示詞在20萬token以內,每百萬token輸入價格2美元(約合人民幣14元),輸出價格12美元(約合人民幣83元),提示詞超過20萬token,每百萬token輸入價格4美元(約合人民幣28元),輸出價格18美元(約合人民幣124元)。
01 .
能搭WebOS、能做《我的世界》
還能拆視覺錯覺
Gemini 3.1 Pro的核心升級集中在復雜任務處理能力上。其博客透露,新模型在高級推理、多模態理解和復雜項目生成方面進一步強化,能夠更好應對高難度工作場景。模型發布后,社區實測迅速跟進。
知名AI博主Chetaslua展示了其用Gemini 3.1 Pro一次性安裝Windows 11 WebOS的結果。
Chetaslua在帖中直言:“上次我分享類似案例時還非常困難,現在已經變成常態。有了智能體系統,我們幾乎可以用這個模型做任何事。”

他之前也發過用Gemini 3.0 Pro生成Windows Web操作系統的視頻,兩個視頻放一起對比,提升效果非常明顯。
Gemini 3.1 Pro生成的系統界面有完整應用圖標、開始菜單樣式布局以及基礎窗口交互邏輯,整體形態更接近一個可運行的輕量級操作系統。
相比之下,之前3.0 Pro生成的系統形態相對簡陋,一些基礎桌面交互和系統級應用缺失。
另一組更偏工程化的案例顯示,有開發者用Gemini 3.1 Pro在瀏覽器中直接生成并運行了一個可交互的VoxelWeb項目,形態類似“我的世界”式3D沙盒。
界面已包含啟動按鈕、移動控制、方塊交互以及基礎合成邏輯,具備完整的輕量沙盒雛形。

在前端生成與動畫細節方面,也有開發者要求模型生成一段完整的交互式生長動畫,覆蓋種子發芽、根系形成、枝干生長到樹葉展開的全過程。

實測結果顯示,模型在生長階段銜接與葉片細節上表現較為完整。該開發者評價稱:“這是我在這個提示詞下見過最好的樹葉效果。”
視覺理解方向的測試則進一步拉高了難度。有網友專門驗證“AgenticVision”能力,輸入素材是一張看似普通的街頭垃圾桶照片。
模型不僅完成了基礎識別,還進一步指出:當瞇眼或拉遠觀看時,畫面中的垃圾、陰影與輪廓會在視覺上拼合成兩個并排而坐的卡通角色。模型還逐項拆解了這一視覺錯覺的形成機制,解釋不同布料、垃圾袋與陰影分別對應角色的頭部、身體與外輪廓關系,體現出多步視覺推理能力。

整體來看,Gemini 3.1 Pro已經開始觸及空間關系理解、形狀映射和視覺錯覺解釋等更高階視覺認知任務。開發者給出的綜合判斷是,其表現已進入當前第一梯隊水平。
我們還用“開車還是步行去距離100米的洗車店洗車”、“父母能否結婚”等陷阱題考了考Gemini 3.1 Pro,結果它都成功避坑答對。


02 .
手搓《模擬城市》
創意編程、交互式設計分分鐘搞定
谷歌DeepMind的官方X賬號展示了谷歌UX工程師Michael Chang用Gemini 3.1 Pro開發了一個逼真的城市規劃應用程序。Gemini 3.1 Pro能自己處理復雜地形、繪制基礎設施圖、模擬交通,最后生成高質量的可視化效果。
除了上面提到的鵜鶘騎自行車,Gemini 3.1 Pro在生成青蛙騎老式高輪自行車、長頸鹿駕駛微型汽車、鴕鳥穿著旱冰鞋等各種抽象畫面的SVG動畫上,表現也毫不遜色。相比Gemini 3 Pro,Gemini 3.1 Pro的生成效果整體場景更生動、更有故事感,細節表現力大幅提升。

如Gemini 3.1 Pro可以直接根據文本提示生成可用于網站的動畫SVG,并且由于這些動畫是用純代碼而非像素構建的,因此在任何尺寸下都能保持清晰,并且文件體積相比傳統視頻非常小。

Gemini 3.1 Pro的復雜推理能力,能幫助用戶使用復雜API完成設計。如下面案例,該模型構建了一個實時航空航天儀表盤,成功配置了公共遙測數據流,以可視化國際空間站的軌道運行軌跡。

在交互式設計方面,Gemini 3.1 Pro可以編寫代碼,生成一個復雜的3D椋鳥群飛模擬。并且其還能構建沉浸式體驗,用戶可以通過手勢追蹤操控鳥群,同時聆聽一段生成式配樂,音樂會隨著鳥群的動態變化而改變。

Gemini3.1 Pro還能進行創意編程, 將文學主題轉化為可運行的代碼。當被要求為艾米莉·勃朗特(Emily Brontë)的《呼嘯山莊》構建一個現代個人作品集網站時,該模型深入分析了小說的氛圍基調,設計出一個簡潔現代的界面,打造出一個能捕捉主角精神內核的網站。

03 .
編程、推理、多模態樣樣行
數項測試超Claude、GPT模型
研究人員在一系列基準測試中對Gemini 3.1 Pro進行了評估,包括推理、多模態能力、智能體工具使用、多語言性能和長上下文。
相比Gemini 3 Pro、Claude Sonnet 4.6、Claude Opus 4.6、GPT-5.2、GPT-5.3-Codex,Gemini 3.1 Pro在12項基準測試中拿下第一。
在需要更強推理能力的測試中,Gemini 3.1 Pro在人類最后的考試、ARC-AGI-2、GPQA Diamond 3項測試中,表現都優于Claude、GPT模型。

編程能力測試中,Gemini 3.1 Pro在SWE-Bench Pro(公開版)和SWE-Bench Verified中得分相對較低,這兩大測試集考驗的是模型在真實項目中理解需求、定位問題、修改代碼、保證可用的端到端工程能力。
GDPval-AA Elo是當前衡量大模型在高價值知識工作中綜合能力的相對評分體系,Gemini 3.1 Pro的表現優于GPT-5.2、GPT-5.3-Codex,僅次于Sonnet 4.6。
衡量大模型工具使用能力的τ2-bench、MCP Atlas、BrowseComp、多語言性能的MMLU、長上下能力的MRCR v2測試集中,新模型的表現同樣優于其他模型。
在多模態大模型學術評測基準MMMU-Pro上,Gemini 3.1 Pro的表現比Claude、GPT模型更好,但略遜于Gemini 3 Pro。
04 .
結語:大模型競賽焦點
轉向復雜任務落地能力
當前大模型行業正從通用能力比拼,轉向真實世界復雜任務的實戰能力競爭,海內外各家模型在推理、工程化、多模態理解等核心能力上不斷發力突破,力求讓大模型真正落地應用,與真實業務場景相結合。
谷歌近期的加速布局也是如此,其上周發布了Gemini 3 Deep Think模型升級、一周后又推出Gemini 3.1 Pro,都將模型的升級重點放在專業領域加速技術研發、解決實際工作中的復雜問題上。可以看出,當下大模型已經讓更智能的大模型真正具備解決真實世界復雜任務能力,AI成為專業領域核心生產力的潛力增加。
