a级毛毛片_亚洲99_魔兽1~6集在线观看_黑白配在线观看_天天操日日操_四虎免费网站

首頁 > 知識分享 > 知識分享 > DeepSeek官方剛剛突然宣布:我們發最新版本模型DeepSeek-V3.1啦

DeepSeek官方剛剛突然宣布:我們發最新版本模型DeepSeek-V3.1啦

發布時間:2025-08-22 20:05:06

DeepSeek官方剛剛突然宣布:我們發最新版本模型DeepSeek-V3.1啦!

消息一出,一個小時在X上的瀏覽熱度就達到了26萬!

據DeepSeek介紹,DeepSeek-V3.1是一款混合型模型,支持“思考模式”與“非思考模式”混合運行,用戶可以根據場景需求,靈活切換推理深度,效率和能力兩手抓。

得益于深度優化的訓練策略與大規模長文檔擴展,DeepSeek-V3.1在推理速度、工具調用智能、代碼和數學任務等方面均有顯著進步。

咱們先捋一下這次新版模型的幾大亮點:

·混合思考模式:通過切換對話模板,單一模型即可兼容思考與非思考兩種模式。

·更智能的工具調用:通過后訓練優化,模型在調用工具和完成Agent(智能體)任務方面的表現顯著提升。

·更高的思考效率:DeepSeek-V3.1-Think在回答質量上可與R1-0528媲美,同時響應速度更快。

官方放出的測試結果顯示,V3.1-Think AIME 2025(美國數學邀請賽2025版)得分88.4%,GPQA Diamond(高難度研究生級知識問答數據集的Diamond子集)得分80.1%,LiveCodeBench(實時編碼基準)得分74.8%,均優于老模型R1-0528的表現:87.5%、81.0%、73.3%。

而且,正如下圖所示(縱軸是輸出token數),V3.1-Think的輸出tokens反而大幅減少。

也就是說:V3.1-Think相較于老模型R1-0528,使用更少的tokens,但達到了相似或略高的準確率,在計算資源優化上的優勢很明顯。

在軟件工程和Agent任務基準上的性能提升方面:

·SWE-Bench Verified,DeepSeek-V3.1得分66.0%,遠高于V3-0324的45.4%和R1-0528的44.6%,表明其在處理復雜代碼任務時更可靠。

·SWE-Bench Multilingual(多語言版本),DeepSeek-V3.1得分54.5%,大幅領先V3-0324的29.3%和R1-0528的30.5%。說明其在多語言支持上有很大進步,可能通過增加多樣化訓練數據實現,使其更適合全球開發場景。

·Terminal-Bench(使用Terminus 1框架的基準,量化AI Gent在終端(命令行)環境中完成復雜任務的能力,如腳本執行、文件操作或系統交互,模擬真實命令行工作流),DeepSeek-V3.1得分31.3%,優于V3-0324的13.3%和R1-0528的5.7%,在Agent框架下的效率提升,適合自動化運維或DevOps應用。

需要注意的是,DeepSeek V3.1的本次更新,核心在于顯著增強了模型的智能體能力,尤其是在復雜推理和工具鏈協作場景下的實際表現。

此外,DeepSeek-V3.1搜索Agent、長上下文理解、事實問答和工具使用等領域的性能也表現強勢。

DeepSeek-V3.1(基于MoE架構,總參數671B,激活37B)在大多數基準上顯著優于R1-0528,在搜索Agent和長上下文任務上的平均提升約20-300%,尤其在工具使用(如xbench-DeepSearch)和事實QA(如SimpleQA)中領先,這意味著它適合構建AI Agent應用,如自動化搜索或代碼輔助。

相比R1-0528(專注于推理但效率較低),DeepSeek-V3.1更注重平衡速度與質量,DeepSeek的“Agent時代” 正式拉開帷幕。

在Huggingface上,DeepSeek釋放出了更詳細的評估結果。

基于官方給出的與前代的測評比較,DeepSeek-V3.1在常規推理和知識問答任務(如 MMLU-Redux 和 MMLU-Pro)上,整體表現穩定提升,非思考和思考模式下的分數均高于V3舊版,基本接近行業頂尖大模型水平。

例如,在 HLE(Humanity’s Last Exam,搜索+Python 復合推理)任務上,DeepSeek-V3.1實現了 29.8% 的通過率,優于自家 R1-0528 版(24.8%),并接近 GPT-5、Grok 4 等國際一線大模型。

雖然各大模型在評測細節上存在一定差異,但DeepSeek的表現仍具有說服力。

新版模型在網頁檢索、復合搜索和工具協同場景(BrowseComp、BrowseComp_zh、Humanity’s Last Exam Python+Search、SimpleQA)上有跨越式進步,中文網頁搜索和多模態復合推理分數顯著超越舊版本。在 SWE-Bench Verified代碼評測中,DeepSeek-V3.1以66.0%的成績大幅領先前代(44.6%),也與 Claude 4.1、Kimi K2等頂級模型保持同一水準。

在Terminal Bench終端自動化測試中,其得分也略高于GPT-5和o3等知名競品。

與此同時,DeepSeek-V3.1在代碼生成和自動化評測(LiveCodeBench、Codeforces-Div1、Aider-Polyglot、SWE Verified、Terminal-bench)方面,得分也較前代顯著提升,特別是在智能體模式下,代碼任務通過率和自動化執行能力大幅增強。在AIME和HMMT等高級數學推理和競賽任務上,DeepSeek-V3.1的表現優于前代產品,思考模式下解題成功率大幅提升。

不過作為通用對話模型,V3.1 并未在所有維度超越前代產品——在部分常規對話和知識問答場景下,R1-0528 依然具有一定競爭力。

在具體的性能表現之外,DeepSeek發布新模型,一定會被外界密切關注的當然是價格。

這次,DeepSeek也沒有讓大家失望。

Input API Price(輸入定價),分為兩種情況:

·Cache Hit(緩存命中):0.07美元/百萬tokens。

·Cache Miss(緩存未命中):0.56美元/百萬tokens。

Output API Price(輸出定價)為1.68美元/百萬tokens。

MenloVentures的風險投資人、前谷歌搜索團隊成員Deedy也發推大呼“鯨魚回來了”。(這哥們在X上有20萬粉絲,妥妥的科技界大V。)

除了價格良心之外,DeepSeek-V3.1還首次實現了對Anthropic API的原生兼容。

這意味著,用戶可以像調用Claude或Anthropic生態的模型一樣,將DeepSeek的集成進現有系統。無論是通過Claude Code工具鏈還是直接使用Anthropic官方SDK,開發者只需配置API地址和密鑰,即可在所有支持Anthropic API的環境下,使用DeepSeek-V3.1提供的推理和對話能力。

從目前的反饋來看,外界對這次發布的反饋還是很好的,盡管它并非“拳打Grok4、腳踩GPT-5”的霸王龍,但它有明確的、清晰的側重點與優勢。

更有意思的是,從兩天前DeepSeek默默發了V3.1-Base開始,網友已經再次驚嘆于DeepSeek發模型的節奏之舒適、態度之低調。

在其他模型發布往往先炒作規格和性能數據的時候,DeepSeek反其道而行,直接放出模型文件讓開發者立即下載測試,然后再補充細節。高效、開發者友好。

知識分享更多>>

全新Q5L上市、全新A6L首秀!越過千萬輛之巔的奧迪,再度啟航 現代帕里斯帝獲得北美年度汽車! 一份年度成績單,再證CR-V“全維度”哲學 上汽大眾首款9系旗艦ID. ERA 9X亮相:一款車,一場轉型的宣言 極狐喬心昱:北汽新能源自動駕駛技術全覆蓋 L3級至L4級全貫通 50萬內實用標桿?廣汽本田新款飛度正式上市 煥新價6.68萬元 央視鏡頭直擊-21℃極寒戰場!東風睿立達完成中汽冬測,破解物流凍阻難題 本田汽車近日官宣品牌標識煥新計劃,沿用多年的經典\"H\"標將升級為全新設計版本,新標識定于2027年正式啟用 星動紀元與順豐科技簽約,推動具身智能機器人在供應鏈落地 德系豪華三強,連續兩年失守中國市場 萬能的《甄嬛傳》,在迅雷反腐這兒就失靈了? 沃爾沃EX60純電SUV將搭載谷歌Gemini AI,配大尺寸豎屏 聯發科發布天璣9500s:3nm工藝,支持硬件級光線追蹤技術 消息稱鴻蒙智行1月20日前后分批推送華為乾崑智駕ADS 4.1 美運營商Verizon服務中斷十小時:波及數十萬人,官方承諾補償 金融時報:蘋果避開AI燒錢大戰,卻成為谷歌與OpenAI的“造王者” 李小龍透露華為手表市場份額超手機,國內超30%使用非華為手機 賈國龍確認:西貝將關閉102家門店 “酸菜魚之王”賣不動了? 太二親手拆招牌,轉戰川菜賽道 日本霸占20年的汽車銷量第一寶座,2026年被中國掀翻了? 為何中國茶業跑不出一個「茅臺」? 房企聚焦核心城市“掐尖”,北上杭三城2025年土地出讓收入均超千億元 順豐同城元旦同城配送單量同比增55%,攜手敦煌美術研究所神馬IP共啟新年 AMD預告MI500處理器,性能提升千倍!還首秀了商用人形機器人 京東數字人上線“直播間復刻”功能 阿里Qoder升級補全功能,AI代碼采納率提升65% 3.2億元新訂單!佑駕創新智能座艙方案獲全球知名車企定點 FF任命企業家及私募股權投資人Shahryar Oveissi擔任戰略顧問 特斯拉將考慮自建芯片工廠;馬斯克萬億美元薪酬方案獲批;日產汽車上季度營業利潤轉正 馬斯克:特斯拉擬自建芯片工廠,并考慮與英特爾合作
主站蜘蛛池模板: 国产小视频在线免费观看 | 日本视频精品 | 中文字幕日本一区 | 日一区二区 | 天天操综合| 精品免费久久 | 成人公开免费视频 | 日本天堂在线视频 | 天天色婷婷 | 国产剧情自拍 | 草av| 午夜资源站| 国产日韩欧美高清 | 欧美激情福利 | 亚洲欧美日韩中文在线 | 成人免费视频网站在线看 | 日韩一级精品 | 综合网在线 | 日韩av在线网| 国产视频精品在线 | 久久这里只有精品6 | 欧美一页 | 国产三级精品三级在线观看 | 日韩黄色影院 | 国产精品久久久久一区二区三区 | 国产a级免费 | 免费黄网在线观看 | 欧美极品在线观看 | 亚洲九九精品 | 国产在线视频在线观看 | 欧美综合区 | 久久久免费看片 | 97在线免费观看视频 | 我要看免费毛片 | 亚洲网址在线观看 | 亚洲3级 | 少妇特黄一区二区三区 | 欧美三级午夜理伦 | 99热偷拍 | 激情五月婷婷综合网 | 欧美成人免费视频 |