a级毛毛片_亚洲99_魔兽1~6集在线观看_黑白配在线观看_天天操日日操_四虎免费网站

首頁 > 創作內容 > 創作內容 > 檢索做大,生成做輕:CMU團隊系統評測RAG的語料與模型權衡

檢索做大,生成做輕:CMU團隊系統評測RAG的語料與模型權衡

發布時間:2026-01-06 16:27:52

在檢索增強生成中,擴大生成模型規模往往能提升準確率,但也會顯著抬高推理成本與部署門檻。CMU 團隊在固定提示模板、上下文組織方式與證據預算,并保持檢索與解碼設置不變的前提下,系統比較了生成模型規模與檢索語料規模的聯合效應,發現擴充檢索語料能夠穩定增強 RAG,并在多項開放域問答基準上讓小中型模型在更大語料下達到甚至超過更大模型在較小語料下的表現,同時在更高語料規模處呈現清晰的邊際收益遞減。更進一步,研究不僅刻畫了隨語料擴容而變化的性能增益,也揭示了若干相對穩定的不變規律。

在開放域問答等知識密集型任務中,檢索增強生成(RAG)已經成為主流范式之一。它通過先檢索外部文檔,再讓大語言模型基于證據生成答案,從而緩解純參數記憶帶來的幻覺與事實錯誤。然而,近年來提升 RAG 的常見路徑往往集中在擴大生成模型規模,準確率確實會上升,但推理成本與部署門檻也隨之顯著提高。對于希望在有限算力下落地的系統而言,一個更現實的問題是:在不繼續擴大模型參數的前提下,是否還有同樣有效的提升空間。



卡內基梅隆大學計算機學院團隊在最新 ECIR 接收論文中給出了一個清晰的回答。他們把關注點從更大的模型轉向更大的檢索語料,系統評估了語料規模與生成模型規模之間的替代關系,并提出了可操作的權衡框架。核心觀點為,擴大檢索語料通常可以顯著增強 RAG,且在不少設置下,這種增強效果可以部分替代擴大模型參數帶來的收益,但在更大語料規模處會出現邊際收益遞減。



 

  • 論文標題:Less LLM, More Documents: Searching for Improved RAG
  • 論文鏈接:https://arxiv.org/pdf/2510.02657

 

從問題出發:RAG 的另一條擴展軸

RAG 的效果由兩部分共同決定。檢索模塊負責把可能包含答案的證據送到模型上下文中;生成模型負責理解問題、整合證據并形成答案。擴大模型參數能夠提升推理與表達能力,但檢索端提供的證據質量與覆蓋范圍,往往直接決定模型是否有機會看到答案線索。CMU 團隊指出,檢索語料的規模本身就是一條獨立的擴展軸,但長期以來缺少與模型規模聯合控制變量的系統研究,因此語料擴容能否補償小模型仍缺乏定量結論。

實驗設計:只讓兩個變量變化

為得到可解釋的權衡曲線,研究采用了全因子設計,只讓語料規模與模型規模變化,其余保持一致。檢索語料選用大規模搜索引擎數據集 ClueWeb22-A 的英文子集,總計包含約 2.64 億真實網頁文檔,并將其隨機均衡切分為 12 個 shard。語料規模用激活 shard 的數量表示,逐步從 1 個 shard 擴展到 12 個 shard。檢索端使用 MiniCPM-Embedding-Light 做稠密向量編碼,后端采用 DiskANN 構建多 shard 近鄰檢索,固定 top 文檔數、切塊與重排策略,最終向生成模型提供固定數量的 top chunk 作為 LLM 答案生成證據。

生成端選用最新 Qwen3 同一模型家族的不同尺寸,覆蓋從 0.6B 到 14B 的 Qwen3 模型,并固定提示模板與解碼設置,以確保比較只反映規模變化帶來的差異。評測任務覆蓋三個開放域問答基準:Natural Questions、TriviaQA 與 Web Questions,指標采用最常用的 F1 與 ExactMatch。

關鍵發現一:

語料擴容可以讓小模型追上大模型(變)

實驗結果展示了明確的補償效應。以 Natural Questions 為例,隨著語料從 1 個 shard 擴展到更大規模,較小模型的 EM 與 F1 持續提升,并在一定語料規模后達到或超過更大模型在小語料上的基線表現。研究用 n 星指標刻畫補償閾值,即小模型需要多少倍語料才能追平大模型在 1 個 shard 下的成績。在三個數據集上,這一閾值呈現出穩定模式:中等規模模型之間的追平往往只需要把語料擴大到 2 倍或 3 倍,而最小模型想追平下一檔模型則需要更高倍數的語料擴容。



更重要的是,這種追平并非個別現象。研究在 TriviaQA 與 WebQuestions 上觀察到相同趨勢,并給出了跨數據集的閾值表,顯示語料擴容在多數設置下都能把性能缺口縮小到一個模型檔位,甚至兩個檔位。對部署而言,這意味著當推理預算難以支撐更大參數模型時,把資源投入到更大語料與更強檢索,可能是更務實的提效方向。

在增長形態上,研究觀察到幾乎與模型規模無關的共同曲線。最顯著的提升發生在從無檢索到有檢索的第一步,隨后隨著語料繼續擴大,收益逐步下降,并在約 5 到 6 倍語料規模附近出現飽和趨勢。這一現象對工程實踐具有直接意義:檢索能力的從無到有往往帶來最大增益,但在較高語料規模處繼續無上限擴容并不劃算,應該結合吞吐、延遲與存儲成本做更精細的預算分配。

關鍵發現二:

提升主要來自證據覆蓋,而非模型更會用證據(不變)

語料變大為什么能帶來提升?論文給出的機制解釋相對直接且符合直覺預期:語料擴容提高了檢索到含答案片段的概率。當語料規模較小時,檢索到的片段經常只與主題相關,但不包含關鍵事實;隨著語料擴大,更容易檢索到明確包含答案字符串的證據片段,生成模型因此獲得更可靠的落腳點。

為把這種直覺量化,研究定義了 Gold Answer Coverage Rate,用于統計傳入生成模型的 top chunk 中至少有一個包含標準答案字符串的概率。結果顯示,覆蓋率隨語料規模增長而單調上升,并在不同數據集上體現出差異性,例如 TriviaQA 的覆蓋率整體更高,反映其信息需求與網頁語料的重合度更強。



進一步地,研究提出 Context Benefited Success Rate,用于衡量那些在無檢索時無法答對的問題,在加入檢索證據后被答對的比例,并用 Utilization Ratio 將其與覆蓋率相除,以刻畫模型把可用證據轉化為正確答案的效率。實驗顯示,Utilization Ratio 在不同語料規模下整體保持穩定,且在不同模型尺寸之間差異有限。結合無檢索設置下的基線表現可以看到,不同大小模型的主要差別更多來自其參數中可直接調用的內部知識儲備,使其在無需外部證據時也能回答一部分問題;而對于那些無法僅憑內部知識答對的問題,一旦檢索端提供了包含答案線索的證據,不同模型將證據轉化為正確答案的效率整體相近。因此,語料擴容帶來的關鍵收益主要體現在提高含答案證據進入上下文的概率,而非顯著提升模型對既有上下文的利用能力。



工程啟示:如何在預算約束下分配投入

綜合實驗結論,論文給出了一條可執行的系統設計建議。當推理資源受限時,優先考慮擴大檢索語料與提升覆蓋率,常常能讓中等規模生成模型達到接近更大模型的表現。相比之下,極小模型需要更激進的語料擴容才能追平下一檔,收益效率偏低;而極大模型在更大語料下的增益也相對有限,體現出利用效率并不會隨著參數規模單調上升。對系統優化而言,跟蹤答案覆蓋率與利用率可以作為診斷指標,幫助判斷瓶頸更偏檢索端還是生成端,從而指導下一步應該擴語料、調檢索,還是換模型。

結語

這項研究把 RAG 的規模討論從單一的模型參數擴展到語料與檢索能力,給出了可復現的控制變量實驗與清晰的機制解釋。其結論可以概括為兩點:擴大語料通常有效,但收益存在邊際遞減;提升主要來自更高的答案證據覆蓋,而非模型利用證據能力的躍遷。在面向真實部署的 RAG 系統中,這提供了一條更可控、更具性價比的提升路徑。

創作內容更多>>

五菱星光560上市,燃油/插混/純電可選,6萬級擁有15萬級享受 元UP冠軍續航401km 7萬級越級純電SUV 上年銷量21萬輛,2026北京現代直指“智啟2030計劃” 深耕者勝,長期者贏,smart的長期主義如何驅動“確定性增長”? 首發天璣AIOS 6.0 ,2026小鵬新品發布會上市多款新車 為高原注入綠色動能:宇通重工三電技術破解高原寒區作業困局 2025年中國乘用車銷量首破3000萬輛,今年預計增幅0.5% 本田官宣換標 新LOGO 2027年全面啟用 李斌新年首次內部講話:成立“人工智能技術委員會”,加大投入推動AI全業務鏈落地 雷軍強調:新一代SU7所有信息以工信部官網公告、正式發布會為準 全球首個機器人租賃平臺“擎天租”完成種子輪融資 眾擎CEO:我們的T800機器人體能超90%正常男人 西貝閉店約4000名員工或將失業 網友:羅永浩一句話影響這么大 上汽集團:2025年整車批發銷量超450萬輛 凈利同比預增438%-558% AI在美國“與民爭電”,核電成了硅谷“全村的希望” 16億只是保底,馬斯克想給朱曉彤的是100億 花旗:預計人民幣兌美元在未來6-12個月內將升向6.8 片酬倍增、代言不斷,2025短劇演員能年入千萬?丨年終策劃 2026,房地產罕見“猛藥”來了! 機構:2025年北京甲級寫字樓凈吸納33萬平米,中關村占半數 2025年房企銷售額排位賽出爐:前十門檻卡線千億,誰進誰退? 新年樓市積極開局:北京新政效果初顯,深圳元旦假期二手房簽約量同比漲四成 檢索做大,生成做輕:CMU團隊系統評測RAG的語料與模型權衡 花小小“酸脆”米粉首發上線 淘寶閃購為品牌搭建新品增長路徑 奠定高端純電領先地位,蔚來ES6達成累計量產30萬臺里程碑 小鵬X9攜鯤鵬超級增程入場,大電池增程迎來攪局者 清華博士創業,深樸智能三個月連獲2億元融資 為機器人提供一體化關節模組,泉智博完成過億元融資 Rivian第三季度凈虧損12億美元 《汽車玻璃膜施工技術規程》(T/CADCC006-2025)及《汽車車身改色膜施工技術規程》將有統一施工標準,明年實施
主站蜘蛛池模板: 国产精品一区二区三区免费 | 亚洲视频在线播放 | av一区在线观看 | 99久久99久久精品国产片果冻 | 久久综合免费 | 国产又大又黄视频 | 深夜在线视频 | 亚洲四虎影院 | 亚洲涩涩网 | 亚洲色图狠狠干 | av影音先锋 | 亚洲国产图片 | 亚洲三级视频在线观看 | 男人懂得网站 | 毛片一级片 | 欧美日韩一区二区在线播放 | 国产精品久久久久久网站 | 国产三级自拍 | 伊人网在线免费观看 | 成人性生交大片免费看r链接 | 久久精品无码一区二区三区 | 日韩亚洲视频 | 中文字幕第二页 | 国产黄色免费大片 | 成人在线观看黄色 | 欧美黑人性猛交 | 久久精品久久久精品美女 | 日韩精品在线免费观看 | 操欧美老女人 | 国产精品一区在线免费观看 | 神马久久影院 | 一级在线观看视频 | 欧美日批视频 | 在线观看你懂 | 自拍偷拍视频在线 | 密桃av| 国产视频一二 | 日日夜夜免费精品视频 | 91视频在线| 麻豆视频播放 | 亚洲男人天堂2019 |