a级毛毛片_亚洲99_魔兽1~6集在线观看_黑白配在线观看_天天操日日操_四虎免费网站

首頁 > 知識分享 > 知識分享 > OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

發布時間:2024-09-16 16:27:04

OpenAI 發布 o1-mini:更經濟高效的推理模型

OpenAI 推出 o1-mini,一款專注于 STEM 領域的經濟高效推理模型。o1-mini 在數學和編碼方面表現出色,接近 OpenAI o1 的水平,同時成本更低,速度更快。

一、o1-mini 簡介

  • OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,尤其擅長數學和編碼。
  • o1-mini 在 AIME 和 Codeforces 等評估基準測試中接近 OpenAI o1 的性能。
  • o1-mini 比 OpenAI o1-preview 便宜 80%,并且延遲更低,速率限制更高。

二、o1-mini 的優勢

  • STEM 領域推理能力強 :o1-mini 經過專門優化,在 STEM 領域表現出色,尤其在數學和編碼方面。
  • 成本效益高 :o1-mini 比大型語言模型更小,因此運行成本更低,更適合實際應用。
  • 速度更快 :o1-mini 的響應速度比大型語言模型更快,例如在單詞推理問題上比 GPT-4o 快 3-5 倍。

三、o1-mini 的性能表現

領域

基準測試

o1-mini

o1-preview

o1

GPT-4o

數學

AIME

70.0%

44.6%

74.4%

-

編碼

Codeforces Elo

1650

1258

1673

-

STEM

GPQA (科學)

更高

更低

-

更低

STEM

MATH-500

更高

-

-

更低

 

MMLU

-

-

-

更高

  • o1-mini 在 AIME 數學競賽中取得了 70.0% 的成績,與 o1 (74.4%) 相當,并優于 o1-preview (44.6%)。
  • o1-mini 在 Codeforces 編碼競賽中獲得了 1650 Elo 的評分,與 o1 (1673) 相當,并高于 o1-preview (1258)。
  • 在一些需要推理能力的學術基準測試中,例如 GPQA (科學) 和 MATH-500,o1-mini 的表現優于 GPT-4o。
  • 在人類偏好評估中,o1-mini 在需要推理能力的領域優于 GPT-4o,但在語言類領域則不如 GPT-4o。

四、o1-mini 的安全性

  • o1-mini 采用與 o1-preview 相同的對齊和安全技術進行訓練。
  • 在內部版本的 StrongREJECT 數據集上,o1-mini 的越獄魯棒性比 GPT-4o 高 59%。

指標

GPT-4o

o1-mini

對有害提示的拒絕率(標準)

0.99

0.99

對有害提示的安全完成率(挑戰:越獄和邊緣案例)

0.714

0.932

對良性邊緣案例的合規性(“不過度拒絕”)

0.91

0.923

Goodness@0.1 StrongREJECT 越獄評估

0.22

0.83

人工來源的越獄評估

0.77

0.95

五、o1-mini 的局限性

  • o1-mini 在非 STEM 主題(如日期、傳記和冷知識)方面的知識儲備有限。

六、未來展望

  • OpenAI 將在未來版本中改進 o1-mini 在非 STEM 領域的知識儲備。
  • OpenAI 還將嘗試將 o1-mini 擴展到其他模態和 STEM 以外的專業領域。

OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,在數學和編碼方面表現出色。o1-mini 比大型語言模型更經濟、更快,是需要推理能力但對世界知識要求不高的應用的理想選擇。

來源:

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

LibreOffice 24.8.1 發布,注重隱私保護的辦公套件

2024 年 9 月 12 日 – LibreOffice 24.8.1 發布! 這是 LibreOffice 24.8 系列的第一個次要版本 ,適用于 Windows(Intel、AMD 和 ARM)、macOS(Apple 和 Intel)和 Linux。

主要特點

  • 注重隱私: LibreOffice 24.8 系列專為注重隱私的辦公套件用戶而優化,他們希望完全控制自己共享的信息。LibreOffice 確保用戶能夠決定是否以及與誰共享他們創建的內容。
  • 功能豐富: LibreOffice 提供了一系列界面選項,以適應不同的用戶習慣,從傳統到現代,并通過優化桌 面上的可用空間,最大限度地利用不同的屏幕尺寸,只需點擊一兩次即可實現最多的功能。
  • 完全互操作性: LibreOffice 基于 LibreOffice 技術引擎,可提供更好的用戶體驗,并生成基于兩種可用 ISO 標準的相同且完全可互操作的文檔:開放文檔格式 (ODT、ODS 和 ODP) 和專有的 Microsoft OOXML (DOCX、XLSX 和 PPTX)。
  • 企業級支持: TDF 強烈推薦生態系統合作伙伴提供的 LibreOffice Enterprise 系列應用程序,適用于桌面、移動和云,具有廣泛的專用增值功能和其他優勢,例如 SLA。

知識分享更多>>

全新Q5L上市、全新A6L首秀!越過千萬輛之巔的奧迪,再度啟航 現代帕里斯帝獲得北美年度汽車! 一份年度成績單,再證CR-V“全維度”哲學 上汽大眾首款9系旗艦ID. ERA 9X亮相:一款車,一場轉型的宣言 極狐喬心昱:北汽新能源自動駕駛技術全覆蓋 L3級至L4級全貫通 50萬內實用標桿?廣汽本田新款飛度正式上市 煥新價6.68萬元 央視鏡頭直擊-21℃極寒戰場!東風睿立達完成中汽冬測,破解物流凍阻難題 本田汽車近日官宣品牌標識煥新計劃,沿用多年的經典\"H\"標將升級為全新設計版本,新標識定于2027年正式啟用 星動紀元與順豐科技簽約,推動具身智能機器人在供應鏈落地 德系豪華三強,連續兩年失守中國市場 萬能的《甄嬛傳》,在迅雷反腐這兒就失靈了? 沃爾沃EX60純電SUV將搭載谷歌Gemini AI,配大尺寸豎屏 聯發科發布天璣9500s:3nm工藝,支持硬件級光線追蹤技術 消息稱鴻蒙智行1月20日前后分批推送華為乾崑智駕ADS 4.1 美運營商Verizon服務中斷十小時:波及數十萬人,官方承諾補償 金融時報:蘋果避開AI燒錢大戰,卻成為谷歌與OpenAI的“造王者” 李小龍透露華為手表市場份額超手機,國內超30%使用非華為手機 賈國龍確認:西貝將關閉102家門店 “酸菜魚之王”賣不動了? 太二親手拆招牌,轉戰川菜賽道 日本霸占20年的汽車銷量第一寶座,2026年被中國掀翻了? 為何中國茶業跑不出一個「茅臺」? 房企聚焦核心城市“掐尖”,北上杭三城2025年土地出讓收入均超千億元 順豐同城元旦同城配送單量同比增55%,攜手敦煌美術研究所神馬IP共啟新年 AMD預告MI500處理器,性能提升千倍!還首秀了商用人形機器人 京東數字人上線“直播間復刻”功能 阿里Qoder升級補全功能,AI代碼采納率提升65% 3.2億元新訂單!佑駕創新智能座艙方案獲全球知名車企定點 FF任命企業家及私募股權投資人Shahryar Oveissi擔任戰略顧問 特斯拉將考慮自建芯片工廠;馬斯克萬億美元薪酬方案獲批;日產汽車上季度營業利潤轉正 馬斯克:特斯拉擬自建芯片工廠,并考慮與英特爾合作
主站蜘蛛池模板: 中文字幕六区 | 青草一区二区 | 亚洲在线中文字幕 | 一区二区三区视频在线免费观看 | 久久91久久 | 久久久久久高清 | 久久在线精品视频 | 亚洲人网站 | 亚洲男人在线 | 色狠狠综合网 | 国产天天操| 玖玖精品| 91影视| 97久草| 碰在线视频 | 亚洲九九 | 亚洲综合一区二区 | 国产在线一二三 | 伊人网在线视频观看 | 99热只有| 色婷av | 欧美精品第二页 | 中文字幕在线日亚洲9 | 国产91精品欧美 | 久久第一页 | 中文字幕色哟哟 | 免费精品 | 丁香六月av | 欧美特级黄 | 欧美亚日韩 | 激情久久视频 | 在线视频资源 | 国产第九页 | 老鸭窝毛片 | 国产999久久久 | 成年人视频网站 | 女人十八岁毛片 | 自拍欧美日韩 | 国产日韩在线视频 | 日韩一区在线视频 | 蜜桃一区二区 |