大模型的苦,創(chuàng)業(yè)的AI 科學(xué)家最懂2mm²芯片點(diǎn)亮盲人黑暗世界!馬斯克前搭檔出手,失明81%也能閱讀了蘋(píng)果智能上線!海外網(wǎng)友狂給差評(píng):GPT套殼?!紫光國(guó)微發(fā)布Q3財(cái)報(bào) 前三季度實(shí)現(xiàn)營(yíng)收42.63億元打造小微企業(yè)數(shù)智服務(wù)“新樣板”,暢捷通攜手伙伴共筑融合生態(tài)蘋(píng)果2024款Mac mini發(fā)布,4499元起光線傳媒:前三季度凈利潤(rùn)4.61億元 同比增長(zhǎng)25.08%2024年粵港澳大灣區(qū)人工智能產(chǎn)業(yè)大會(huì) 首日活動(dòng)圓滿成功AMD Q3收入68.2億美元?jiǎng)?chuàng)下新高,預(yù)計(jì)Q4收入約75億美元《星鳴特攻》失利,索尼關(guān)閉 Firewalk Studios機(jī)械革命蛟龍16 Pro只要5037元 京東11.11購(gòu)3C數(shù)碼又便宜又好綠盟科技發(fā)布三季度報(bào)告,收入略增,虧損收窄,經(jīng)營(yíng)性凈現(xiàn)金流同比翻倍對(duì)話高通孟樸:自研Oryon CPU背后,是移動(dòng)計(jì)算邊界的再定義金磚大賽之元宇宙3D數(shù)字內(nèi)容設(shè)計(jì)創(chuàng)作賽發(fā)布3D協(xié)同設(shè)計(jì)實(shí)訓(xùn)平臺(tái),考察學(xué)生3D內(nèi)容在線編輯創(chuàng)作力福特汽車(chē) 2024 年第三季度營(yíng)收 460 億美元2024年胡潤(rùn)百富榜:張一鳴首次成為中國(guó)首富 雷軍排名上升15位消息稱臺(tái)積電擬收購(gòu)更多群創(chuàng)工廠擴(kuò)產(chǎn)先進(jìn)封裝小米15手機(jī)亮銀版公布,今晚 7 點(diǎn)發(fā)布Omdia觀點(diǎn):目錄管理對(duì)于電信運(yùn)營(yíng)商擴(kuò)大市場(chǎng)至關(guān)重要消息稱蘋(píng)果M5芯片預(yù)計(jì)明年年底推出,采用臺(tái)積電3nm制程
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    Post-Training有多重要?AI2研究員長(zhǎng)文詳解前沿模型的后訓(xùn)練秘籍

    2024年08月20日 09:43:30   來(lái)源:新智元公眾號(hào)

      【新智元導(dǎo)讀】越來(lái)越多研究發(fā)現(xiàn),后訓(xùn)練對(duì)模型性能同樣重要。Allen AI的機(jī)器學(xué)習(xí)研究員Nathan Lambert最近發(fā)表了一篇技術(shù)博文,總結(jié)了科技巨頭們所使用的模型后訓(xùn)練配方。

      隨著LLM學(xué)界和工業(yè)界日新月異的發(fā)展,不僅預(yù)訓(xùn)練所用的算力和數(shù)據(jù)正在瘋狂內(nèi)卷,后訓(xùn)練(post-training)的對(duì)齊和微調(diào)方法也在不斷更新。

      InstructGPT、WebGPT等較早發(fā)布的模型使用標(biāo)準(zhǔn)RLHF方法,其中的數(shù)據(jù)管理風(fēng)格和規(guī)模似乎已經(jīng)過(guò)時(shí)。

      最近幾個(gè)月來(lái),Meta、谷歌和英偉達(dá)等AI巨頭紛紛發(fā)布開(kāi)源模型,附帶發(fā)布詳盡的論文或報(bào)告,包括、、,以及Apple Intellegence的基礎(chǔ)模型報(bào)告。

      從這些披露的信息中,我們可以看到后訓(xùn)練方法的一些前沿變化趨勢(shì)。Allen AI研究科學(xué)家Nathan Lambert最近就這個(gè)話題發(fā)布了一篇文章。

      原文地址:https://www.interconnects.ai/p/frontier-model-post-training

      Nathan Lambert博士畢業(yè)于UC伯克利,曾在HuggingFace領(lǐng)導(dǎo)RLHF團(tuán)隊(duì),目前是Allen AI的機(jī)器學(xué)習(xí)研究員。

      他在文章中指出,合成數(shù)據(jù)、迭代訓(xùn)練、人類(lèi)偏好標(biāo)簽和大量過(guò)濾,是這些模型所用后訓(xùn)練方法的共同特點(diǎn)。具體來(lái)說(shuō),新的后訓(xùn)練配方建立在以下預(yù)設(shè)的基礎(chǔ)上:

      - 合成數(shù)據(jù)的質(zhì)量可能高于人類(lèi)數(shù)據(jù),特別是對(duì)于具有挑戰(zhàn)性的任務(wù)

      - RLHF可以比指令微調(diào)擴(kuò)展到更大規(guī)模

      - 需要多輪訓(xùn)練和生成才能得到最佳模型

      - 數(shù)據(jù)過(guò)濾是訓(xùn)練中最重要的部分

      這些假設(shè)在很大程度上相互交織,構(gòu)成了可以擴(kuò)展到大型團(tuán)隊(duì)的訓(xùn)練方案,非常適用于科技巨頭。文章的具體內(nèi)容對(duì)以上四點(diǎn)分別做出了詳細(xì)闡釋。

      新的標(biāo)準(zhǔn)Pipeline

      如果我們認(rèn)為ChatBot Arena分?jǐn)?shù)衡量了模型的后訓(xùn)練表現(xiàn),這就很大程度上與風(fēng)格和魯棒性相關(guān),幾乎所有的主要實(shí)驗(yàn)室都通過(guò)迭代訓(xùn)練獲得了顯著收益。

      我們還沒(méi)有看到Gemini 2或GPT-5發(fā)布,它們也許會(huì)重置目前的后訓(xùn)練范式,并有可能解鎖我們對(duì)模型更深層次的控制能力。

      但從目前來(lái)看,各個(gè)頂級(jí)實(shí)驗(yàn)室所用的方法明顯趨同,這種趨勢(shì)比預(yù)期中要清晰得多。

      人類(lèi)偏好數(shù)據(jù)

      最初的RLHF管道的重點(diǎn)是人類(lèi)數(shù)據(jù),主要有兩種形式:1)用于對(duì)專(zhuān)門(mén)任務(wù)進(jìn)行指令微調(diào)的人類(lèi)數(shù)據(jù);2)有關(guān)任務(wù)完成度的人類(lèi)偏好數(shù)據(jù)。

      這類(lèi)微調(diào)數(shù)據(jù)集成本高昂且被嚴(yán)格保護(hù),據(jù)我所知,唯一的公開(kāi)的應(yīng)該只有Lambert在HuggingFace團(tuán)隊(duì)時(shí)發(fā)布的No Robots。

      倉(cāng)庫(kù)地址:https://huggingface.co/datasets/HuggingFaceH4/no_robots

      人類(lèi)偏好數(shù)據(jù)很大程度上與特定模型的改進(jìn)有關(guān)。但即使在數(shù)據(jù)可以開(kāi)放的情況下,也不能確定可以將一個(gè)模型的偏好遷移至另一個(gè)模型。

      Lambert在HuggingFace時(shí)曾和團(tuán)隊(duì)做過(guò)類(lèi)似的嘗試,但在小型付費(fèi)數(shù)據(jù)合同上失敗了。

      現(xiàn)在,唯一用到人類(lèi)數(shù)據(jù)的方面就是偏好數(shù)據(jù)。從Llama 2披露的數(shù)據(jù)和其他傳聞來(lái)看,Meta可能在偏好數(shù)據(jù)上花費(fèi)了10M-20M美元,甚至更多。這還僅限于最終發(fā)布的模型,不包括更廣泛的實(shí)驗(yàn)和評(píng)估。

      Nemotron則使用大量合成數(shù)據(jù)來(lái)替代人類(lèi)數(shù)據(jù),但相對(duì)而言,這個(gè)模型的微調(diào)并不那么出色。

      對(duì)開(kāi)放社區(qū)而言,有一個(gè)迫在眉睫的挑戰(zhàn),但同時(shí)也是機(jī)遇:弄清這類(lèi)數(shù)據(jù)中的人為干預(yù)的程度,能否用LLM-as-a-Judge或獎(jiǎng)勵(lì)模型等方法代替。

      擴(kuò)展RLHF

      Llama 3的對(duì)齊負(fù)責(zé)人Thomas Scialom在播客節(jié)目Latent Space上曾說(shuō)道:

      他還表示,自己會(huì)將「100%的對(duì)齊數(shù)據(jù)預(yù)算用于RL階段所需的對(duì)齊數(shù)據(jù),而不是在指令上花費(fèi)更多時(shí)間!

      開(kāi)源的對(duì)齊工作中大多專(zhuān)注于擴(kuò)展指令微調(diào)(IFT,或稱為 SFT)。IFT容易操作、適用于多種任務(wù),而且方便與合成數(shù)據(jù)共同使用。

      但很明顯,產(chǎn)業(yè)界僅將IFT作為擴(kuò)展RLHF的起點(diǎn)。SFT數(shù)據(jù)主要關(guān)注以前模型未能覆蓋的特定領(lǐng)域,然后在此基礎(chǔ)上擴(kuò)展RLHF。

      RLHF是一個(gè)迭代過(guò)程,模型的生成過(guò)程可以讓它繼續(xù)改進(jìn)。Llama 2和 Nemotron論文中詳細(xì)介紹了5輪訓(xùn)練,但我們不知道這個(gè)數(shù)字是否有上限。

      Llama 3.1進(jìn)行了6輪偏好數(shù)據(jù)的訓(xùn)練,Llama 2是5輪,Nemotron是4輪,之前還有多輪指令微調(diào)。

      對(duì)于人類(lèi)偏好數(shù)據(jù)而言,進(jìn)行多輪迭代可能主要出于可行性方面的考量:

      1. 數(shù)據(jù)從注釋公司分批傳送到實(shí)驗(yàn)室

      2. 進(jìn)行多輪小規(guī)模的訓(xùn)練可以降低最終產(chǎn)品交付的風(fēng)險(xiǎn)。與其等待所有數(shù)據(jù)到位后才開(kāi)始訓(xùn)練,不如讓模型逐漸步入正軌

      這類(lèi)現(xiàn)實(shí)因素看起來(lái)無(wú)關(guān)緊要,但往往會(huì)觸發(fā)某種行業(yè)規(guī)范。

      下面這張圖片來(lái)自Llama 2論文,記錄了5輪拒絕采樣和PPO相關(guān)的數(shù)據(jù)。

      Nemotron還進(jìn)行了2輪SFT微調(diào)和4輪對(duì)齊。其中,RPO是用DPO優(yōu)化器加權(quán)的獎(jiǎng)勵(lì)模型。

      類(lèi)似的迭代RLHF方法可以追溯到Anthropic提出的「憲法人工智能」,但開(kāi)源社區(qū)似乎沒(méi)有大規(guī)模復(fù)現(xiàn)這個(gè)結(jié)果。

      目前,學(xué)術(shù)界正在關(guān)注「在線DPO訓(xùn)練」,這在方向上是相似的,但對(duì)各輪之間數(shù)據(jù)沒(méi)有那么關(guān)注。這種方法目前仍需要大量手動(dòng)操作,但一旦實(shí)現(xiàn)流程自動(dòng)化,在線DPO將成為未來(lái)。

      事實(shí)上,各個(gè)團(tuán)隊(duì)對(duì)后訓(xùn)練階段的算法選擇不應(yīng)該如此一成不變。DPO和PPO各有優(yōu)劣,前者更容易擴(kuò)展,但PPO啟發(fā)的方法(如在線RL)具有更高的性能上限。

      目前這些方案主要出于簡(jiǎn)潔性考量,因?yàn)檫@些團(tuán)隊(duì)仍然相對(duì)較新并且正在構(gòu)建模塊化系統(tǒng),Llama 3后訓(xùn)練團(tuán)隊(duì)中一名成員的說(shuō)法也證實(shí)了這種具備工程簡(jiǎn)潔性的方法。

      這種新的RLHF循環(huán)中,很重要的一環(huán)是在大多數(shù)任務(wù)上超越人類(lèi)能力的合成指令數(shù)據(jù)。

      如果可以讓模型有一點(diǎn)點(diǎn)提升、生成更好的指令,那就「重新開(kāi)始」,更新檢查點(diǎn)。

      Meta在論文中明確表示,他們「使用405B模型來(lái)提高我們較小模型的后訓(xùn)練質(zhì)量」;谷歌通過(guò)蒸餾出Gemini Flash來(lái)做到這一點(diǎn),但實(shí)際上大多數(shù)前沿模型可能都包含一些類(lèi)似步驟。

      我聽(tīng)說(shuō)OpenAI正在使用50萬(wàn)億token的數(shù)據(jù)訓(xùn)練下一代模型,其中大部分為合成數(shù)據(jù)。去年有一個(gè)傳言,Anthropic擁有「預(yù)訓(xùn)練規(guī)模的憲法AI語(yǔ)料庫(kù)」,現(xiàn)在看來(lái)這也很合理。

      這些AI公司意識(shí)到合成數(shù)據(jù)的重要性應(yīng)該是在12~18個(gè)月之前,當(dāng)他們不再使用模型輸出進(jìn)行自我迭代訓(xùn)練的時(shí)候。但Meta不一樣,因?yàn)槭芤嬗谄渌玫拈_(kāi)放模型。

      看看當(dāng)今的后訓(xùn)練就可以清楚知道,合成數(shù)據(jù)造成模型崩潰的問(wèn)題被過(guò)分夸大了。只有在人為設(shè)置的環(huán)境中,丟棄原始數(shù)據(jù)、只留下生成的新數(shù)據(jù)時(shí),才會(huì)發(fā)生模型崩潰。

      數(shù)據(jù)質(zhì)量是王道

      Llama 3.1報(bào)告的大部分內(nèi)容都是關(guān)于數(shù)據(jù)管理的細(xì)節(jié),其中每個(gè)相關(guān)的子領(lǐng)域都需要廣泛而具體的管理說(shuō)明。

      這與我所知的OpenAI John Schulman領(lǐng)導(dǎo)的后訓(xùn)練團(tuán)隊(duì)以及其他類(lèi)似團(tuán)隊(duì)的工作情況相符——指定一個(gè)特定領(lǐng)域,獲得相關(guān)數(shù)據(jù),然后模型就會(huì)變得更好。

      但如果沒(méi)有大量的數(shù)據(jù)過(guò)濾和管理,上述的RLHF方法都不起作用。

      在Allen AI,我們?cè)诤笥?xùn)練流程中開(kāi)始更加優(yōu)先考慮數(shù)據(jù),可以立即感受到模型提升速度的變化。

      案例分析——Nemotron和Llama

      Llama的后訓(xùn)練流程如下:

      Nemotron的這張圖比較簡(jiǎn)略:

      綜合起來(lái)可以看到大多數(shù)方法的共同點(diǎn)。

      但下面這張圖表,以及大多數(shù)行業(yè)研究論文都忽視了數(shù)據(jù)。

      Llama 3.1等模型到報(bào)告中有提及了很多細(xì)節(jié),比如正則化、對(duì)損失函數(shù)的調(diào)整、模型平均等等,但這些都是模型性能的邊際收益,很大程度上超出了核心微調(diào)循環(huán)的范圍。

      到了一定的時(shí)間節(jié)點(diǎn),這些細(xì)節(jié)都會(huì)變得微不足道。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。