谷歌蘋(píng)果最新發(fā)現(xiàn)：LLM知道但不告訴你，掌握知識(shí)比表現(xiàn)出來(lái)的多

2024年10月21日 09:30:20 來(lái)源：新智元導(dǎo)讀

　　【新智元導(dǎo)讀】近日，來(lái)自谷歌和蘋(píng)果的研究表明：AI模型掌握的知識(shí)比表現(xiàn)出來(lái)的要多得多!這些真實(shí)性信息集中在特定的token中，利用這一屬性可以顯著提高檢測(cè)LLM錯(cuò)誤輸出的能力。

　　大模型的應(yīng)用歷來(lái)受幻覺(jué)所擾。

　　這個(gè)幻覺(jué)可以指代LLM產(chǎn)生的任何類型的錯(cuò)誤：事實(shí)不準(zhǔn)確、偏見(jiàn)、常識(shí)推理失敗等等。

　　——是因?yàn)榇竽Ｐ蛯W(xué)半天白學(xué)了嗎?并不是。

　　近日，來(lái)自谷歌和蘋(píng)果的研究表明：AI模型掌握的知識(shí)比表現(xiàn)出來(lái)的更多!

論文地址：https://arxiv.org/pdf/2410.02707

　　研究人員在LLM內(nèi)部表示上訓(xùn)練分類器，以預(yù)測(cè)與生成輸出的真實(shí)性相關(guān)的各種特征。

　　結(jié)果表明LLM的內(nèi)部狀態(tài)編碼反映出的真實(shí)性信息，比以前認(rèn)識(shí)到的要多得多。

　　這些真實(shí)性信息集中在特定的token中，利用這一屬性可以顯著提高檢測(cè)LLM錯(cuò)誤輸出的能力。

　　雖說(shuō)這種錯(cuò)誤檢測(cè)無(wú)法在數(shù)據(jù)集中泛化，但好處是，模型的內(nèi)部表示可用于預(yù)測(cè)模型可能犯的錯(cuò)誤類型，從而幫助我們制定緩解錯(cuò)誤的策略。

　　研究揭示了LLM內(nèi)部編碼和外部行為之間的差異：可能編碼了正確的答案，卻生成了不正確的答案。

　　——簡(jiǎn)單來(lái)說(shuō)就是，LLM它知道，但它不想告訴你!

　　LLM在裝傻

　　作者建議將重點(diǎn)從以人類為中心的幻覺(jué)解釋轉(zhuǎn)移到以模型為中心的視角，檢查模型的中間激活。

　　不同于使用RAG或者依賴更強(qiáng)大的LLM judge，本文工作的重點(diǎn)是僅依賴于模型輸出的logits、softmax后的概率和隱藏狀態(tài)的計(jì)算。

　　錯(cuò)誤檢測(cè)器

　　第一步是確定真實(shí)性信號(hào)在LLM中的編碼位置。

　　假設(shè)我們可以訪問(wèn)LLM的內(nèi)部狀態(tài)(白盒)，但不能訪問(wèn)任何外部資源(搜索引擎或其他LLM)。

　　建立一個(gè)數(shù)據(jù)集D，由N個(gè)問(wèn)題標(biāo)簽對(duì)組成，對(duì)于每個(gè)問(wèn)題，提示模型生成響應(yīng)，從而得到一組預(yù)測(cè)答案。

　　接下來(lái)，比較LLM生成的回答與正確答案，從而構(gòu)建錯(cuò)誤檢測(cè)數(shù)據(jù)集(這一部可由AI代勞)。

　　實(shí)驗(yàn)選擇了四個(gè)LLM：Mistral-7b，Mistral-7b-instruct-v0.2，Llama3-8b和Llama3-8b-instruct。

　　作者選取了10個(gè)跨越不同領(lǐng)域和任務(wù)的數(shù)據(jù)集：TriviaQA、HotpotQA(with/without context)、Natural Questions、Winobias、Winogrande、MNLI、Math、IMDB review sentiment analysis和另一個(gè)自制的電影角色數(shù)據(jù)集。

　　實(shí)驗(yàn)允許無(wú)限制地生成響應(yīng)以模擬現(xiàn)實(shí)世界LLM的用法，并貪婪地解碼答案。

　　性能指標(biāo)

　　測(cè)量ROC曲線下面積以評(píng)估錯(cuò)誤檢測(cè)器，這能夠反映模型在多個(gè)閾值中區(qū)分陽(yáng)性和陰性情況的能力，平衡靈敏度(真陽(yáng)性率)和特異性(假陽(yáng)性率)。

　　錯(cuò)誤檢測(cè)方法

　　Majority：始終預(yù)測(cè)訓(xùn)練數(shù)據(jù)中最頻繁的標(biāo)簽。

　　聚合概率/logits：從之前的研究中選取幾種方法，包括計(jì)算這些值的最小值、最大值或平均值。

　　P(True)：通過(guò)提示要求LLM評(píng)估其生成的正確性時(shí)。

　　Probing：在模型的中間激活上訓(xùn)練一個(gè)小分類器，以預(yù)測(cè)已處理文本的特征，這里使用線性探測(cè)分類器對(duì)靜態(tài)token進(jìn)行錯(cuò)誤檢測(cè)。

　　作者認(rèn)為，現(xiàn)有方法忽略了一個(gè)關(guān)鍵的細(xì)節(jié)：用于錯(cuò)誤檢測(cè)token的選擇。

　　研究者通常只關(guān)注最后生成的token或取平均值，然而，由于LLM一般會(huì)生成長(zhǎng)格式響應(yīng)，這種做法可能會(huì)錯(cuò)過(guò)重要的部分。

　　本文中，作者關(guān)注表示確切答案的token(EXACT ANSWER TOKENS)，它代表了生成的響應(yīng)中最有意義的部分。

　　這里將EXACT ANSWER TOKENS定義為，如果修改則會(huì)改變答案正確性的token。

　　實(shí)踐中，作者使用設(shè)置好的instruct模型代勞，來(lái)提取確切答案。之后，通過(guò)簡(jiǎn)單的搜索過(guò)程確定對(duì)應(yīng)的token。

　　重點(diǎn)關(guān)注4個(gè)特定token：第一個(gè)確切答案的token及其前一個(gè)token、最后一個(gè)確切答案token及其后一個(gè)token。

　　作者廣泛分析了層和token選擇對(duì)分類器的激活提取的影響，通過(guò)系統(tǒng)地探測(cè)模型的所有層，從最后一個(gè)問(wèn)題token開(kāi)始，一直到最終生成的token。

　　上圖顯示了Mistral-7b-Struct中各個(gè)層和token關(guān)于探測(cè)的AUC指標(biāo)。雖然一些數(shù)據(jù)集似乎更容易進(jìn)行錯(cuò)誤預(yù)測(cè)，但所有數(shù)據(jù)集都表現(xiàn)出一致的真實(shí)性編碼模式，中后期層通常會(huì)產(chǎn)生最有效的探測(cè)結(jié)果。

　　通過(guò)比較使用和不使用EXACT ANSWER TOKENS的性能，來(lái)評(píng)估各種錯(cuò)誤檢測(cè)方法，上表展示了三個(gè)代表性數(shù)據(jù)集上的AUC。

　　不同任務(wù)中的泛化

　　了解錯(cuò)誤檢測(cè)器在不同任務(wù)中的泛化能力，對(duì)于實(shí)際應(yīng)用程序至關(guān)重要。

　　上圖(a)顯示了Mistral-7b-instruct的泛化結(jié)果，大于0.5的值表示泛化成功。乍一看，大多數(shù)熱圖值超過(guò)了0.5，似乎任務(wù)之間存在一定程度的泛化。

　　然而事實(shí)上，大部分性能可以通過(guò)基于logit的真度檢測(cè)來(lái)實(shí)現(xiàn)。圖(b)顯示了從最強(qiáng)的基于Logit的基線(Logit-min-exact)中減去結(jié)果后的相同熱圖。

　　這表示檢測(cè)器的泛化程度很少超過(guò)僅依賴Logit所能達(dá)到的效果。所以，泛化并不源于真實(shí)性的內(nèi)部編碼，而是反映了已經(jīng)通過(guò)logits等外部特征訪問(wèn)的信息。

　　經(jīng)過(guò)訓(xùn)練的探測(cè)分類器可以預(yù)測(cè)錯(cuò)誤，但其泛化能力只發(fā)生在需要相似技能的任務(wù)(如事實(shí)檢索)中。

　　對(duì)于涉及不同技能的任務(wù)，例如情感分析，探測(cè)分類器與基于logit的不確定性預(yù)測(cè)器效果差不多。

　　錯(cuò)誤類型研究

　　在確定了錯(cuò)誤檢測(cè)的局限性，并研究了不同任務(wù)的錯(cuò)誤編碼有何不同之后，作者深入研究了單個(gè)任務(wù)中的錯(cuò)誤，根據(jù)模型對(duì)重復(fù)樣本的響應(yīng)對(duì)其錯(cuò)誤進(jìn)行分類。

　　比如，持續(xù)生成的相同錯(cuò)誤與偶爾生成的錯(cuò)誤屬于不同類別。

　　研究人員在T = 30的溫度設(shè)置下，對(duì)數(shù)據(jù)集中的每個(gè)樣本進(jìn)行采樣，然后分析答案的結(jié)果分布。

　　上圖展示了三種代表性的錯(cuò)誤類型：

　　圖(4a)中，模型通常會(huì)給出正確的答案，但偶爾會(huì)出錯(cuò)，這意味著存在正確的信息，但采樣可能會(huì)導(dǎo)致錯(cuò)誤。

　　圖(4b)中，模型經(jīng)常犯同樣的錯(cuò)誤，但仍保留了一些知識(shí)。

　　圖(4c)中，模型生成了大量錯(cuò)誤的答案，整體置信度較低。

　　分類的標(biāo)準(zhǔn)有三個(gè)：生成的不同答案的數(shù)量，正確答案的頻率，以及最常見(jiàn)的錯(cuò)誤答案的頻率。

　　上表顯示了所有模型的測(cè)試集結(jié)果。結(jié)果表明，可以從貪婪解碼的中間表示中預(yù)測(cè)錯(cuò)誤類型。

　　檢測(cè)正確答案

　　模型的這種內(nèi)部真實(shí)性如何在響應(yīng)生成過(guò)程中與其外部行為保持一致?

　　作者使用經(jīng)過(guò)錯(cuò)誤檢測(cè)訓(xùn)練的探測(cè)器，從同一問(wèn)題的30個(gè)響應(yīng)中選擇一個(gè)答案，根據(jù)所選答案衡量模型的準(zhǔn)確性。

　　如果這種準(zhǔn)確性與傳統(tǒng)解碼方法(如貪婪解碼)沒(méi)有顯著差異，則表明LLM的真實(shí)性內(nèi)部表示與其外部行為一致。

　　實(shí)驗(yàn)在TriviaQA、Winobias和Math上進(jìn)行，選擇probe評(píng)估的正確性概率最高的答案。這里比較了三個(gè)基線：貪婪解碼;從30個(gè)候選答案中隨機(jī)選擇;選擇生成的最頻繁的答案。

　　結(jié)果如上圖所示，總體而言，使用探針選擇答案可以提高LLM所有檢查任務(wù)的準(zhǔn)確性。但是，改進(jìn)的程度因錯(cuò)誤類型而異。

　　探針可以有效地識(shí)別正確答案的事實(shí)表明，LLM的內(nèi)部編碼與其外部行為之間存在重大脫節(jié)：即使模型編碼了哪個(gè)答案是正確的信息，它在實(shí)踐中仍然可能生成錯(cuò)誤的答案。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

再進(jìn)化！特斯拉擎天柱能自主充電自主干活

特斯拉最近發(fā)布了一段視頻，展示了其人形機(jī)器人Optimus(擎天柱)的新功能和進(jìn)展，試圖回應(yīng)外界對(duì)其智能水平的質(zhì)疑。

一加13 搭載超大容量冰川電池及雙閃充組合，續(xù)航體驗(yàn)超 P

一 13搭載第二代東方屏，打造四大巔峰屏幕體驗(yàn)

新聞

敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

近日，中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無(wú)人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來(lái)都要半個(gè)月了，現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

2024年3月12日，由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)

返回主頁(yè) ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁(yè)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

谷歌蘋(píng)果最新發(fā)現(xiàn)：LLM知道但不告訴你，掌握知識(shí)比表現(xiàn)出來(lái)的多

擴(kuò)展閱讀