AI設(shè)計(jì)自己，代碼造物主已來(lái)！UBC華人一作首提ADAS，數(shù)學(xué)能力暴漲25.9%

2024年08月20日 16:04:44 來(lái)源：新智元公眾號(hào)

　　AI掌握自我設(shè)計(jì)的權(quán)力，將會(huì)怎樣?最近，來(lái)自UBC等機(jī)構(gòu)研究人員提出了「智能體自動(dòng)化設(shè)計(jì)」系統(tǒng)，讓元智能體使用搜索算法，自動(dòng)構(gòu)建強(qiáng)大的同類(lèi)。

　　AI訓(xùn)AI已經(jīng)老生常談了，那么，AI能夠設(shè)計(jì)出更強(qiáng)的AI嗎?

　　這不，來(lái)自UBC等機(jī)構(gòu)的研究人員提出了一種全新系統(tǒng)——智能體自動(dòng)化設(shè)計(jì)(ADAS)。

　　ADAS就是為了讓AI自動(dòng)創(chuàng)建強(qiáng)大的智能體，包括發(fā)明新的構(gòu)建模塊，或以新的方式組合它們。

　　具體來(lái)說(shuō)，作者提出了一個(gè)「元智能體搜索」簡(jiǎn)單而有效的算法。

　　其中元智能體根據(jù)不斷擴(kuò)大的數(shù)據(jù)庫(kù)，迭代編程出有趣的智能體。

　　鑒于圖靈完備性，新方法可以學(xué)習(xí)任何可能的智能體系統(tǒng)，包括新提示、工具使用、控制流程，以及組合。

　　再加上，ADAS本身就是一個(gè)智能體，因此也可以實(shí)現(xiàn)自身改進(jìn)，從而讓「元智能體」自我進(jìn)化。

　　實(shí)驗(yàn)證明，新系統(tǒng)可以讓代碼自定義智能體，而且「元智能體」可通過(guò)代碼，來(lái)設(shè)計(jì)新的智能體。

　　而且，由「元智能體搜索」發(fā)明的新智能體，即便在跨領(lǐng)域/跨模型轉(zhuǎn)移時(shí)，仍保持優(yōu)越性、穩(wěn)健性。

　　正如論文所言，這項(xiàng)研究展示了，一個(gè)令人興奮的新研究方向的潛力，即自動(dòng)設(shè)計(jì)越來(lái)越強(qiáng)的智能體系統(tǒng)。

　　AI設(shè)計(jì)強(qiáng)大的自己，真到了那天，或許AGI就不遠(yuǎn)了。

　　那么，它是如何做到的呢?

　　AI自我設(shè)計(jì)，代碼造物主已來(lái)

　　機(jī)器學(xué)習(xí)史，指明AI方向

　　以往，研究人員投入了大量精力，開(kāi)發(fā)強(qiáng)大通用智能體。

　　其中，基礎(chǔ)模型被用作智能體系統(tǒng)中的模塊，比如，思維鏈、自我反思、Toolformer等等。

　　然而，機(jī)器學(xué)習(xí)的歷史告訴我們，手動(dòng)設(shè)計(jì)的解決方案，最終會(huì)被自我學(xué)習(xí)的方案所取代。

　　說(shuō)來(lái)也巧，幾天前「AI科學(xué)家」研究也是出自Jeff Clune之手。

　　不列顛哥倫比亞大學(xué)CS教授，曾任OpenAI研究團(tuán)隊(duì)負(fù)責(zé)人，DeepMind高級(jí)研究顧問(wèn)

　　在上一篇研究中，展示了一個(gè)自動(dòng)化研究流程，AI一口氣完成了十篇論文，部分還達(dá)到了機(jī)器學(xué)習(xí)頂會(huì)的接收的門(mén)檻。

　　關(guān)鍵是，AI的助力，直接將研究成本打了下來(lái)，每篇論文僅15美元。

　　那么，若是讓AI設(shè)計(jì)AI，不僅省事省力，而且AI還能自我迭代。

　　論文中，研究團(tuán)隊(duì)提出的ADAS，由三個(gè)關(guān)鍵部分組成:

　　- 搜索空間:定義了ADAS可以創(chuàng)建的所有可能的智能體系統(tǒng)

　　- 搜索算法:ADAS用來(lái)在搜索空間中尋找優(yōu)秀智能體設(shè)計(jì)的方法

　　- 評(píng)估函數(shù):用于判斷創(chuàng)建的智能體的質(zhì)量或性能

　　具體來(lái)說(shuō)，ADAS就是涉及使用搜索算法，來(lái)發(fā)現(xiàn)搜索空間中的智能體系統(tǒng)，從而優(yōu)化評(píng)估函數(shù)。

　　元智能體搜索

　　為了進(jìn)一步實(shí)施想法，研究人員提出了「元智能體搜索」算法，用于演示代碼中定義和搜索智能體的方法。

　　元智能體搜索的核心思想是，讓基礎(chǔ)模型(FM)作為元智能體，根據(jù)不斷擴(kuò)增的數(shù)據(jù)庫(kù)，迭代新智能體。

　　理論上，元智能體可以從頭開(kāi)始編程任何可能的構(gòu)建模塊和智能體系統(tǒng)。

　　不過(guò)，在實(shí)踐中，為避免元智能體提供任何基本功能(比如FM查詢(xún)API、現(xiàn)有工具)是低效的。

　　因此，論文中，作者為元智能體定義了一個(gè)簡(jiǎn)單的框架(100行代碼以?xún)?nèi))，為其提供了一組基本的功能，如查詢(xún)FM或格式化提示。

　　結(jié)果，元智能體只需要編程一個(gè)「前向」函數(shù)來(lái)定義一個(gè)新的智能體系統(tǒng)，類(lèi)似于FunSearch中的做法。

　　這個(gè)函數(shù)接收任務(wù)信息，并輸出智能體對(duì)任務(wù)的響應(yīng)。

　　如下圖所示，作者展示了元智能體編程新智能體的主要提示，其中提示中的變量，被高亮顯示。

　　提示中，研究人員鼓勵(lì)元智能體基于不斷增長(zhǎng)的先前發(fā)現(xiàn)檔案，探索有趣的新智能體。

　　另外，他們還在元智能體中采用了自我反思迭代，其中它對(duì)提案的新穎性和正確性進(jìn)行兩次迭代的改進(jìn)，并在運(yùn)行代碼時(shí)出現(xiàn)錯(cuò)誤時(shí)進(jìn)行最多三次改進(jìn)。

　　在生成新的智能體后，研究人員決定使用目標(biāo)領(lǐng)域的驗(yàn)證數(shù)據(jù)對(duì)其進(jìn)行評(píng)估。

　　評(píng)估結(jié)果

　　ARC挑戰(zhàn)

　　抽象和推理語(yǔ)料庫(kù)(Abstraction and Reasoning Corpus，ARC)是一個(gè)非常具有挑戰(zhàn)性的基準(zhǔn)，可以通過(guò)衡量人工智能系統(tǒng)有效獲取新技能的能力，來(lái)評(píng)估它們的一般智力。

　　ARC挑戰(zhàn)包括3個(gè)重要步驟:

　　-給AI系統(tǒng)展示多個(gè)視覺(jué)輸入輸出網(wǎng)格模式的例子

　　-AI系統(tǒng)從例子中學(xué)習(xí)網(wǎng)格模式的轉(zhuǎn)換規(guī)則

　　-在給定測(cè)試輸入網(wǎng)格模式的情況下，預(yù)測(cè)輸出網(wǎng)格模式

　　經(jīng)研究團(tuán)隊(duì)驗(yàn)證，元智能體搜索能夠發(fā)現(xiàn)新的代理系統(tǒng)，并在ARC挑戰(zhàn)中，優(yōu)于SOTA人工設(shè)計(jì)智能體。

　　推理和問(wèn)題解決

　　接下來(lái)，元智能體需要接受在數(shù)學(xué)、閱讀和推理領(lǐng)域的考驗(yàn)。

　　用于測(cè)試的是4個(gè)常用基準(zhǔn):用于評(píng)估閱讀理解能力的DROP、評(píng)估多語(yǔ)言環(huán)境下數(shù)學(xué)能力的MGSM 、評(píng)估多任務(wù)問(wèn)題解決的MMLU，以及評(píng)估在科學(xué)領(lǐng)域解決研究生水平問(wèn)題的GPQA。

　　結(jié)果表明，元智能體搜索可以發(fā)現(xiàn)性能優(yōu)于SOTA人工設(shè)計(jì)的智能體——

　　元智能體搜索和SOTA人工設(shè)計(jì)智能體的性能比較，元智能體搜索在每個(gè)領(lǐng)域都發(fā)現(xiàn)了比基線更好的智能體

　　不得不強(qiáng)調(diào)的一點(diǎn)是，在閱讀理解和數(shù)學(xué)領(lǐng)域，自我學(xué)習(xí)的智能體把人工設(shè)計(jì)的智能體遠(yuǎn)遠(yuǎn)甩在身后:F1分?jǐn)?shù)提高了13.6/100，準(zhǔn)確率提高了14.4%。

　　元智能體搜索在多任務(wù)和科學(xué)領(lǐng)域的表現(xiàn)也優(yōu)于基線，但二者差距沒(méi)有這么懸殊。

　　總的來(lái)說(shuō)，不同領(lǐng)域的基準(zhǔn)測(cè)試結(jié)果顯示出元智能體搜索在針對(duì)特定領(lǐng)域定制智能體方面的有效性。

　　泛化和可轉(zhuǎn)移性

　　至此，研究人員已經(jīng)說(shuō)明了元智能體搜索可以為各個(gè)任務(wù)找到有效的智能體，那么，這些新發(fā)現(xiàn)的智能體是否具有可轉(zhuǎn)移性和可推廣性呢?

　　這就需要進(jìn)行新的實(shí)驗(yàn)。

　　首先將發(fā)現(xiàn)的代理從GPT-3.5轉(zhuǎn)移到ARC上的其他FM中，以測(cè)試在使用一個(gè)FM執(zhí)行元智能體搜索時(shí)發(fā)現(xiàn)的代理是否可以推廣到其他FM中。

　　團(tuán)隊(duì)選擇了三種流行的模型進(jìn)行轉(zhuǎn)移，Claude-Haiku、GPT-4和Claude-Sonnet。

　　依然采用與在ARC挑戰(zhàn)和MGSM中使用的相同的基線。

　　如下表所示，元智能體搜索到的智能體始終優(yōu)于人工設(shè)計(jì)的智能體，而且，差距不小。

　　值得注意的是，Claude-Sonnet，這個(gè) Anthropic最強(qiáng)大的模型，在所有測(cè)試模型中表現(xiàn)最好，使最好的智能體在ARC上達(dá)到近50%的準(zhǔn)確率。

　　接下來(lái)，研究人員將元智能體所發(fā)現(xiàn)的智能體從MGSM領(lǐng)域轉(zhuǎn)移到其他數(shù)學(xué)領(lǐng)域，以測(cè)試新智能體是否可以在不同的領(lǐng)域進(jìn)行泛化。

　　同樣，測(cè)試了MGSM的前3個(gè)智能體，并將它們轉(zhuǎn)移到四個(gè)流行的數(shù)學(xué)領(lǐng)域:GSM8K、GSM-Hard、SVAMP和ASDiv，以及在上一小節(jié)中除數(shù)學(xué)之外的三個(gè)領(lǐng)域。

　　如下表所示，與基線相比，元智能體搜索保持了性能優(yōu)勢(shì)。

　　與基線相比，在GSM8K和GSM-Hard上的準(zhǔn)確率分別提高了25.9%和13.2%。

　　更令人驚訝的是，在數(shù)學(xué)領(lǐng)域中發(fā)現(xiàn)的智能體可以被轉(zhuǎn)移到非數(shù)學(xué)領(lǐng)域。

　　雖然最初在數(shù)學(xué)領(lǐng)域中搜索的智能體的性能與專(zhuān)門(mén)為目標(biāo)領(lǐng)域設(shè)計(jì)的智能體并不完全匹配，但它們?nèi)匀粌?yōu)于(在閱讀理解和多任務(wù)中)或(在科學(xué)中)SOTA人工設(shè)計(jì)的智能體基線。

　　這些結(jié)果表明，元智能體搜索可以發(fā)現(xiàn)可推廣的設(shè)計(jì)模式和智能體系統(tǒng)。

　　作者介紹

　　這篇論文的一作和二作是兩位華人，Shengran Hu和Cong Lu，他們目前都在不列顛哥倫比亞大學(xué)(UBC)就讀，師從Jeff Clune。

　　Shengran Hu

　　Hu現(xiàn)在是UBC的一名博士生，主要研究興趣是AI智能體和開(kāi)放式學(xué)習(xí)系統(tǒng)。

　　Cong Lu

　　Cong Lu是UBC向量學(xué)院的博士后研究員，致力于開(kāi)發(fā)安全、具有好奇心并能以開(kāi)放式方式學(xué)習(xí)的自主智能體。

　　Lu之前在牛津大學(xué)獲得了博士學(xué)位，在攻讀博士學(xué)位期間，他對(duì)離線強(qiáng)化學(xué)習(xí)特別感興趣，包括對(duì)未見(jiàn)過(guò)的任務(wù)的泛化、離線世界模型的不確定性量化、像素學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)的擴(kuò)散合成數(shù)據(jù)。

　　Jeff Clune

　　如前所述，Jeff Clune現(xiàn)任UBC計(jì)算機(jī)科學(xué)的教授，同時(shí)也是CIFAR AI主席、向量學(xué)院成員，DeepMind高級(jí)顧問(wèn)。

　　值得一提的是，CIFAR(加拿大高等研究院，發(fā)音為「see-far」)自1982年成立以來(lái)不斷發(fā)展，已從加拿大學(xué)者的一個(gè)小團(tuán)體發(fā)展成為全球研究界的領(lǐng)導(dǎo)者，象征著全球性、跨學(xué)科性和無(wú)限性。

　　向量學(xué)院成立于2017年，是一所非盈利研究性機(jī)構(gòu)，也是加拿大政府鼎力支持的AI研究中心，人工智能教父Geoffrey Hinton當(dāng)年成為了這家機(jī)構(gòu)的首席科學(xué)顧問(wèn)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

再進(jìn)化！特斯拉擎天柱能自主充電自主干活

特斯拉最近發(fā)布了一段視頻，展示了其人形機(jī)器人Optimus(擎天柱)的新功能和進(jìn)展，試圖回應(yīng)外界對(duì)其智能水平的質(zhì)疑。

一加13 搭載超大容量冰川電池及雙閃充組合，續(xù)航體驗(yàn)超 P

一 13搭載第二代東方屏，打造四大巔峰屏幕體驗(yàn)

新聞

敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

近日，中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無(wú)人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來(lái)都要半個(gè)月了，現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

2024年3月12日，由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”，將于2024年3月23日至24日舉辦。

專(zhuān)題

2021 CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)

返回主頁(yè) ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁(yè)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

AI設(shè)計(jì)自己，代碼造物主已來(lái)！UBC華人一作首提ADAS，數(shù)學(xué)能力暴漲25.9%

擴(kuò)展閱讀

AI設(shè)計(jì)自己，代碼造物主已來(lái)！UBC華人一作首提ADAS，數(shù)學(xué)能力暴漲25.9%