AI掌握自我設(shè)計(jì)的權(quán)力,將會(huì)怎樣?最近,來(lái)自UBC等機(jī)構(gòu)研究人員提出了「智能體自動(dòng)化設(shè)計(jì)」系統(tǒng),讓元智能體使用搜索算法,自動(dòng)構(gòu)建強(qiáng)大的同類(lèi)。
AI訓(xùn)AI已經(jīng)老生常談了,那么,AI能夠設(shè)計(jì)出更強(qiáng)的AI嗎?
這不,來(lái)自UBC等機(jī)構(gòu)的研究人員提出了一種全新系統(tǒng)——智能體自動(dòng)化設(shè)計(jì)(ADAS)。
ADAS就是為了讓AI自動(dòng)創(chuàng)建強(qiáng)大的智能體,包括發(fā)明新的構(gòu)建模塊,或以新的方式組合它們。
具體來(lái)說(shuō),作者提出了一個(gè)「元智能體搜索」簡(jiǎn)單而有效的算法。
其中元智能體根據(jù)不斷擴(kuò)大的數(shù)據(jù)庫(kù),迭代編程出有趣的智能體。
鑒于圖靈完備性,新方法可以學(xué)習(xí)任何可能的智能體系統(tǒng),包括新提示、工具使用、控制流程,以及組合。
再加上,ADAS本身就是一個(gè)智能體,因此也可以實(shí)現(xiàn)自身改進(jìn),從而讓「元智能體」自我進(jìn)化。
實(shí)驗(yàn)證明,新系統(tǒng)可以讓代碼自定義智能體,而且「元智能體」可通過(guò)代碼,來(lái)設(shè)計(jì)新的智能體。
而且,由「元智能體搜索」發(fā)明的新智能體,即便在跨領(lǐng)域/跨模型轉(zhuǎn)移時(shí),仍保持優(yōu)越性、穩(wěn)健性。
正如論文所言,這項(xiàng)研究展示了,一個(gè)令人興奮的新研究方向的潛力,即自動(dòng)設(shè)計(jì)越來(lái)越強(qiáng)的智能體系統(tǒng)。
AI設(shè)計(jì)強(qiáng)大的自己,真到了那天,或許AGI就不遠(yuǎn)了。
那么,它是如何做到的呢?
AI自我設(shè)計(jì),代碼造物主已來(lái)
機(jī)器學(xué)習(xí)史,指明AI方向
以往,研究人員投入了大量精力,開(kāi)發(fā)強(qiáng)大通用智能體。
其中,基礎(chǔ)模型被用作智能體系統(tǒng)中的模塊,比如,思維鏈、自我反思、Toolformer等等。
然而,機(jī)器學(xué)習(xí)的歷史告訴我們,手動(dòng)設(shè)計(jì)的解決方案,最終會(huì)被自我學(xué)習(xí)的方案所取代。
說(shuō)來(lái)也巧,幾天前「AI科學(xué)家」研究也是出自Jeff Clune之手。
不列顛哥倫比亞大學(xué)CS教授,曾任OpenAI研究團(tuán)隊(duì)負(fù)責(zé)人,DeepMind高級(jí)研究顧問(wèn)
在上一篇研究中,展示了一個(gè)自動(dòng)化研究流程,AI一口氣完成了十篇論文,部分還達(dá)到了機(jī)器學(xué)習(xí)頂會(huì)的接收的門(mén)檻。
關(guān)鍵是,AI的助力,直接將研究成本打了下來(lái),每篇論文僅15美元。
那么,若是讓AI設(shè)計(jì)AI,不僅省事省力,而且AI還能自我迭代。
論文中,研究團(tuán)隊(duì)提出的ADAS,由三個(gè)關(guān)鍵部分組成:
- 搜索空間:定義了ADAS可以創(chuàng)建的所有可能的智能體系統(tǒng)
- 搜索算法:ADAS用來(lái)在搜索空間中尋找優(yōu)秀智能體設(shè)計(jì)的方法
- 評(píng)估函數(shù):用于判斷創(chuàng)建的智能體的質(zhì)量或性能
具體來(lái)說(shuō),ADAS就是涉及使用搜索算法,來(lái)發(fā)現(xiàn)搜索空間中的智能體系統(tǒng),從而優(yōu)化評(píng)估函數(shù)。
元智能體搜索
為了進(jìn)一步實(shí)施想法,研究人員提出了「元智能體搜索」算法,用于演示代碼中定義和搜索智能體的方法。
元智能體搜索的核心思想是,讓基礎(chǔ)模型(FM)作為元智能體,根據(jù)不斷擴(kuò)增的數(shù)據(jù)庫(kù),迭代新智能體。
理論上,元智能體可以從頭開(kāi)始編程任何可能的構(gòu)建模塊和智能體系統(tǒng)。
不過(guò),在實(shí)踐中,為避免元智能體提供任何基本功能(比如FM查詢(xún)API、現(xiàn)有工具)是低效的。
因此,論文中,作者為元智能體定義了一個(gè)簡(jiǎn)單的框架(100行代碼以?xún)?nèi)),為其提供了一組基本的功能,如查詢(xún)FM或格式化提示。
結(jié)果,元智能體只需要編程一個(gè)「前向」函數(shù)來(lái)定義一個(gè)新的智能體系統(tǒng),類(lèi)似于FunSearch中的做法。
這個(gè)函數(shù)接收任務(wù)信息,并輸出智能體對(duì)任務(wù)的響應(yīng)。
如下圖所示,作者展示了元智能體編程新智能體的主要提示,其中提示中的變量,被高亮顯示。
提示中,研究人員鼓勵(lì)元智能體基于不斷增長(zhǎng)的先前發(fā)現(xiàn)檔案,探索有趣的新智能體。
另外,他們還在元智能體中采用了自我反思迭代,其中它對(duì)提案的新穎性和正確性進(jìn)行兩次迭代的改進(jìn),并在運(yùn)行代碼時(shí)出現(xiàn)錯(cuò)誤時(shí)進(jìn)行最多三次改進(jìn)。
在生成新的智能體后,研究人員決定使用目標(biāo)領(lǐng)域的驗(yàn)證數(shù)據(jù)對(duì)其進(jìn)行評(píng)估。
評(píng)估結(jié)果
ARC挑戰(zhàn)
抽象和推理語(yǔ)料庫(kù)(Abstraction and Reasoning Corpus,ARC)是一個(gè)非常具有挑戰(zhàn)性的基準(zhǔn),可以通過(guò)衡量人工智能系統(tǒng)有效獲取新技能的能力,來(lái)評(píng)估它們的一般智力。
ARC挑戰(zhàn)包括3個(gè)重要步驟:
-給AI系統(tǒng)展示多個(gè)視覺(jué)輸入輸出網(wǎng)格模式的例子
-AI系統(tǒng)從例子中學(xué)習(xí)網(wǎng)格模式的轉(zhuǎn)換規(guī)則
-在給定測(cè)試輸入網(wǎng)格模式的情況下,預(yù)測(cè)輸出網(wǎng)格模式
經(jīng)研究團(tuán)隊(duì)驗(yàn)證,元智能體搜索能夠發(fā)現(xiàn)新的代理系統(tǒng),并在ARC挑戰(zhàn)中,優(yōu)于SOTA人工設(shè)計(jì)智能體。
推理和問(wèn)題解決
接下來(lái),元智能體需要接受在數(shù)學(xué)、閱讀和推理領(lǐng)域的考驗(yàn)。
用于測(cè)試的是4個(gè)常用基準(zhǔn):用于評(píng)估閱讀理解能力的DROP、評(píng)估多語(yǔ)言環(huán)境下數(shù)學(xué)能力的MGSM 、評(píng)估多任務(wù)問(wèn)題解決的MMLU,以及評(píng)估在科學(xué)領(lǐng)域解決研究生水平問(wèn)題的GPQA。
結(jié)果表明,元智能體搜索可以發(fā)現(xiàn)性能優(yōu)于SOTA人工設(shè)計(jì)的智能體——
元智能體搜索和SOTA人工設(shè)計(jì)智能體的性能比較,元智能體搜索在每個(gè)領(lǐng)域都發(fā)現(xiàn)了比基線更好的智能體
不得不強(qiáng)調(diào)的一點(diǎn)是,在閱讀理解和數(shù)學(xué)領(lǐng)域,自我學(xué)習(xí)的智能體把人工設(shè)計(jì)的智能體遠(yuǎn)遠(yuǎn)甩在身后:F1分?jǐn)?shù)提高了13.6/100,準(zhǔn)確率提高了14.4%。
元智能體搜索在多任務(wù)和科學(xué)領(lǐng)域的表現(xiàn)也優(yōu)于基線,但二者差距沒(méi)有這么懸殊。
總的來(lái)說(shuō),不同領(lǐng)域的基準(zhǔn)測(cè)試結(jié)果顯示出元智能體搜索在針對(duì)特定領(lǐng)域定制智能體方面的有效性。
泛化和可轉(zhuǎn)移性
至此,研究人員已經(jīng)說(shuō)明了元智能體搜索可以為各個(gè)任務(wù)找到有效的智能體,那么,這些新發(fā)現(xiàn)的智能體是否具有可轉(zhuǎn)移性和可推廣性呢?
這就需要進(jìn)行新的實(shí)驗(yàn)。
首先將發(fā)現(xiàn)的代理從GPT-3.5轉(zhuǎn)移到ARC上的其他FM中,以測(cè)試在使用一個(gè)FM執(zhí)行元智能體搜索時(shí)發(fā)現(xiàn)的代理是否可以推廣到其他FM中。
團(tuán)隊(duì)選擇了三種流行的模型進(jìn)行轉(zhuǎn)移,Claude-Haiku、GPT-4和Claude-Sonnet。
依然采用與在ARC挑戰(zhàn)和MGSM中使用的相同的基線。
如下表所示,元智能體搜索到的智能體始終優(yōu)于人工設(shè)計(jì)的智能體,而且,差距不小。
值得注意的是,Claude-Sonnet,這個(gè) Anthropic最強(qiáng)大的模型,在所有測(cè)試模型中表現(xiàn)最好,使最好的智能體在ARC上達(dá)到近50%的準(zhǔn)確率。
接下來(lái),研究人員將元智能體所發(fā)現(xiàn)的智能體從MGSM領(lǐng)域轉(zhuǎn)移到其他數(shù)學(xué)領(lǐng)域,以測(cè)試新智能體是否可以在不同的領(lǐng)域進(jìn)行泛化。
同樣,測(cè)試了MGSM的前3個(gè)智能體,并將它們轉(zhuǎn)移到四個(gè)流行的數(shù)學(xué)領(lǐng)域:GSM8K、GSM-Hard、SVAMP和ASDiv,以及在上一小節(jié)中除數(shù)學(xué)之外的三個(gè)領(lǐng)域。
如下表所示,與基線相比,元智能體搜索保持了性能優(yōu)勢(shì)。
與基線相比,在GSM8K和GSM-Hard上的準(zhǔn)確率分別提高了25.9%和13.2%。
更令人驚訝的是,在數(shù)學(xué)領(lǐng)域中發(fā)現(xiàn)的智能體可以被轉(zhuǎn)移到非數(shù)學(xué)領(lǐng)域。
雖然最初在數(shù)學(xué)領(lǐng)域中搜索的智能體的性能與專(zhuān)門(mén)為目標(biāo)領(lǐng)域設(shè)計(jì)的智能體并不完全匹配,但它們?nèi)匀粌?yōu)于(在閱讀理解和多任務(wù)中)或(在科學(xué)中)SOTA人工設(shè)計(jì)的智能體基線。
這些結(jié)果表明,元智能體搜索可以發(fā)現(xiàn)可推廣的設(shè)計(jì)模式和智能體系統(tǒng)。
作者介紹
這篇論文的一作和二作是兩位華人,Shengran Hu和Cong Lu,他們目前都在不列顛哥倫比亞大學(xué)(UBC)就讀,師從Jeff Clune。
Shengran Hu
Hu現(xiàn)在是UBC的一名博士生,主要研究興趣是AI智能體和開(kāi)放式學(xué)習(xí)系統(tǒng)。
Cong Lu
Cong Lu是UBC向量學(xué)院的博士后研究員,致力于開(kāi)發(fā)安全、具有好奇心并能以開(kāi)放式方式學(xué)習(xí)的自主智能體。
Lu之前在牛津大學(xué)獲得了博士學(xué)位,在攻讀博士學(xué)位期間,他對(duì)離線強(qiáng)化學(xué)習(xí)特別感興趣,包括對(duì)未見(jiàn)過(guò)的任務(wù)的泛化、離線世界模型的不確定性量化、像素學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)的擴(kuò)散合成數(shù)據(jù)。
Jeff Clune
如前所述,Jeff Clune現(xiàn)任UBC計(jì)算機(jī)科學(xué)的教授,同時(shí)也是CIFAR AI主席、向量學(xué)院成員,DeepMind高級(jí)顧問(wèn)。
值得一提的是,CIFAR(加拿大高等研究院,發(fā)音為「see-far」)自1982年成立以來(lái)不斷發(fā)展,已從加拿大學(xué)者的一個(gè)小團(tuán)體發(fā)展成為全球研究界的領(lǐng)導(dǎo)者,象征著全球性、跨學(xué)科性和無(wú)限性。
向量學(xué)院成立于2017年,是一所非盈利研究性機(jī)構(gòu),也是加拿大政府鼎力支持的AI研究中心,人工智能教父Geoffrey Hinton當(dāng)年成為了這家機(jī)構(gòu)的首席科學(xué)顧問(wèn)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
特斯拉最近發(fā)布了一段視頻,展示了其人形機(jī)器人Optimus(擎天柱)的新功能和進(jìn)展,試圖回應(yīng)外界對(duì)其智能水平的質(zhì)疑。
近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。