科技云報(bào)道：“大模型+機(jī)器人”，具身智能將開啟“智械時(shí)代”

2024年08月12日 21:06:11 來源：科技云報(bào)道

　　從15世紀(jì)達(dá)芬奇繪制出世界上第一份人形機(jī)器人手稿，到如今波士頓動(dòng)力、本田、特斯拉、Figure AI等企業(yè)相繼推出了人形機(jī)器人產(chǎn)品，機(jī)器人新物種持續(xù)衍生，人形機(jī)器人產(chǎn)業(yè)已經(jīng)從萌芽概念階段進(jìn)入產(chǎn)業(yè)化落地前期。

　　近日，由科技巨頭OpenAI、微軟、英偉達(dá)以及電商巨頭亞馬遜創(chuàng)始人杰夫·貝佐斯等重量級(jí)投資者共同支持的人工智能機(jī)器人初創(chuàng)公司Figure AI，正式揭開了其第二代人形機(jī)器人Figure 02的神秘面紗。

　　這款被譽(yù)為“地球上最先進(jìn)的AI硬件”的機(jī)器人，不僅標(biāo)志著人工智能技術(shù)的又一里程碑，也預(yù)示著以具身智能為內(nèi)核的人形機(jī)器人向工業(yè)化、商業(yè)化應(yīng)用邁出了堅(jiān)實(shí)的一步。

　　超越想象的智能新物種

　　正如Figure名稱所暗示的那樣，這一堪稱目前最先進(jìn)的人形機(jī)器人是2023年推出的Figure 01的后繼產(chǎn)品。

　　今年3月，F(xiàn)igure 01發(fā)布時(shí)，就曾引發(fā)市場(chǎng)高度關(guān)注。當(dāng)時(shí)，F(xiàn)igure 01可以與人類進(jìn)行全面對(duì)話，機(jī)器人的所有行為都是學(xué)到的，并非是遠(yuǎn)程操作。這背后不僅有Figure引以為傲的端到端神經(jīng)網(wǎng)絡(luò)技術(shù)，還全面融入OpenAI所推出的多模態(tài)AI大模型，科技界普遍將這一人形機(jī)器人視為“行走的ChatGPT”，具備模仿人類行為、深度學(xué)習(xí)與思考以及與人類進(jìn)行自然且高效率溝通等諸多強(qiáng)大能力。

　　Figure 02在大腦上，依然集成了OpenAI的GPT-4o多模態(tài)大模型，相比較于Figure 01使用GPT4，F(xiàn)igure 02將進(jìn)一步地提升機(jī)器人的常識(shí)推理能力，使其能夠更好地理解和響應(yīng)復(fù)雜指令，機(jī)載計(jì)算和AI推理能力提升3倍。

　　與特斯拉的Optimus以及波士頓動(dòng)力的Atlas相比，與OpenAI大模型的深度集成也一直是Figure引以為傲的強(qiáng)項(xiàng)，該集成使其在多模態(tài)推理和任務(wù)執(zhí)行方面更具智能性和適應(yīng)性，提升其在視覺、聽覺和語言交互方面的能力，使其能夠執(zhí)行復(fù)雜的端到端任務(wù)，適用于工業(yè)制造、倉庫物流等側(cè)重于輕載搬運(yùn)和分揀轉(zhuǎn)移的混合任務(wù)場(chǎng)景。

　　在小腦上，F(xiàn)igure02延續(xù)使用類似01產(chǎn)品類似的RT-X機(jī)器人控制模型，使用模型預(yù)測(cè)控制器來確定腳步位置和保持平衡并遵循所需的機(jī)器人軌跡所需的力，結(jié)合步態(tài)控制以完成機(jī)機(jī)器人的基本運(yùn)動(dòng)，全身控制策略則確保了機(jī)器人在執(zhí)行動(dòng)作時(shí)的安全性和平衡性，未來將持續(xù)優(yōu)化提升動(dòng)作執(zhí)行能力。

　　在對(duì)話推理方面，F(xiàn)igure 02可以通過內(nèi)置麥克風(fēng)和揚(yáng)聲器與人類進(jìn)行語音對(duì)話。這一核心功能依托于與OpenAI合作訓(xùn)練的定制AI模型，能夠理解、處理并回應(yīng)人類的語音輸入。機(jī)器人以語音作為默認(rèn)操作界面，意味著用戶可以像跟人交談一樣自然地與Figure 02互動(dòng)，而無需依賴傳統(tǒng)的按鈕或屏幕界面。

　　得益于機(jī)載視覺語言模型(VLM)，F(xiàn)igure 02能通過攝像頭“看懂”周圍環(huán)境。進(jìn)行快速的語義理解和常識(shí)性視覺推理，并做出智能判斷。例如物體識(shí)別、場(chǎng)景理解，甚至洞悉人類的行為意圖，顯著增強(qiáng)了機(jī)器人在復(fù)雜現(xiàn)實(shí)世界中的適應(yīng)和交互能力。

　　此外，F(xiàn)igure 02機(jī)載CPU/GPU的計(jì)算和AI推理能力是上一代產(chǎn)品的3倍。這一重大提升使其能夠完全自主地執(zhí)行現(xiàn)實(shí)世界中的AI任務(wù)，而無需依賴外部資源。

　　事實(shí)上，F(xiàn)igure 02只是具身智能的一個(gè)載體形式。在ITF World 2023半導(dǎo)體大會(huì)上，英偉達(dá)創(chuàng)始人兼CEO黃仁勛直言，人工智能下一個(gè)浪潮將是具身智能，是能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)，AI與機(jī)器人的融合，具有很好的想象空間。

　　特斯拉CEO馬斯克在近期舉行的2024特斯拉股東大會(huì)上表示，人形機(jī)器人將是今后特斯拉主要的長期價(jià)值來源，他也認(rèn)為，以具身智能機(jī)器人為代表的產(chǎn)品有望成為AI的下一浪潮，并且將成為工業(yè)主力，數(shù)量有望超越人類，預(yù)計(jì)將達(dá)到100億至200億臺(tái)。特斯拉的目標(biāo)是年產(chǎn)10億臺(tái)，占據(jù)市場(chǎng)10%以上的份額。

　　1950年，圖靈在他的一篇論文中首次提出了“具身智能”的概念，其是人工智能的一個(gè)重要分支，它強(qiáng)調(diào)智能體與其所處的物理環(huán)境緊密交互，通過人形機(jī)器人等智能實(shí)體實(shí)現(xiàn)感知、決策和行動(dòng)。這種結(jié)合讓人工智能可通過攝像頭、傳感器等理解環(huán)境，并通過機(jī)械臂、輪子等執(zhí)行器作用于物理世界，在物理空間中學(xué)習(xí)、適應(yīng)并完成指令任務(wù)。這是一個(gè)包含人工智能幾乎所有技術(shù)的領(lǐng)域，可以說是AI的集大成者。

　　從全球具身智能當(dāng)前發(fā)展看，大致可以分為三個(gè)流派：實(shí)用派、性能派、學(xué)術(shù)派。

　　實(shí)用派——以特斯拉、Agility Robotic和1X Technologies為代表的實(shí)用派看重商業(yè)化落地的可能性，希望“讓一部分人先用起來”。可以接受前期僅在部分場(chǎng)景中替代少量勞動(dòng)力，在設(shè)計(jì)初期便擁有明確的商業(yè)化落地目標(biāo)，著重于快速降低成本、推動(dòng)量產(chǎn)落地。特斯拉于2023年12月中旬發(fā)布了第二代人形機(jī)器人，提升了行走速度，可完成拿雞蛋等精細(xì)操作，給了市場(chǎng)更多的信心，預(yù)計(jì)2024年試產(chǎn)，2025年量產(chǎn)，最終目標(biāo)售價(jià)期望低于每臺(tái)2萬美元。

　　性能派——以波士頓動(dòng)力為代表的運(yùn)動(dòng)性能派，則擁有與軍方三十年之久的合作經(jīng)驗(yàn)，著重于挖掘現(xiàn)有人形形態(tài)機(jī)器人的運(yùn)動(dòng)潛力，不太關(guān)注成本，Demo機(jī)已擁有完成諸如后空翻、跑酷等高難度動(dòng)作的能力，有可能在未來戰(zhàn)爭(zhēng)中起到一定作用，但礙于成本過高，而影響了量產(chǎn)計(jì)劃。而Apptronik這類公司則擁有深海、太空等極端環(huán)境下的產(chǎn)品經(jīng)驗(yàn)，還與NASA有較多合作開發(fā)經(jīng)驗(yàn)，第一款通用機(jī)器人Demo只有上半身，計(jì)劃在2024年底前實(shí)現(xiàn)商業(yè)化。

　　學(xué)術(shù)派——以李飛飛教授和谷歌團(tuán)隊(duì)為代表的學(xué)術(shù)派則非常追求大模型對(duì)于機(jī)器人的變革，打造出“RobotGPT”的基座模型，實(shí)現(xiàn)零樣本或少樣本學(xué)習(xí)，在更復(fù)雜乃至陌生的環(huán)境中執(zhí)行任務(wù)，實(shí)現(xiàn)人形機(jī)器人的智能涌現(xiàn)。

　　螺旋上升與曲折前進(jìn)

　　具身智能這條長坡厚雪的賽道上從不缺少拓疆者。從簡單的結(jié)構(gòu)驅(qū)動(dòng)到關(guān)節(jié)驅(qū)動(dòng)，再到完成跑步、轉(zhuǎn)彎、識(shí)別特定人群面孔系統(tǒng)的高度集成，至目前能發(fā)揮自主決策等功能的高動(dòng)態(tài)運(yùn)動(dòng)階段，早稻田大學(xué)WABOT-1、本田ASIMO、波士頓動(dòng)力Atlas、特斯拉Optimus、小米CyberOne“鐵大”、優(yōu)必選WalkerS等代表作，不斷突破著技術(shù)的邊界。

　　綜合來看，具身智能在其發(fā)展過程中目前仍面臨著多項(xiàng)挑戰(zhàn)，這些挑戰(zhàn)源自于其發(fā)展過程中的復(fù)雜性和不斷變化的需求。

　　首先，是要適應(yīng)非結(jié)構(gòu)化真實(shí)環(huán)境。與預(yù)設(shè)規(guī)則和模式驅(qū)動(dòng)的傳統(tǒng)AI系統(tǒng)不同，具身智能必須在一個(gè)充滿復(fù)雜性和不可預(yù)測(cè)性的非結(jié)構(gòu)化環(huán)境中找到立足點(diǎn)。在這種環(huán)境中，信息的稀缺和場(chǎng)景的多變性，要求AI系統(tǒng)具備更加先進(jìn)和靈活的計(jì)算能力，以便能夠適應(yīng)環(huán)境的不斷變化和不確定性。這不僅是一個(gè)數(shù)據(jù)處理的問題，更是對(duì)AI系統(tǒng)感知和適應(yīng)能力的全面考驗(yàn)。

　　其次，是要發(fā)展更高級(jí)的認(rèn)知策略。在自然界中，生物體通過視覺、聽覺和觸覺等多種感覺途徑獲得復(fù)雜的感知信息，并在大腦中進(jìn)行有效的多模態(tài)信息融合。具身智能同樣需要模仿這種高效的多模態(tài)融合過程，以更全面地理解和適應(yīng)其所處的環(huán)境。這包括但不限于對(duì)三維空間中物體的精確識(shí)別和定位，以及對(duì)環(huán)境變化和內(nèi)在聯(lián)系的動(dòng)態(tài)捕捉。

　　此外，涌現(xiàn)式創(chuàng)新與突破的缺乏影響著具身智能的進(jìn)化程度。生物群體能夠展現(xiàn)出令人驚嘆的集體智慧，主要?dú)w功于其中個(gè)體之間的協(xié)同作用。對(duì)具身智能來說，一個(gè)重要的挑戰(zhàn)是模仿這種群體智能系統(tǒng)。這意味著需要將智能分散到多個(gè)實(shí)體中，并通過它們之間的協(xié)作，實(shí)現(xiàn)更高級(jí)別的認(rèn)知和決策能力。生物群體所展現(xiàn)的自組織和適應(yīng)性特征，允許它們根據(jù)環(huán)境的變化和個(gè)體之間的差異進(jìn)行自我調(diào)整。具身智能需要發(fā)展類似的機(jī)制，以實(shí)現(xiàn)分工協(xié)作和動(dòng)態(tài)任務(wù)分配，從而能夠更靈活地應(yīng)對(duì)多種情境。

　　最后，具身智能在與真實(shí)環(huán)境進(jìn)行交互并充分學(xué)習(xí)時(shí)，勢(shì)必會(huì)收集和處理大量數(shù)據(jù)。這就引出了一個(gè)關(guān)鍵問題：如何在實(shí)時(shí)交互中確保這些數(shù)據(jù)的安全性和隱私性。保障數(shù)據(jù)安全和用戶隱私是具身智能發(fā)展中不可忽視的重要方面。此外，具身智能在決策時(shí)還需要考慮倫理和道德問題。因此，未來的發(fā)展不僅需要技術(shù)創(chuàng)新，還需要建立更為健全和全面的倫理指南，以指導(dǎo)具身智能在復(fù)雜情境中的行為決策，確保其行為符合道德原則和社會(huì)價(jià)值觀。

　　具身智能的發(fā)展不僅是技術(shù)革新的過程，更是對(duì)人類理解、倫理道德和社會(huì)影響的深思，相關(guān)研究在推動(dòng)科技邊界的同時(shí)，還將深刻影響人類社會(huì)的方方面面。

　　離我們還有多遠(yuǎn)?

　　賽迪研究院發(fā)布的《2024中國人形機(jī)器人產(chǎn)業(yè)生態(tài)發(fā)展研究》顯示，2023年，我國人形機(jī)器人產(chǎn)業(yè)進(jìn)入爆發(fā)期，產(chǎn)業(yè)規(guī)模增長至39.1億元，同比增長85.7%;預(yù)計(jì)2024年、2025年人形機(jī)器人產(chǎn)業(yè)將持續(xù)高速增長，2026年中國人形機(jī)器人產(chǎn)業(yè)規(guī)模將突破200億元。

　　根據(jù)高盛的預(yù)測(cè)，在技術(shù)得到革命性突破的理想情況下，2025年至2035年全球人形機(jī)器人銷量復(fù)合年均增長率可達(dá)94%，2035年市場(chǎng)規(guī)模將達(dá)1540億美元。更樂觀的預(yù)測(cè)提出，在生成式人工智能技術(shù)大爆發(fā)的當(dāng)下，人形機(jī)器人極有可能實(shí)現(xiàn)超預(yù)期增長，下一個(gè)萬億級(jí)“藍(lán)海”已呼之欲出。

　　從場(chǎng)景角度來看，人形機(jī)器人的目標(biāo)應(yīng)用場(chǎng)景包括商用、醫(yī)療康復(fù)、制造業(yè)、物流等。中短期內(nèi)，更多廠商會(huì)把偏服務(wù)類的場(chǎng)景列為目標(biāo)應(yīng)用場(chǎng)景優(yōu)先落地。中長期來看，隨著技術(shù)提升及結(jié)構(gòu)化場(chǎng)景的開放，商業(yè)服務(wù)、工業(yè)制造與物流領(lǐng)域能獲得更多場(chǎng)景數(shù)據(jù)集進(jìn)行訓(xùn)練，實(shí)現(xiàn)局部場(chǎng)景落地。

　　從發(fā)展趨勢(shì)看，人形機(jī)器人是一個(gè)顛覆性產(chǎn)品的賽道，目前尚處于發(fā)展的導(dǎo)入期。接下來，在產(chǎn)品、產(chǎn)業(yè)和政策等條件的促進(jìn)下，人形機(jī)器人的商業(yè)化落地還將提速。

　　根據(jù)工信部印發(fā)的《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》指出，人形機(jī)器人有望成為繼計(jì)算機(jī)、智能手機(jī)、新能源汽車后的顛覆性產(chǎn)品。Markets and Markets則預(yù)計(jì)到2027年，全球人形機(jī)器人市場(chǎng)規(guī)模將達(dá)173億美元，復(fù)合增長率為63.5%，市場(chǎng)發(fā)展廣闊。

　　此外，據(jù)國際機(jī)器人協(xié)會(huì)預(yù)測(cè)，2021年-2030年，全球人形機(jī)器人市場(chǎng)規(guī)模年復(fù)合增長率將高達(dá)71%。中國電子學(xué)會(huì)發(fā)布的數(shù)據(jù)則顯示，到2030年，我國人形機(jī)器人市場(chǎng)規(guī)模有望達(dá)8700億元。

　　這樣一個(gè)龐大的市場(chǎng)，自然引得巨頭紛紛押下重注。比如，谷歌依托其在AI領(lǐng)域強(qiáng)大的研究團(tuán)隊(duì)，豐厚的多領(lǐng)域研究成果，引領(lǐng)著近年來機(jī)器人模型的發(fā)展。這主要集中體現(xiàn)在，Google DeepMind此前曾發(fā)布具備“自我完善”能力的“RoboCat”和融合大語言模型能力的VLA模型Robotic Transformer 2(RT-2)。RT-2在訓(xùn)練時(shí)模型就同時(shí)學(xué)習(xí)視覺、語言、機(jī)器人行為這三種數(shù)據(jù)，并將這些知識(shí)轉(zhuǎn)化為機(jī)器人控制的通用指令。RT-2一方面吸收了視覺語言模型的語義推理、問題解決、視覺解釋能力，另一方面能夠從真實(shí)的機(jī)器人動(dòng)作中實(shí)現(xiàn)具身任務(wù)推理，且兩方面能夠相互促進(jìn)。在自然語言輸入后，通過模型的運(yùn)算，直接產(chǎn)生動(dòng)作的輸出，讓人類可以通過純語言命令優(yōu)化機(jī)器人控制，進(jìn)一步加速機(jī)器人的智能化進(jìn)程。

　　此外，Meta推出在少量訓(xùn)練數(shù)據(jù)情況下便能取得優(yōu)異表現(xiàn)的MT-ACT模型。而微軟推出基于ChatGPT的機(jī)器人控制框架，將ChatGPT的“知識(shí)儲(chǔ)備”落實(shí)到現(xiàn)實(shí)場(chǎng)景中�？梢哉f，人形機(jī)器人模型發(fā)展百家爭(zhēng)鳴，大有可為。

　　而在國內(nèi)，小米、傅利葉、宇樹、智元、開普勒、追覓等廠商都相繼推出了人形機(jī)器人產(chǎn)品。科技企業(yè)研發(fā)進(jìn)程的推進(jìn)，也持續(xù)吸引著資本市場(chǎng)加碼。

　　這些入局者都非常清楚，軟硬融合方能打造出人形機(jī)器人的新高度。軟件決定人形機(jī)器人高度，算法需與硬件匹配。人形機(jī)器人本質(zhì)是AI技術(shù)落地物理世界的最佳載體，算法是核心，需與硬件匹配。

　　身為軟硬件能力高度集成的實(shí)體，人形機(jī)器人商業(yè)化的核心突破點(diǎn)在于“AI大腦”。而AI大模型的高歌猛進(jìn)為人形機(jī)器人的發(fā)展，帶來無限可能——使人形機(jī)器人具備更強(qiáng)的事物處理和自然語言交互等能力。

　　從發(fā)展趨勢(shì)看，人形機(jī)器人尚處產(chǎn)業(yè)化初期，但在AI技術(shù)突破、政策加碼、科技企業(yè)強(qiáng)勢(shì)入局的三重要素催化下，有望盡快迎來發(fā)展拐點(diǎn)。

　　智力革命已經(jīng)打響，就像工業(yè)革命解放生產(chǎn)力，電力革命解決能源流通，是全新生態(tài)的構(gòu)建。未來嵌入具身智能的機(jī)器人、自動(dòng)駕駛汽車、自動(dòng)化設(shè)備等，不僅是對(duì)人類智能的延伸，更是一個(gè)通用人工智能誕生和發(fā)展的舞臺(tái)，為超越人類智能水平的人工智能提供了理想的試驗(yàn)場(chǎng)和成長空間。

　　這預(yù)示著，一個(gè)更加智能、更加互聯(lián)的未來正向我們走來。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

再進(jìn)化！特斯拉擎天柱能自主充電自主干活

特斯拉最近發(fā)布了一段視頻，展示了其人形機(jī)器人Optimus(擎天柱)的新功能和進(jìn)展，試圖回應(yīng)外界對(duì)其智能水平的質(zhì)疑。

一加13 搭載超大容量冰川電池及雙閃充組合，續(xù)航體驗(yàn)超 P

一 13搭載第二代東方屏，打造四大巔峰屏幕體驗(yàn)

新聞

敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

近日，中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個(gè)月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會(huì)即將開幕

由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計(jì)算學(xué)術(shù)年會(huì)

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

科技云報(bào)道：“大模型+機(jī)器人”，具身智能將開啟“智械時(shí)代”

擴(kuò)展閱讀

科技云報(bào)道：“大模型+機(jī)器人”，具身智能將開啟“智械時(shí)代”