國(guó)內(nèi)掀起了智算中心建設(shè)潮,但在建設(shè)中,人們發(fā)現(xiàn)智能算力有典型的“木桶效應(yīng)”。光有GPU還遠(yuǎn)遠(yuǎn)不夠。
文|牛慧
編|趙艷秋
從去年到今年,業(yè)界正進(jìn)入大模型2.0時(shí)代。它意味著,無論是追逐更大參數(shù)的大語(yǔ)言模型,還是業(yè)界投入重兵的多模態(tài)模型,大模型訓(xùn)練的數(shù)據(jù)集已從TB級(jí)邁向了PB級(jí),也對(duì)算力提出十倍甚至百倍的增長(zhǎng)需求。業(yè)界出現(xiàn)了萬卡甚至十萬卡集群,并拉動(dòng)了新一代智算中心的建設(shè)。
為應(yīng)對(duì)暴漲的算力需求,國(guó)內(nèi)掀起了智算中心建設(shè)潮,建設(shè)方來自地方政府、云計(jì)算大廠、央國(guó)企、數(shù)據(jù)中心服務(wù)商,以及一些跨界企業(yè),呈現(xiàn)出百花齊放的狀態(tài)。
但在建設(shè)中,人們發(fā)現(xiàn)“智能算力有典型的木桶效應(yīng)”。光有GPU就夠了嗎?根據(jù)實(shí)際案例,組建算力集群不是簡(jiǎn)單的“蓋樓”,算力并不會(huì)隨著卡的數(shù)量線性增長(zhǎng)。從多元芯片,到服務(wù)器集群,再到整個(gè)數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲(chǔ)......如果其中有一塊短板,昂貴的GPU算力都會(huì)大打折扣。
針對(duì)這些現(xiàn)象,不久前騰訊云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生也提到對(duì)AI的認(rèn)知和投入不能“狹隘”,稱人工智能有很多其他的技術(shù)路線,也很值得關(guān)注,要搭建一套有用的智能系統(tǒng)。AI不止于大模型。
01
智算中心建設(shè)熱,光有GPU不行?
大模型越來越火,業(yè)界為算力資源傷透了腦筋。為了打消客戶對(duì)缺卡的顧慮,如騰訊云一眾云計(jì)算大廠,提供了“一云多芯”大規(guī)模AI異構(gòu)算力。
與此同時(shí),不少建設(shè)方已在啟動(dòng)自身智算中心的建設(shè)。比如在地方政府側(cè),自2017年國(guó)家發(fā)布人工智能發(fā)展規(guī)劃之后,智算中心就被提到戰(zhàn)略高度。2023年,工信部等六部委印發(fā)了《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,明確提出到2025年我國(guó)算力規(guī)模超過300EFLOPS,其中智能算力占比達(dá)到35%。在國(guó)家倡導(dǎo)下,各地政府熱情高漲,政策覆蓋的20多個(gè)省市,將建設(shè)40多個(gè)智算中心。
與此同時(shí),在智能算力中,仍有70%~80%由企業(yè)唱主角。除了云計(jì)算大廠外,央國(guó)企也是一股關(guān)鍵力量。根據(jù)數(shù)智前線的統(tǒng)計(jì),僅今年前五個(gè)半月,國(guó)內(nèi)大模型中標(biāo)項(xiàng)目已超過230個(gè)。運(yùn)營(yíng)商、金融、教育、能源、政務(wù)、汽車等領(lǐng)域,涌現(xiàn)出大量招標(biāo)項(xiàng)目。在主要大項(xiàng)目中,有超六成來自于央國(guó)企。不少央國(guó)企也提出自建智能算力的需求,支撐自身人工智能平臺(tái)建設(shè),并滿足數(shù)據(jù)安全需求。
此外,數(shù)據(jù)中心服務(wù)商、傳統(tǒng)解決方案提供商,也紛紛布局智算中心。
上述很多建設(shè)方的一個(gè)特點(diǎn)是,手里有卡和硬件資源。他們的需求是,用自己的卡能不能組建大模型算力集群,從而在自己的專屬算力環(huán)境下訓(xùn)練大模型?
實(shí)際上,有GPU卡或者GPU集群,離一個(gè)高效運(yùn)轉(zhuǎn)的私有化智算中心,還相差甚遠(yuǎn)。騰訊云專有云研發(fā)副總經(jīng)理王旻說,大集群并不等于大算力!算力不是靠簡(jiǎn)單地“堆”GPU服務(wù)器堆出來的。
“智能算力存在比較典型的木桶短板效應(yīng)。”騰訊專有云研發(fā)負(fù)責(zé)人王旻進(jìn)一步解釋,大模型訓(xùn)練過程中,集群通信時(shí)間最高占比可達(dá)50%。這意味著,網(wǎng)絡(luò)不給力,GPU只能閑著。再如,RDMA網(wǎng)絡(luò)0.1%的丟包率就會(huì)造成將近50%的算力損失。因此,客戶需要一套沒有短板的全棧方案,才能構(gòu)建一個(gè)高效實(shí)用的私有智算中心。
針對(duì)木桶短板效應(yīng),騰訊云最新推出了專有云智算套件。“在過去的發(fā)展中,我們服務(wù)了大量的公有云客戶和自研業(yè)務(wù)。這次將公有云積攢的技術(shù)能力向外輸出,支持私有化部署。”騰訊云副總裁沙開波說。
在客戶的GPU硬件服務(wù)器基礎(chǔ)之上,智算套件集合了高性能計(jì)算集群HCC軟件能力、RDMA智能高性能網(wǎng)絡(luò)IHN(星脈網(wǎng)絡(luò))、高并發(fā)文件存儲(chǔ)系統(tǒng)TurboFS、算力軟件加速框架Taco-LLM,實(shí)現(xiàn)萬億參數(shù)大模型訓(xùn)練時(shí)間縮短 80%。
利用騰訊云智算套件,客戶現(xiàn)在可以開始搭建自己的計(jì)算集群了 ,而套件的亮點(diǎn)也解決了行業(yè)突出的共性問題:
穩(wěn)定的HCC高性能計(jì)算集群:支持超過100小時(shí)的連續(xù)穩(wěn)態(tài)訓(xùn)練。通過自研服務(wù)器、自研網(wǎng)絡(luò)、存儲(chǔ)架構(gòu)等軟硬件設(shè)施,讓萬億參數(shù)大模型的訓(xùn)練時(shí)間,從50天縮短至4天。
智能高性能網(wǎng)絡(luò)IHN(星脈網(wǎng)絡(luò)):它應(yīng)驗(yàn)了那句話,要想富先修路。智算中心已從CPU時(shí)代進(jìn)入GPU時(shí)代,如果把GPU比作F1跑車,要讓跑車的性能發(fā)揮到極致,就要給它建立專業(yè)賽道。不久前,騰訊自研星脈網(wǎng)絡(luò)全面升級(jí)為2.0,目標(biāo)是在工程上支持10萬卡規(guī)模。在性能上,它相比上一代網(wǎng)絡(luò)通信效率提升了60%,讓大模型訓(xùn)練效率提升20%。
極速存儲(chǔ)高性能文件系統(tǒng)TurboFS:在大模型訓(xùn)練時(shí),數(shù)據(jù)存儲(chǔ)約占整體工程量的30%。隨著模型參數(shù)和計(jì)算集群越來越大,不同存儲(chǔ)技術(shù),可能造成數(shù)十倍的性能差距。TurboFS的高并發(fā)千卡級(jí)別并發(fā)讀寫能力,在私有算力環(huán)境下,可以支撐4000卡在一分鐘內(nèi)完成TB級(jí)CheckPoint(工作日志檢查點(diǎn)),對(duì)于處理大模型訓(xùn)練、故障檢查都非常關(guān)鍵。
高效加速框架TACO-LLM:訓(xùn)練框架可以指導(dǎo)GPU更高效完成任務(wù),加速框架為不同場(chǎng)景的訓(xùn)練和推理設(shè)計(jì)了不同方案。在突破GPU自回歸限制和連續(xù)顯存瓶頸后,讓模型推理速度提升了2倍。采用模型壓縮、量化、混和序列并行模式等后,模型訓(xùn)練速度提升30%。
這一智算套件中的產(chǎn)品技術(shù),已經(jīng)過大規(guī)模實(shí)踐驗(yàn)證。沙開波說,在公有云上,它們服務(wù)了百萬客戶,并在騰訊內(nèi)部服務(wù)了混元大模型,而混元已接入騰訊廣告、騰訊會(huì)議、微信讀書在內(nèi)的超600款場(chǎng)景。
02
自身沒有卡,怎么建專屬智算中心?
除了上述客戶的需求外,很多客戶手里沒有GPU卡和硬件資源,但也需要構(gòu)建自己的智算中心。
“大模型產(chǎn)業(yè)還處于很早期。”湯道生曾分析當(dāng)下的市場(chǎng)狀況,“大家都在跑馬圈地,嘗試著不同的商業(yè)模式。有的在追 Scaling Law(規(guī)模效應(yīng)),有的在打造 to C 市場(chǎng)新入口,有的在做產(chǎn)業(yè)落地,非常熱鬧。”因此,這些企業(yè)對(duì)智能算力提出多樣化需求,也并不奇怪。
針對(duì)這樣的需求,騰訊云提出了分布式云產(chǎn)品,來幫助沒有GPU和硬件資源的伙伴,從零到一打造自己專屬的智算中心。
什么是分布式云?簡(jiǎn)單來說,就是騰訊云在客戶本地提供公有云服務(wù)。此前,公有云的算力資源、業(yè)務(wù)數(shù)據(jù)和管控系統(tǒng)“三大件”,都在云廠商的IDC里,并由云廠商運(yùn)維,客戶只需要使用。
現(xiàn)在,分布式云復(fù)用了公有云的“管控系統(tǒng)”,而客戶核心的“算力資源”、“業(yè)務(wù)數(shù)據(jù)”則部署在自己指定的數(shù)據(jù)中心提供服務(wù)。為此,騰訊云提供了專屬可用區(qū)CDZ和本地專用集群CDC兩種形式,由公有云運(yùn)維團(tuán)隊(duì)進(jìn)行運(yùn)維。
分布式云有什么優(yōu)勢(shì),尤其是在大模型快速迭代和應(yīng)用部署的當(dāng)下?騰訊云計(jì)算產(chǎn)品高級(jí)產(chǎn)品經(jīng)理張祥春說,使用傳統(tǒng)方案建設(shè),客戶建設(shè)、運(yùn)維的門檻都很高,并且在建成之后,整個(gè)環(huán)境不太可能做版本升級(jí),服務(wù)能力被固化了,而分布式云與公有云是同步升級(jí)的。
這意味著,客戶不僅能在自己需要的地點(diǎn)便捷搭建專屬的智算云,更能不斷使用到騰訊云最新的智算技術(shù)。這對(duì)客戶快速推進(jìn)人工智能業(yè)務(wù)極為關(guān)鍵。畢竟最新的技術(shù),讓客戶能跑的更快。
值得關(guān)注的是,分布式云也打包了騰訊云最新的智算套件、大模型部署與精調(diào)的AI平臺(tái)層能力、數(shù)據(jù)管理平臺(tái)層的能力,以及代碼助手等開發(fā)層能力,這樣,客戶就有了完整的AIGC訓(xùn)練和應(yīng)用能力。
這恰好符合一部分當(dāng)下客戶的需求。根據(jù)專業(yè)機(jī)構(gòu)的調(diào)研,68%的企業(yè)需要混合多云架構(gòu)基礎(chǔ)設(shè)施,70%的企業(yè)希望構(gòu)建大模型之后,實(shí)現(xiàn)每周甚至更頻繁的更新,57%的企業(yè)期望基于現(xiàn)有大模型,進(jìn)行模型定制化或微調(diào),另外77%的企業(yè)希望第三方幫助其做大量非結(jié)構(gòu)化數(shù)據(jù)的處理和分析。
當(dāng)通過分布式云的方案搭建起平臺(tái),客戶就能一步觸達(dá)這些需求,分布式云因而受到歡迎,已有不少落地案例。張祥春介紹了三類典型場(chǎng)景。
在大型智算中心場(chǎng)景下,國(guó)內(nèi)一家大型智能化解決方案服務(wù)商,使用本地專用集群CDC,組建了自己的大型智算中心。國(guó)內(nèi)某大型二手交易平臺(tái),使用專屬可用區(qū)CDZ,搭建大型本地云,既滿足數(shù)據(jù)安全要求,又享受到與公有云一致的體驗(yàn)。
在企業(yè)邊緣算力需求場(chǎng)景下,智算服務(wù)與各行業(yè)結(jié)合越來越深,智能駕駛、智能制造對(duì)于邊緣區(qū)域的低延遲算力、數(shù)據(jù)不離場(chǎng)、可靠性高的要求越來越多。某國(guó)內(nèi)大型工業(yè)制造企業(yè),使用本地專用集群CDC,實(shí)現(xiàn)了工廠智能制造方案底座,IT團(tuán)隊(duì)管理效率提升4倍。某Top級(jí)車企,使用本地專用集群CDC,支撐智能制造、車聯(lián)網(wǎng)大數(shù)據(jù)業(yè)務(wù)。
此外,在企業(yè)出海場(chǎng)景下,企業(yè)的業(yè)務(wù)系統(tǒng)需要在當(dāng)?shù)夭渴穑⑶乙虾M獾臄?shù)據(jù)合規(guī)策略。企業(yè)將內(nèi)部云拓展到海外,是一項(xiàng)耗時(shí)耗力的工程,還可能經(jīng)歷數(shù)年的穩(wěn)定期。而騰訊云可基于在海外可用區(qū)建設(shè)、運(yùn)維的經(jīng)驗(yàn),向客戶交付分布式云。某國(guó)內(nèi)Top級(jí)消費(fèi)電子企業(yè),已使用本地專用集群CDC,滿足南美工廠本地云需求。
03
AI原生云將主導(dǎo)智算未來
在快速構(gòu)建智能算力、滿足大模型訓(xùn)練和推理大爆發(fā)的算力訴求之外,實(shí)際上,這輪生成式AI,對(duì)整體云計(jì)算提出了更高的要求。在這一過程中,騰訊云在不斷自我革新與升級(jí),演進(jìn)到為生成式AI而生的AI原生云。
日前,騰訊云和Gartner聯(lián)合發(fā)布的首個(gè)《AI原生云建設(shè)與加速指南》白皮書中提到,我們將見到從Cloud for AI向AI原生云的轉(zhuǎn)變,這一轉(zhuǎn)變標(biāo)志著云平臺(tái)能力的全面革新。AI原生云平臺(tái)是AI原生時(shí)代發(fā)展的重要基石,將全方位、更高效、便捷地支撐AI原生應(yīng)用的創(chuàng)新。
騰訊云為用戶提供生成式AI驅(qū)動(dòng)的新一代AI原生云平臺(tái)架構(gòu),除了在基礎(chǔ)設(shè)施層(Allnfra)上的升級(jí)和革新外,也在模型層(Models&Frameworks)、工程工程層(Al Engineering)、應(yīng)用層(AI Apps)、全棧安全防護(hù)(Security)上構(gòu)建了核心能力,助力大模型訓(xùn)練、推理,到應(yīng)用,全面加速,釋放產(chǎn)業(yè)各類MaaS生產(chǎn)力,加速AI原生應(yīng)用落地。
其中,為了讓更多人能夠快速部署AI服務(wù),在工程平臺(tái)層面,該解決方案提供了基于騰訊云高性能服務(wù)HAI與云端開發(fā)工具CloudStudio的GPU開發(fā)空間;騰訊云向量數(shù)據(jù)庫(kù)提供了數(shù)據(jù)檢索增強(qiáng)套件能力;騰訊云機(jī)器學(xué)習(xí)平臺(tái)TI提供了從數(shù)據(jù)標(biāo)注到模型推理的工具鏈。在此之上,騰訊云OrcaTerm AI助手、AI代碼助手可以提供智能運(yùn)維、技術(shù)問答、代碼補(bǔ)全等AI輔助能力。
在模型層,騰訊自研的大模型混元最大參數(shù)量級(jí)已過萬億,在國(guó)內(nèi)率先采用混合專家模型 (MoE) 結(jié)構(gòu),部分中文能力已追平GPT-4,在“時(shí)新”問題的回答表現(xiàn)上,數(shù)學(xué)、推理等能力上均有較大提升。同時(shí),騰訊會(huì)議等騰訊SaaS產(chǎn)品已經(jīng)全面接入騰訊混元大模型。
在安全方面,騰訊全棧安全產(chǎn)品已深度融合AI技術(shù),并在實(shí)際攻防場(chǎng)景與內(nèi)容安全中守護(hù)安全防線,實(shí)現(xiàn)AI信任。
在應(yīng)用層,騰訊云不僅直接提供騰訊會(huì)議、騰訊文檔、企業(yè)微信、騰訊樂享、騰訊企點(diǎn)等智能應(yīng)用APP,還提供智能應(yīng)用增強(qiáng)軟件,如數(shù)智人、知識(shí)引擎、智能客服等,同時(shí)提供基于這些智能應(yīng)用APP孵化出來的各種生成式AI助手與引擎等技術(shù)產(chǎn)品能力,幫助用戶全面實(shí)現(xiàn)應(yīng)用智能增強(qiáng)。
在以生成式AI為代表的人工智能的發(fā)展中,AI原生云將是一個(gè)比傳統(tǒng)云計(jì)算更為巨大的市場(chǎng),產(chǎn)業(yè)升級(jí)給云大廠帶來了巨大機(jī)遇。而騰訊云平臺(tái)基于生成式AI的全面升級(jí),目前已成為AI原生時(shí)代的領(lǐng)航者。基于逐步構(gòu)建和完善的五大核心能力,幫助企業(yè)在AI時(shí)代實(shí)現(xiàn)快速發(fā)展和創(chuàng)新,搶占AGI風(fēng)口。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
特斯拉最近發(fā)布了一段視頻,展示了其人形機(jī)器人Optimus(擎天柱)的新功能和進(jìn)展,試圖回應(yīng)外界對(duì)其智能水平的質(zhì)疑。
近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。