大模型的苦,創(chuàng)業(yè)的AI 科學(xué)家最懂2mm²芯片點(diǎn)亮盲人黑暗世界!馬斯克前搭檔出手,失明81%也能閱讀了蘋果智能上線!海外網(wǎng)友狂給差評(píng):GPT套殼?!紫光國(guó)微發(fā)布Q3財(cái)報(bào) 前三季度實(shí)現(xiàn)營(yíng)收42.63億元打造小微企業(yè)數(shù)智服務(wù)“新樣板”,暢捷通攜手伙伴共筑融合生態(tài)蘋果2024款Mac mini發(fā)布,4499元起光線傳媒:前三季度凈利潤(rùn)4.61億元 同比增長(zhǎng)25.08%2024年粵港澳大灣區(qū)人工智能產(chǎn)業(yè)大會(huì) 首日活動(dòng)圓滿成功AMD Q3收入68.2億美元?jiǎng)?chuàng)下新高,預(yù)計(jì)Q4收入約75億美元《星鳴特攻》失利,索尼關(guān)閉 Firewalk Studios機(jī)械革命蛟龍16 Pro只要5037元 京東11.11購(gòu)3C數(shù)碼又便宜又好綠盟科技發(fā)布三季度報(bào)告,收入略增,虧損收窄,經(jīng)營(yíng)性凈現(xiàn)金流同比翻倍對(duì)話高通孟樸:自研Oryon CPU背后,是移動(dòng)計(jì)算邊界的再定義金磚大賽之元宇宙3D數(shù)字內(nèi)容設(shè)計(jì)創(chuàng)作賽發(fā)布3D協(xié)同設(shè)計(jì)實(shí)訓(xùn)平臺(tái),考察學(xué)生3D內(nèi)容在線編輯創(chuàng)作力福特汽車 2024 年第三季度營(yíng)收 460 億美元2024年胡潤(rùn)百富榜:張一鳴首次成為中國(guó)首富 雷軍排名上升15位消息稱臺(tái)積電擬收購(gòu)更多群創(chuàng)工廠擴(kuò)產(chǎn)先進(jìn)封裝小米15手機(jī)亮銀版公布,今晚 7 點(diǎn)發(fā)布Omdia觀點(diǎn):目錄管理對(duì)于電信運(yùn)營(yíng)商擴(kuò)大市場(chǎng)至關(guān)重要消息稱蘋果M5芯片預(yù)計(jì)明年年底推出,采用臺(tái)積電3nm制程
  • 首頁(yè) > 產(chǎn)經(jīng)新聞?lì)l道 > 業(yè)界新聞

    智算中心建設(shè)熱,不能光有GPU

    2024年07月19日 20:03:24   來源:數(shù)智前線

      國(guó)內(nèi)掀起了智算中心建設(shè)潮,但在建設(shè)中,人們發(fā)現(xiàn)智能算力有典型的“木桶效應(yīng)”。光有GPU還遠(yuǎn)遠(yuǎn)不夠。

      文|牛慧

      編|趙艷秋

      從去年到今年,業(yè)界正進(jìn)入大模型2.0時(shí)代。它意味著,無論是追逐更大參數(shù)的大語(yǔ)言模型,還是業(yè)界投入重兵的多模態(tài)模型,大模型訓(xùn)練的數(shù)據(jù)集已從TB級(jí)邁向了PB級(jí),也對(duì)算力提出十倍甚至百倍的增長(zhǎng)需求。業(yè)界出現(xiàn)了萬卡甚至十萬卡集群,并拉動(dòng)了新一代智算中心的建設(shè)。

      為應(yīng)對(duì)暴漲的算力需求,國(guó)內(nèi)掀起了智算中心建設(shè)潮,建設(shè)方來自地方政府、云計(jì)算大廠、央國(guó)企、數(shù)據(jù)中心服務(wù)商,以及一些跨界企業(yè),呈現(xiàn)出百花齊放的狀態(tài)。

      但在建設(shè)中,人們發(fā)現(xiàn)“智能算力有典型的木桶效應(yīng)”。光有GPU就夠了嗎?根據(jù)實(shí)際案例,組建算力集群不是簡(jiǎn)單的“蓋樓”,算力并不會(huì)隨著卡的數(shù)量線性增長(zhǎng)。從多元芯片,到服務(wù)器集群,再到整個(gè)數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲(chǔ)......如果其中有一塊短板,昂貴的GPU算力都會(huì)大打折扣。

      針對(duì)這些現(xiàn)象,不久前騰訊云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生也提到對(duì)AI的認(rèn)知和投入不能“狹隘”,稱人工智能有很多其他的技術(shù)路線,也很值得關(guān)注,要搭建一套有用的智能系統(tǒng)。AI不止于大模型。

      01

      智算中心建設(shè)熱,光有GPU不行?

      大模型越來越火,業(yè)界為算力資源傷透了腦筋。為了打消客戶對(duì)缺卡的顧慮,如騰訊云一眾云計(jì)算大廠,提供了“一云多芯”大規(guī)模AI異構(gòu)算力。

      與此同時(shí),不少建設(shè)方已在啟動(dòng)自身智算中心的建設(shè)。比如在地方政府側(cè),自2017年國(guó)家發(fā)布人工智能發(fā)展規(guī)劃之后,智算中心就被提到戰(zhàn)略高度。2023年,工信部等六部委印發(fā)了《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,明確提出到2025年我國(guó)算力規(guī)模超過300EFLOPS,其中智能算力占比達(dá)到35%。在國(guó)家倡導(dǎo)下,各地政府熱情高漲,政策覆蓋的20多個(gè)省市,將建設(shè)40多個(gè)智算中心。

      與此同時(shí),在智能算力中,仍有70%~80%由企業(yè)唱主角。除了云計(jì)算大廠外,央國(guó)企也是一股關(guān)鍵力量。根據(jù)數(shù)智前線的統(tǒng)計(jì),僅今年前五個(gè)半月,國(guó)內(nèi)大模型中標(biāo)項(xiàng)目已超過230個(gè)。運(yùn)營(yíng)商、金融、教育、能源、政務(wù)、汽車等領(lǐng)域,涌現(xiàn)出大量招標(biāo)項(xiàng)目。在主要大項(xiàng)目中,有超六成來自于央國(guó)企。不少央國(guó)企也提出自建智能算力的需求,支撐自身人工智能平臺(tái)建設(shè),并滿足數(shù)據(jù)安全需求。

      此外,數(shù)據(jù)中心服務(wù)商、傳統(tǒng)解決方案提供商,也紛紛布局智算中心。

      上述很多建設(shè)方的一個(gè)特點(diǎn)是,手里有卡和硬件資源。他們的需求是,用自己的卡能不能組建大模型算力集群,從而在自己的專屬算力環(huán)境下訓(xùn)練大模型?

      實(shí)際上,有GPU卡或者GPU集群,離一個(gè)高效運(yùn)轉(zhuǎn)的私有化智算中心,還相差甚遠(yuǎn)。騰訊云專有云研發(fā)副總經(jīng)理王旻說,大集群并不等于大算力!算力不是靠簡(jiǎn)單地“堆”GPU服務(wù)器堆出來的。

      “智能算力存在比較典型的木桶短板效應(yīng)。”騰訊專有云研發(fā)負(fù)責(zé)人王旻進(jìn)一步解釋,大模型訓(xùn)練過程中,集群通信時(shí)間最高占比可達(dá)50%。這意味著,網(wǎng)絡(luò)不給力,GPU只能閑著。再如,RDMA網(wǎng)絡(luò)0.1%的丟包率就會(huì)造成將近50%的算力損失。因此,客戶需要一套沒有短板的全棧方案,才能構(gòu)建一個(gè)高效實(shí)用的私有智算中心。

      針對(duì)木桶短板效應(yīng),騰訊云最新推出了專有云智算套件。“在過去的發(fā)展中,我們服務(wù)了大量的公有云客戶和自研業(yè)務(wù)。這次將公有云積攢的技術(shù)能力向外輸出,支持私有化部署。”騰訊云副總裁沙開波說。

      在客戶的GPU硬件服務(wù)器基礎(chǔ)之上,智算套件集合了高性能計(jì)算集群HCC軟件能力、RDMA智能高性能網(wǎng)絡(luò)IHN(星脈網(wǎng)絡(luò))、高并發(fā)文件存儲(chǔ)系統(tǒng)TurboFS、算力軟件加速框架Taco-LLM,實(shí)現(xiàn)萬億參數(shù)大模型訓(xùn)練時(shí)間縮短 80%。

      利用騰訊云智算套件,客戶現(xiàn)在可以開始搭建自己的計(jì)算集群了 ,而套件的亮點(diǎn)也解決了行業(yè)突出的共性問題:

      穩(wěn)定的HCC高性能計(jì)算集群:支持超過100小時(shí)的連續(xù)穩(wěn)態(tài)訓(xùn)練。通過自研服務(wù)器、自研網(wǎng)絡(luò)、存儲(chǔ)架構(gòu)等軟硬件設(shè)施,讓萬億參數(shù)大模型的訓(xùn)練時(shí)間,從50天縮短至4天。

      智能高性能網(wǎng)絡(luò)IHN(星脈網(wǎng)絡(luò)):它應(yīng)驗(yàn)了那句話,要想富先修路。智算中心已從CPU時(shí)代進(jìn)入GPU時(shí)代,如果把GPU比作F1跑車,要讓跑車的性能發(fā)揮到極致,就要給它建立專業(yè)賽道。不久前,騰訊自研星脈網(wǎng)絡(luò)全面升級(jí)為2.0,目標(biāo)是在工程上支持10萬卡規(guī)模。在性能上,它相比上一代網(wǎng)絡(luò)通信效率提升了60%,讓大模型訓(xùn)練效率提升20%。

      極速存儲(chǔ)高性能文件系統(tǒng)TurboFS:在大模型訓(xùn)練時(shí),數(shù)據(jù)存儲(chǔ)約占整體工程量的30%。隨著模型參數(shù)和計(jì)算集群越來越大,不同存儲(chǔ)技術(shù),可能造成數(shù)十倍的性能差距。TurboFS的高并發(fā)千卡級(jí)別并發(fā)讀寫能力,在私有算力環(huán)境下,可以支撐4000卡在一分鐘內(nèi)完成TB級(jí)CheckPoint(工作日志檢查點(diǎn)),對(duì)于處理大模型訓(xùn)練、故障檢查都非常關(guān)鍵。

      高效加速框架TACO-LLM:訓(xùn)練框架可以指導(dǎo)GPU更高效完成任務(wù),加速框架為不同場(chǎng)景的訓(xùn)練和推理設(shè)計(jì)了不同方案。在突破GPU自回歸限制和連續(xù)顯存瓶頸后,讓模型推理速度提升了2倍。采用模型壓縮、量化、混和序列并行模式等后,模型訓(xùn)練速度提升30%。

      這一智算套件中的產(chǎn)品技術(shù),已經(jīng)過大規(guī)模實(shí)踐驗(yàn)證。沙開波說,在公有云上,它們服務(wù)了百萬客戶,并在騰訊內(nèi)部服務(wù)了混元大模型,而混元已接入騰訊廣告、騰訊會(huì)議、微信讀書在內(nèi)的超600款場(chǎng)景。

      02

      自身沒有卡,怎么建專屬智算中心?

      除了上述客戶的需求外,很多客戶手里沒有GPU卡和硬件資源,但也需要構(gòu)建自己的智算中心。

      “大模型產(chǎn)業(yè)還處于很早期。”湯道生曾分析當(dāng)下的市場(chǎng)狀況,“大家都在跑馬圈地,嘗試著不同的商業(yè)模式。有的在追 Scaling Law(規(guī)模效應(yīng)),有的在打造 to C 市場(chǎng)新入口,有的在做產(chǎn)業(yè)落地,非常熱鬧。”因此,這些企業(yè)對(duì)智能算力提出多樣化需求,也并不奇怪。

      針對(duì)這樣的需求,騰訊云提出了分布式云產(chǎn)品,來幫助沒有GPU和硬件資源的伙伴,從零到一打造自己專屬的智算中心。

      什么是分布式云?簡(jiǎn)單來說,就是騰訊云在客戶本地提供公有云服務(wù)。此前,公有云的算力資源、業(yè)務(wù)數(shù)據(jù)和管控系統(tǒng)“三大件”,都在云廠商的IDC里,并由云廠商運(yùn)維,客戶只需要使用。

      現(xiàn)在,分布式云復(fù)用了公有云的“管控系統(tǒng)”,而客戶核心的“算力資源”、“業(yè)務(wù)數(shù)據(jù)”則部署在自己指定的數(shù)據(jù)中心提供服務(wù)。為此,騰訊云提供了專屬可用區(qū)CDZ和本地專用集群CDC兩種形式,由公有云運(yùn)維團(tuán)隊(duì)進(jìn)行運(yùn)維。

      分布式云有什么優(yōu)勢(shì),尤其是在大模型快速迭代和應(yīng)用部署的當(dāng)下?騰訊云計(jì)算產(chǎn)品高級(jí)產(chǎn)品經(jīng)理張祥春說,使用傳統(tǒng)方案建設(shè),客戶建設(shè)、運(yùn)維的門檻都很高,并且在建成之后,整個(gè)環(huán)境不太可能做版本升級(jí),服務(wù)能力被固化了,而分布式云與公有云是同步升級(jí)的。

      這意味著,客戶不僅能在自己需要的地點(diǎn)便捷搭建專屬的智算云,更能不斷使用到騰訊云最新的智算技術(shù)。這對(duì)客戶快速推進(jìn)人工智能業(yè)務(wù)極為關(guān)鍵。畢竟最新的技術(shù),讓客戶能跑的更快。

      值得關(guān)注的是,分布式云也打包了騰訊云最新的智算套件、大模型部署與精調(diào)的AI平臺(tái)層能力、數(shù)據(jù)管理平臺(tái)層的能力,以及代碼助手等開發(fā)層能力,這樣,客戶就有了完整的AIGC訓(xùn)練和應(yīng)用能力。

      這恰好符合一部分當(dāng)下客戶的需求。根據(jù)專業(yè)機(jī)構(gòu)的調(diào)研,68%的企業(yè)需要混合多云架構(gòu)基礎(chǔ)設(shè)施,70%的企業(yè)希望構(gòu)建大模型之后,實(shí)現(xiàn)每周甚至更頻繁的更新,57%的企業(yè)期望基于現(xiàn)有大模型,進(jìn)行模型定制化或微調(diào),另外77%的企業(yè)希望第三方幫助其做大量非結(jié)構(gòu)化數(shù)據(jù)的處理和分析。

      當(dāng)通過分布式云的方案搭建起平臺(tái),客戶就能一步觸達(dá)這些需求,分布式云因而受到歡迎,已有不少落地案例。張祥春介紹了三類典型場(chǎng)景。

      在大型智算中心場(chǎng)景下,國(guó)內(nèi)一家大型智能化解決方案服務(wù)商,使用本地專用集群CDC,組建了自己的大型智算中心。國(guó)內(nèi)某大型二手交易平臺(tái),使用專屬可用區(qū)CDZ,搭建大型本地云,既滿足數(shù)據(jù)安全要求,又享受到與公有云一致的體驗(yàn)。

      在企業(yè)邊緣算力需求場(chǎng)景下,智算服務(wù)與各行業(yè)結(jié)合越來越深,智能駕駛、智能制造對(duì)于邊緣區(qū)域的低延遲算力、數(shù)據(jù)不離場(chǎng)、可靠性高的要求越來越多。某國(guó)內(nèi)大型工業(yè)制造企業(yè),使用本地專用集群CDC,實(shí)現(xiàn)了工廠智能制造方案底座,IT團(tuán)隊(duì)管理效率提升4倍。某Top級(jí)車企,使用本地專用集群CDC,支撐智能制造、車聯(lián)網(wǎng)大數(shù)據(jù)業(yè)務(wù)。

      此外,在企業(yè)出海場(chǎng)景下,企業(yè)的業(yè)務(wù)系統(tǒng)需要在當(dāng)?shù)夭渴穑⑶乙虾M獾臄?shù)據(jù)合規(guī)策略。企業(yè)將內(nèi)部云拓展到海外,是一項(xiàng)耗時(shí)耗力的工程,還可能經(jīng)歷數(shù)年的穩(wěn)定期。而騰訊云可基于在海外可用區(qū)建設(shè)、運(yùn)維的經(jīng)驗(yàn),向客戶交付分布式云。某國(guó)內(nèi)Top級(jí)消費(fèi)電子企業(yè),已使用本地專用集群CDC,滿足南美工廠本地云需求。

      03

      AI原生云將主導(dǎo)智算未來

      在快速構(gòu)建智能算力、滿足大模型訓(xùn)練和推理大爆發(fā)的算力訴求之外,實(shí)際上,這輪生成式AI,對(duì)整體云計(jì)算提出了更高的要求。在這一過程中,騰訊云在不斷自我革新與升級(jí),演進(jìn)到為生成式AI而生的AI原生云。

      日前,騰訊云和Gartner聯(lián)合發(fā)布的首個(gè)《AI原生云建設(shè)與加速指南》白皮書中提到,我們將見到從Cloud for AI向AI原生云的轉(zhuǎn)變,這一轉(zhuǎn)變標(biāo)志著云平臺(tái)能力的全面革新。AI原生云平臺(tái)是AI原生時(shí)代發(fā)展的重要基石,將全方位、更高效、便捷地支撐AI原生應(yīng)用的創(chuàng)新。

      騰訊云為用戶提供生成式AI驅(qū)動(dòng)的新一代AI原生云平臺(tái)架構(gòu),除了在基礎(chǔ)設(shè)施層(Allnfra)上的升級(jí)和革新外,也在模型層(Models&Frameworks)、工程工程層(Al Engineering)、應(yīng)用層(AI Apps)、全棧安全防護(hù)(Security)上構(gòu)建了核心能力,助力大模型訓(xùn)練、推理,到應(yīng)用,全面加速,釋放產(chǎn)業(yè)各類MaaS生產(chǎn)力,加速AI原生應(yīng)用落地。

      其中,為了讓更多人能夠快速部署AI服務(wù),在工程平臺(tái)層面,該解決方案提供了基于騰訊云高性能服務(wù)HAI與云端開發(fā)工具CloudStudio的GPU開發(fā)空間;騰訊云向量數(shù)據(jù)庫(kù)提供了數(shù)據(jù)檢索增強(qiáng)套件能力;騰訊云機(jī)器學(xué)習(xí)平臺(tái)TI提供了從數(shù)據(jù)標(biāo)注到模型推理的工具鏈。在此之上,騰訊云OrcaTerm AI助手、AI代碼助手可以提供智能運(yùn)維、技術(shù)問答、代碼補(bǔ)全等AI輔助能力。

      在模型層,騰訊自研的大模型混元最大參數(shù)量級(jí)已過萬億,在國(guó)內(nèi)率先采用混合專家模型 (MoE) 結(jié)構(gòu),部分中文能力已追平GPT-4,在“時(shí)新”問題的回答表現(xiàn)上,數(shù)學(xué)、推理等能力上均有較大提升。同時(shí),騰訊會(huì)議等騰訊SaaS產(chǎn)品已經(jīng)全面接入騰訊混元大模型。

      在安全方面,騰訊全棧安全產(chǎn)品已深度融合AI技術(shù),并在實(shí)際攻防場(chǎng)景與內(nèi)容安全中守護(hù)安全防線,實(shí)現(xiàn)AI信任。

      在應(yīng)用層,騰訊云不僅直接提供騰訊會(huì)議、騰訊文檔、企業(yè)微信、騰訊樂享、騰訊企點(diǎn)等智能應(yīng)用APP,還提供智能應(yīng)用增強(qiáng)軟件,如數(shù)智人、知識(shí)引擎、智能客服等,同時(shí)提供基于這些智能應(yīng)用APP孵化出來的各種生成式AI助手與引擎等技術(shù)產(chǎn)品能力,幫助用戶全面實(shí)現(xiàn)應(yīng)用智能增強(qiáng)。

      在以生成式AI為代表的人工智能的發(fā)展中,AI原生云將是一個(gè)比傳統(tǒng)云計(jì)算更為巨大的市場(chǎng),產(chǎn)業(yè)升級(jí)給云大廠帶來了巨大機(jī)遇。而騰訊云平臺(tái)基于生成式AI的全面升級(jí),目前已成為AI原生時(shí)代的領(lǐng)航者。基于逐步構(gòu)建和完善的五大核心能力,幫助企業(yè)在AI時(shí)代實(shí)現(xiàn)快速發(fā)展和創(chuàng)新,搶占AGI風(fēng)口。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。