科技云報(bào)道：大模型風(fēng)起云涌，向量數(shù)據(jù)庫終有“用武之地”？

2024年05月31日 18:18:55 來源：科技云報(bào)道

　　每逢淘金熱，最后的贏家都是賣鏟人，而非淘金者。在近兩年的大模型風(fēng)口下，向量數(shù)據(jù)庫就成了這把鏟子。

　　隨著大模型快速發(fā)展，向量數(shù)據(jù)庫正在成為企業(yè)便捷使用大模型、最大化發(fā)揮數(shù)據(jù)價(jià)值的關(guān)鍵工具。據(jù)IDC調(diào)查數(shù)據(jù)顯示，全球在AI技術(shù)和服務(wù)上的支出2023年將達(dá)到1540億美元，到2026年將超過3000億美元。其中，向量數(shù)據(jù)庫為AI的開發(fā)、增強(qiáng)內(nèi)容生成的準(zhǔn)確性提供了重要技術(shù)支撐。

　　在今年數(shù)據(jù)庫領(lǐng)域所有的技術(shù)趨勢中，向量數(shù)據(jù)庫無疑成為了最受資本熱捧的一個(gè)。隨著5月份大模型廠商掀起一輪又一輪價(jià)格戰(zhàn)，接連調(diào)低大模型API的價(jià)格，高性價(jià)比的大模型+向量數(shù)據(jù)庫，在行業(yè)應(yīng)用、企業(yè)市場又顯現(xiàn)出了商業(yè)價(jià)值。

　　為什么向量數(shù)據(jù)庫會隨著大模型的發(fā)展而爆發(fā)?它又將給AI行業(yè)帶來怎樣的機(jī)會?

　　大模型的必經(jīng)之路

　　首先，我們需要厘清向量數(shù)據(jù)庫在大模型當(dāng)中扮演了什么角色。

　　大模型解決的是計(jì)算問題，而向量數(shù)據(jù)庫則解決存儲問題。這是從2023年初向量數(shù)據(jù)庫崛起開始，至今為止行業(yè)內(nèi)公認(rèn)的看法。

　　人們常常把大語言模型比喻成大腦，但這是一個(gè)被切除了顳葉的大腦，缺乏記憶，并且常常出現(xiàn)幻覺。為了解決這些問題，常常需要借助向量數(shù)據(jù)庫。

　　現(xiàn)實(shí)生活中兩人進(jìn)行對話，大致需要三步流程：一方首先拋出話題作引子;另一方會先調(diào)動記憶判斷自己是否了解這個(gè)話題，然后再分析給出應(yīng)該做出何種回答。如此循環(huán)往復(fù)直到互動結(jié)束。

　　為讓計(jì)算機(jī)完成這樣的互動過程，并持續(xù)在一對一或一對多的情況下變成日常，AI科學(xué)家提出了CVP結(jié)構(gòu)，即“ChatGPT(以ChatGPT為代表的大模型)+Vector Database(向量數(shù)據(jù)庫)+Prompt(提示詞)”，分別承擔(dān)計(jì)算機(jī)分析、記憶、引子的功能。

　　放到大模型上，針對其有可能出現(xiàn)的幻覺問題，可以將所需領(lǐng)域的專業(yè)知識存入向量數(shù)據(jù)庫，當(dāng)要prompt時(shí)，系統(tǒng)自動的從向量數(shù)據(jù)庫中根據(jù)相似度查找最相關(guān)的專業(yè)知識，把這些知識和你的提示詞一同提交給大模型，這樣就可以有效減少幻覺的出現(xiàn)。記憶的問題也類似，可以選擇把部分你和大模型的聊天記錄存入向量數(shù)據(jù)庫。這是向量數(shù)據(jù)庫近期出現(xiàn)熱度的原因。

　　向量數(shù)據(jù)庫和傳統(tǒng)數(shù)據(jù)庫的不同點(diǎn)之一是，傳統(tǒng)的數(shù)據(jù)庫只能處理計(jì)算機(jī)容易了解和處理的數(shù)據(jù)、字符串等結(jié)構(gòu)化數(shù)據(jù)，通過點(diǎn)查和范圍查進(jìn)行精確匹配，輸出只有符合查詢條件和不符合條件的答案，而向量數(shù)據(jù)庫處理的是各種AI應(yīng)用產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)，通過近似查進(jìn)行模糊匹配，輸出的是概率上的提供相對最符合條件的答案，而非精確的標(biāo)準(zhǔn)答案。

　　以O(shè)penAI背后的GPT模型預(yù)訓(xùn)練所用的數(shù)據(jù)為例，GPT-3.5的“知識庫”共包含3000億單詞的數(shù)據(jù)，匯聚了來自開源語料庫、維基百科、各類圖書與新聞報(bào)道、Reddit與Twitter平臺文章等大量互聯(lián)網(wǎng)文本數(shù)據(jù)。GPT-4在此基礎(chǔ)上體量更大，且為了支持多模態(tài)專門收集各類圖像、視頻素材，這其中非結(jié)構(gòu)化數(shù)據(jù)應(yīng)占有極大比重。

　　正如冰山效應(yīng)所喻示的“巨大的冰山往往是八分之一浮在水面上，八分之七沉沒在水面之下”，真實(shí)世界中絕約80%的數(shù)據(jù)都為非結(jié)構(gòu)化數(shù)據(jù)，只有約20%的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)復(fù)雜且難處理，反而導(dǎo)致有效利用率遠(yuǎn)低于結(jié)構(gòu)化數(shù)據(jù)。因此，打造面向非結(jié)構(gòu)化數(shù)據(jù)的向量數(shù)據(jù)庫也變成了一場從0到1的拓荒。

　　近年來，一些數(shù)據(jù)庫廠商已經(jīng)開始原生支持向量嵌入和向量搜索的功能，并提供了相應(yīng)的向量索引和查詢優(yōu)化技術(shù)。這使得開發(fā)人員能夠更方便地在數(shù)據(jù)庫中存儲和查詢向量數(shù)據(jù)，而無需依賴額外的工具或庫。

　　除了大語言模型的推動外，向量數(shù)據(jù)庫在自身技術(shù)上也取得了重大突破，特別是在性能優(yōu)化、數(shù)據(jù)處理能力和安全性方面。各數(shù)據(jù)庫廠商和研究機(jī)構(gòu)都在致力于改進(jìn)向量數(shù)據(jù)庫的算法和架構(gòu)，以提高其處理大規(guī)模數(shù)據(jù)的能力。

　　ChatGPT的爆發(fā)徹底改變了向量數(shù)據(jù)庫的發(fā)展速度。2023年3月，在英偉達(dá)全球開發(fā)者大會上，CEO黃仁勛力挺向量數(shù)據(jù)庫對構(gòu)建專有大型語言模型的重要價(jià)值，“向量數(shù)據(jù)庫的一個(gè)新型重要用例是大型語言模型，在文本生成過程中可用于檢索領(lǐng)域特定事實(shí)或?qū)Ｓ惺聦?shí)。英偉達(dá)將推出一個(gè)新的庫，即RAFT，用于加速索引、數(shù)據(jù)加載和近鄰檢索。我們正在將RAFT的加速引入到Meta的AI向量相似性搜索FAISS、Milvus開源向量數(shù)據(jù)庫以及Redis。”他如是說。

　　在資本市場，近一年來向量數(shù)據(jù)庫是當(dāng)之無愧的“資本寵兒”，Qdrant、Chroma、Weaviate先后獲得融資，成立短短幾年的Pinecone宣布1億美元B輪融資，估值達(dá)到7.5億美元�？梢�，無論從技術(shù)演進(jìn)還是資本市場來看，向量數(shù)據(jù)庫都是這兩年最亮眼的技術(shù)。

　　向量數(shù)據(jù)庫的商業(yè)化探索

　　在大模型興起之前，傳統(tǒng)數(shù)據(jù)庫已經(jīng)在不斷嘗試與AI結(jié)合，主要涉及以下幾個(gè)方向：AI for DB、DB for AI、預(yù)測估算。隨著大模型的興起，可以看到在這些方向上，數(shù)據(jù)庫與AI間的關(guān)聯(lián)比以往任何時(shí)候都要密切。

　　在“AI for DB”方面，將AI技術(shù)嵌入到傳統(tǒng)數(shù)據(jù)庫中，使其具備更智能的功能。例如，通過大模型，數(shù)據(jù)庫可以實(shí)現(xiàn)更高級的數(shù)據(jù)分析、智能搜索和推薦等功能。AI技術(shù)的應(yīng)用使得數(shù)據(jù)庫能夠更好地理解和處理數(shù)據(jù)，提供更精確的查詢結(jié)果和分析報(bào)告。

　　對于“DB for AI”方面，傳統(tǒng)數(shù)據(jù)庫可以為大模型提供結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)高效的存儲和查詢能力。由于大模型通常需要處理大規(guī)模的數(shù)據(jù)，傳統(tǒng)數(shù)據(jù)庫的可伸縮性和性能變得尤為重要。數(shù)據(jù)庫可以通過融合查詢和差異化存儲等技術(shù)，提供快速的數(shù)據(jù)訪問和處理能力，滿足大模型對數(shù)據(jù)的高效需求。

　　此外，大模型的興起還為數(shù)據(jù)庫注入了預(yù)測估算的能力。大模型可以通過學(xué)習(xí)歷史數(shù)據(jù)和模式，對未來的趨勢和結(jié)果進(jìn)行預(yù)測和估算。傳統(tǒng)數(shù)據(jù)庫可以集成模型，實(shí)現(xiàn)對數(shù)據(jù)的預(yù)測分析。這使得數(shù)據(jù)庫可以不僅提供對歷史數(shù)據(jù)的查詢和分析，還能夠提供對未來數(shù)據(jù)的預(yù)測和估算結(jié)果，幫助用戶做出更準(zhǔn)確的決策。

　　事實(shí)上，不僅是大模型廠商，云計(jì)算廠商憑借在AI基礎(chǔ)設(shè)施、商業(yè)生態(tài)、市場規(guī)模效應(yīng)方面的已有優(yōu)勢，也開始聚焦向量數(shù)據(jù)庫市場進(jìn)行各種技術(shù)和商業(yè)化嘗試，這些嘗試或許會讓向量數(shù)據(jù)庫加速走向商業(yè)成功。

　　首先，多元化部署能力。垂直行業(yè)大模型，數(shù)據(jù)都是私有機(jī)密的，客戶一般不愿意放到公有云上，這對一部分支持混合多云的云廠商是一大利好，通過私有部署、分布式、混合云等多種方案，打消行業(yè)客戶將數(shù)據(jù)放到云端的現(xiàn)實(shí)疑慮。

　　其次，一體化AI能力。向量數(shù)據(jù)庫的火爆，本質(zhì)是由AI驅(qū)動的，而AI Native時(shí)代的數(shù)據(jù)工程，還有許多復(fù)雜問題尚待解決，比如檢索效率，在處理大規(guī)模數(shù)據(jù)的并行任務(wù)時(shí)，保持快速響應(yīng)時(shí)間是一個(gè)挑戰(zhàn)，需要優(yōu)化索引結(jié)構(gòu)和搜索算法;高負(fù)載下的系統(tǒng)穩(wěn)定性，需要確保數(shù)據(jù)庫系統(tǒng)具備高可用性和容錯(cuò)能力，防止服務(wù)中斷;存儲海量的向量數(shù)據(jù)，成本效益比要進(jìn)一步優(yōu)化……目前來看，云廠商具備從底層算力集群、Maas模型平臺到全棧工具鏈的AI能力，有望通過技術(shù)協(xié)同創(chuàng)新，持續(xù)優(yōu)化向量數(shù)據(jù)庫的性能和成本。

　　第三，產(chǎn)業(yè)服務(wù)能力。各行業(yè)對AI與業(yè)務(wù)的結(jié)合熱情高漲，但大多還處于嘗試探索期，需要結(jié)合自身場景、AI應(yīng)用、IT設(shè)施等多種因素試錯(cuò)并迭代。這個(gè)過程中，隨叫隨到、幫助客戶及時(shí)解決問題的ToB服務(wù)能力，也是非�？粗氐摹Ｉ罡a(chǎn)業(yè)的公有云，有望降低很多企業(yè)在AI技術(shù)革命中的機(jī)會成本。

　　從某種程度上而言，無論是向量數(shù)據(jù)庫，還是大模型，歸根結(jié)底，人們在追捧它時(shí)的心態(tài)，焦慮大于需求。而這種焦慮則來源于“害怕被落下”。

　　而向量數(shù)據(jù)庫的熱潮，在一定程度上外化了人們的焦慮。但這并不能否定向量數(shù)據(jù)庫的實(shí)際價(jià)值，甚至更長遠(yuǎn)的價(jià)值。

　　雖然，目前向量數(shù)據(jù)庫仍處于發(fā)展初期，但可以確定的是，向量數(shù)據(jù)庫與大模型一定是捆綁關(guān)系。因此，未來其演進(jìn)方向也一定隨著大模型能力的演進(jìn)而發(fā)生變化。

　　不可否認(rèn)的是，向量數(shù)據(jù)庫的未來有星辰大海，也有曲折的前路。背靠大模型，向量數(shù)據(jù)庫成為資本追捧的“寵兒”。然而，在未來的AGI時(shí)代，向量數(shù)據(jù)庫還有更多實(shí)事要干。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

再進(jìn)化！特斯拉擎天柱能自主充電自主干活

特斯拉最近發(fā)布了一段視頻，展示了其人形機(jī)器人Optimus(擎天柱)的新功能和進(jìn)展，試圖回應(yīng)外界對其智能水平的質(zhì)疑。

一加13 搭載超大容量冰川電池及雙閃充組合，續(xù)航體驗(yàn)超 P

一 13搭載第二代東方屏，打造四大巔峰屏幕體驗(yàn)

新聞

敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

近日，中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個(gè)月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計(jì)算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

科技云報(bào)道：大模型風(fēng)起云涌，向量數(shù)據(jù)庫終有“用武之地”？

擴(kuò)展閱讀

科技云報(bào)道：大模型風(fēng)起云涌，向量數(shù)據(jù)庫終有“用武之地”？