微軟開源 OmniParser 純視覺 GUI 智能體：讓 GPT-4V 秒懂屏幕截圖，可操控手機 / 電腦

2024年10月29日 10:46:22 來源：IT之家

　　科技媒體 marktechpost 于 10 月 24 日發(fā)布博文，報道稱微軟公司宣布開源 OmniParser，是一款解析和識別屏幕上可交互圖標的 AI 工具。

　　項目背景

　　傳統(tǒng)的自動化方法通常依賴于解析 HTML 或視圖層次結(jié)構(gòu)，從而限制了其在非網(wǎng)絡(luò)環(huán)境中的適用性。

　　而包括 GPT-4V 在內(nèi)的現(xiàn)有的視覺語言模型(VLMs)，并不擅長解讀復(fù)雜 GUI 元素，導(dǎo)致動作定位不準確。

　　項目簡介

　　微軟為了克服這些障礙，推出了 OmniParser，是一種純視覺基礎(chǔ)的工具，旨在填補當(dāng)前屏幕解析技術(shù)中的空白。

　　該工具并不需要依賴額外的上下文數(shù)據(jù)，可以理解更復(fù)雜的圖形用戶界面(GUI)，是智能 GUI 自動化領(lǐng)域的一項令人興奮的進展。

　　OmniParser 結(jié)合可交互區(qū)域檢測模型、圖標描述模型和 OCR 模塊等，不需要 HTML 標簽或視圖層次結(jié)構(gòu)等顯式基礎(chǔ)數(shù)據(jù)，能夠在桌面、移動設(shè)備和網(wǎng)頁等上跨平臺工作，提高用戶界面的解析準確性。

　　OmniParser 除了識別屏幕上的元素，還能將這些元素轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)。

　　測試表現(xiàn)

　　OmniParser 在多個基準測試中顯示出優(yōu)越的性能。例如，在 ScreenSpot 數(shù)據(jù)集中，其準確率提高了 73%，顯著超越依賴 HTML 解析的模型。

　　這一設(shè)計不僅能生成類似文檔對象模型(DOM)的結(jié)構(gòu)化表示，還能通過疊加邊界框和功能標簽來引導(dǎo)語言模型做出更準確的用戶動作預(yù)測。

　　同時，GPT-4V 在使用 OmniParser 輸出后，圖標的正確標記率從 70.5% 提升至 93.8%。這些改進表明，OmniParser 能夠有效解決當(dāng)前 GUI 交互模型的根本缺陷。

　　OmniParser 的發(fā)布不僅拓寬了智能體的應(yīng)用范圍，也為開發(fā)者提供了一個強大的工具，助力創(chuàng)建更智能、更高效的用戶界面驅(qū)動智能體。微軟目前已在 Hugging Face 上發(fā)布 OmniParser，普及這一前沿技術(shù)，將進一步推動多模態(tài) AI 的發(fā)展，特別是在無障礙、自動化和智能用戶輔助等領(lǐng)域。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

再進化！特斯拉擎天柱能自主充電自主干活

特斯拉最近發(fā)布了一段視頻，展示了其人形機器人Optimus(擎天柱)的新功能和進展，試圖回應(yīng)外界對其智能水平的質(zhì)疑。

一加13 搭載超大容量冰川電池及雙閃充組合，續(xù)航體驗超 P

一 13搭載第二代東方屏，打造四大巔峰屏幕體驗

新聞

敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

近日，中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

3C消費

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

微軟開源 OmniParser 純視覺 GUI 智能體：讓 GPT-4V 秒懂屏幕截圖，可操控手機 / 電腦

擴展閱讀

微軟開源 OmniParser 純視覺 GUI 智能體：讓 GPT-4V 秒懂屏幕截圖，可操控手機 / 電腦