DeepSeek等秒变操控电脑AI智能体，微软开源OmniParser V2.0 - 万事屋 | 生活·动漫·娱乐综合社区-银魂同好聚集地

DeepSeek等秒变操控电脑AI智能体，微软开源OmniParser V2.0

1个月前更新

0546

微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具，此前搭配 GPT-4V 可显著增强识别能力。

2 月 12 日，微软在官网发布了 OmniParser 最新版本 V2.0，可将 OpenAI（4o / o1 / o3-mini）、DeepSeek（R1）、Qwen（2.5VL）和 Anthropic（Sonnet）等模型，变成可以操控计算机的 AI 智能体。

与 V1 版本相比，OmniParser V2 使用了更大规模的交互元素检测数据和图标功能标题数据进行了训练，在检测较小的可交互 UI 元素时准确率更高、推理速度更快，延迟降低了 60%。

在高分辨率 Agent 基准测试 ScreenSpot Pro 中，V2+GPT-4o 的准确率达到了 39.6%，而 GPT-4o 原始准确率只有 0.8%。

为了能够更快地实验不同的智能体设置，微软还开源了 OmniTool，这是一个集成了智能体所需一系列基本工具的 Docker 化 Windows 系统，涵盖屏幕理解、定位、动作规划和执行等功能，也是将大模型变成智能体的关键工具。

© 版权声明

文是楼上发的，图是楼上帖的，寻仇请认准对象。

有些是原创，有些图文皆转载，如有侵权，请联系告知，必删。

如果不爽，请怼作者，吐槽君和你们是一伙的！请勿伤及无辜...

本站所有原创帖均可复制、搬运，开网站就是为了大家一起乐乐，不在乎版权。

对了，本站小水管，垃圾服务器，请不要采集，吐槽君纯属用爱发电，经不起折腾。

THE END

喜欢就支持一下吧

相关推荐

评论抢沙发

请登录后发表评论

暂无评论内容

最新网络资讯

万事屋热点资讯