下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO
量子位
2024-02-15 14:42:02

原标题:下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

白交 衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

下一代Windows操作系统提前曝光了??

微软首个为Windows而设的智能体(Agent)亮相:

基于GPT-4V,一句话就可以在多个应用中无缝切换,完成复杂任务。整个过程无需人为干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。

比如,删除PPT演示文稿上的所有备注。

已关注

关注

重播分享

关闭

观看更多

更多

    退出全屏

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    几个简单步骤就可完成。

    还有像利用多个来源文本,比如word文档、图像文本内容,撰写电子邮件。

    已关注

    关注

    重播分享

    关闭

    观看更多

    更多

      退出全屏

      视频加载失败,请刷新页面再试

      刷新

      视频详情

      网友表示:这才是Windows级别应有的创新能力

      第一个Windows Agent来了

      这样一个智能体叫做UFO,全名“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架,可以在单个或者多个应用程序中操作,由MSRA、微软AI与应用研究团队等共同打造。

      用户就可以通过自然语言指令,来操作App的用户界面。

      据介绍,UFO是第一个专为Windows OS环境中的任务完成量身定制的UI Agent。

      就拿删除PPT上的所有注释为例。传统方式需要一页一页手动删除注释。如果PPT巨长无比,这个过程就会又久又无聊,让人瞬间暴躁。

      但UFO得到指令后,简化了整个过程。

      它先是提议用“删除所有演示笔记”功能,这个功能因为按钮位置藏得很深,经常被用户忽视。

      而后,UFO导航到“File”选项,对后台视图进行访问;然后,再平滑地切换到“info”菜单,单击“检查问题”按钮,并选择“检查文档”,开始检查文档中所有包含的注释。

      紧接着,UFO识别到菜单地步的“删除所有演示笔记”,向下滚动定位到其位置,启动单击功能。

      考虑到误删的可能性,UFO这里有一道保护功能,需要用户再次确定是否真的要删除所有注释。

      用户一旦确认,所有笔记就“

      ”的一下都没有了~

      如PowerPoint这般,文章中对其它几个场景进行了图文并茂的展示。

      比如读一篇PDF:

      设计PPT格式:

      下载Docker拓展:

      发条推文:

      搜索总结:

      读篇paper:

      以及怎么利用UFO在Word文档里提取文本、描述图像、撰写然后发送电子邮件等。

      研究团队在9个常用的Windows应用程序上对UFO进行了测试,包括Outlook、Photos、PPT、Word等,涵盖了Windows用户的高频使用场景,能够测试工作、交流、编码、阅读、网页浏览等目的。

      对于每个应用程序,团队设计了5个不同的请求,共45个;另外还设计了5个设计跨多个交互应用程序的请求。

      也就是说,共产生了50个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供全面评估UFO的互动模式。

      在评估指标方面,则从成功度、步骤、完成率和保障率这几个角度来评估UFO。

      为了全面评估UFO的性能,团队开发了名为WindowsBench的测试基准。

      考虑到没有现成的Windows Agent,团队选择GPT-3.5和GPT-4作为基座模型,并且指示它们提供一步一步的指导来完成用户请求。

      值得注意的是,UFO在WindowsBench上成功率达到了86%,成倍超过了GPT-4——因此UFO可以被定位为一个高效的Agent。

      而UFO的完成率也是最好的,这表明它有能力采取更精确的动作;此外,UFO完成任务的步骤也是最少的,安全度也是最高的。

      最后,9个场景从4个角度在WindowsBench的详细得分如下:

      三个模块组成

      既然如此,这样一个操作系统级别的Agent,究竟是如何实现的呢?

      首先,它理解用户的自然语言要求,然后将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。

      既然如此,又是如何实现的呢?

      架构上看,UFO是个双Agent框架,主要有三个模块:

      • 应用智能体(AppAgent),选择一个应用程序满足用户请求。
      • 行动智能体(ActAgent),负责在所选应用中反复执行任务。
      • 交互控制,无需人工干预,全自动执行。

      在收到用户请求后,AppAgent会对需求进行分析。除此之外,还有这些信息作为输入:桌面截图、App信息、记忆以及示例。

      其中,UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。

      然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给ActAgent。

      一旦找到合适的应用程序,App就会出现在桌面上。随后ActAgent启动操作。

      在每个操作选择之前,UFO都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO还记录了每个控件的相关信息,供 ActAgent观察。

      ActAgent的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。

      这一决定是基于 ActAgent 的观察结果、先前计划和操作记忆做出的。

      这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。

      如果需要跨越多个应用程序,那么在ActAgent 完成当前任务之后,ActAgent 将把任务委托给 AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。

      用户可以选择提出新的请求,促使 UFO 通过重复上述过程来处理新任务。

      研究团队依据日常鼠标操作,还开发了自定义操作,比如单击、选择文本、滚动等,以此来完成对于控件的操作。

      主要有这些控制类型。

      微软全球资深副总裁、MSRA副院长领衔

      最后介绍一下UFO的研究团队,其中大多数都为华人。

      通讯作者Chaoyun Zhang,是微软DKI(Data、Knowledge、Intelligence,数据/知识/情报)*小组的高级研究员。

      他于2020年,在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps的可解释机器学习。

      Chaoyun Zhang还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。

      作者Liqun Li,现为微软DKI组首席研究员。

      他先毕业于清华大学计算机科学与技术系,取得学士学位;而后又在2012年获得中国科学院软件研究所博士学位。期间,Liqun Li曾作为访问学者前往密歇根州立大学。

      作者Saravan Rajmohan,Miceosoft 365的AI及应用研究的合作伙伴总监。

      他领导应用研究团队与Microsoft的各个研究小组进行深入协作,将算法研究与AI/ML技术和硬件创新相结合

      作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。

      她从2004年起加入MSRA,从事和领导DKI领域的研究工作,近几年,团队将研究扩大到商业智能领域。

      作者张祺,微软全球资深副总裁。

      此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。

      同时,他也是微软中国首位“全球杰出工程师”。

      最后,简单介绍一下多位作者的工作单位:MSRA的DKI组

      DKI是Data、Knowledge、Intelligence的简写。

      该小组致力于AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。

      团队与微软产品如Excel,PowerPoint等深度合作,常年在各个领域的顶会和期刊上发表论文。

      参考链接:

      [1]https://github.com/microsoft/UFO

      [2]https://arxiv.org/abs/2402.07939

      [3]https://twitter.com/_akhaliq/status/1757625641724215585

      点这里👇关注我,记得标星哦~

      一键三连「分享」、「点赞」和「在看」

      科技前沿进展日日相见 ~

      ⚠️
      本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

      相关内容

      热门资讯

      拇指订购APP骗了亏的钱可以要... 拇指订购APP骗了亏的钱可以要回亏的钱!不用担心大卫帮你追回!不错的的退费流程!拇指订购APP、全新...
      海能投顾是真的吗服务费能退吗?... 上海海能投顾服务费是可以退的。上海海能投顾确实是一家正规的投顾公司。但这并不能说明他们公司的宣传就符...
      它石智航展示全球首个完成手工刺... 12月19日,它石智航在一场直播活动中展示了全球首个完成手工刺绣的机器人,成为全球首个在机器人领域突...
      天相投资顾问有限公司怎么样一对... 北京天相财富收取股民服务费没效果会员费能退回来?北京天相财富并不靠谱,在北京天相财富业务员的诱导下购...
      圣牛订购app白银交易亏的钱能... 圣牛订购app白银交易亏的钱能可拿回亏的钱!追回亏的钱方法多!有用的退款流程!目前,从事现货交易不像...
      九方智投是正规平台吗投顾服务不... 什么是投顾?为客户提供投资建议比如:买卖时机、热点分析、证券选择、风险提示等,禁止代理客户操作。也就...
      起点订购APP贵金属交易输的钱... 起点订购APP贵金属交易输的钱能可拿回亏的钱!有办法追回来!已成功退款流程公开!起点订购APP订购贵...
      步入深水区,智能金融迎模型迭代... 作为人工智能与金融领域的融合形态,智能金融发展正呈现出技术驱动与场景深化双轮并进的态势。一方面,在政...
      亚商投顾可靠吗指导股民炒股亏钱... 在上海亚.商投资交的高额服务费可以退吗?答:可以退,告诉大家一个好消息,在上海亚.商投资交费的,只要...
      优品订购APP骗了输了钱有办法... 优品订购APP骗了输了钱有办法挽回损失!有办法追回来!成功不收费退款流程!拇指订购APP、全新订购A...