VIMA:更适合机械宝宝体质的*作**,竟然内置LLM!
“机器人技术将是我们在人工智能领域征服的最后一道护城河。一个给机器人使用的GPT模型,它的应用程序接口是什么样的?”
——英伟达资深 AI 科学家 Jim Fan,师从李飞飞。
工程师们一直在试图搭建更智能、可靠的机器人,比如之前火爆全网、来自波士顿动力公司的机器狗Spot。它可以轻松上下楼梯、搬运重物、巡查街道,等等。
波士顿动力公司机器狗Spot按下把手开门通过
机器狗由一个运行着Android**的遥控手柄控制,人们可以通过**头随时查看它的状态,并提供指引爬上爬下、行走翻身。这当然很棒,但当我们想给机器人传达更复杂的动作指令时,在手柄上相应的*作就繁琐了很多。能不能开发出一种更易用、直观的人机交互方法,能让我们更轻松地发送指令给机器人呢?与其在一个小屏幕上戳来戳去控制不同的机械参数,能不能直接告诉机器人具体的指令,让它去做什么呢?
近日,由李飞飞教授及来自斯坦福大学、加州理工、清华大学和英伟达的几位学者组成的团队(Yunfan Jiang,Agrim Gupta,Zichen Zhang,Guanzhi Wang,Yongqiang Dou,Yanjun Chen,Li Fei-Fei,Anima Anandkumar,Yuke Zhu,Linxi Fan)发推,分享他们全新的研究结果:VIMA(Vision-and-Language Navigation with Multi-Modal Transformers),一个使用多模态提示执行各类任务的机械体*作**。
也就是说,在Prompt中输入文字、图片、**,或任意的组合,VIMA就可以控制机械臂执行相应的动作。
VIMA将多模态提示用于任务规范
VIMA能做什么?场景事例
如下图,输入指令「把形状一样的物品放到绿色碗(图片)里」给VIMA。
VIMA通过分析自然语言提示和图像提示,识别出所有物品的位置,找到形状一样的两个圆柱体,再找到和绿色碗,最后*作机械臂一次一次把两个圆柱体放到了碗里。
如下图,输入指令「把图示物品(彩虹方块)扫到图示物品(红框)内,不触碰图示物品(黄线)。」给VIMA,**识别出所有物件的位置,随后按照指示*作机械臂把彩虹方块扫到红框里,不触碰黄线。
最后来看这个例子。
我们甚至可以在prompt教给它新的视觉概念,输入指令「这是一个zup <灰色方框图片>,这是一个blicket <灰色十字图片>。将blicket放进zup里。」
VIMA识别到所有物体后,*作机械臂执行相应动作。
机械臂**的组成结构
VIMA主要由以下几个部分组成:
Transformer编码器和***:用于对多模态提示进行编码和机器人臂的控制进行**。
视觉和语言模块:用于处理视觉和语言输入,并将它们转换为Transformer可以处理的令牌序列。
动作执行器:用于将机器人臂的控制信号转换为物理动作,并将其发送到机器人***。
数据集和基准:用于评估和比较不同的机器人学习方法,并提供训练和测试数据。
物理**器:用于在虚拟环境中***器人的行为,并提供快速的反馈和调试机制。
这些组件共同构成了VIMA的核心部分,使得它能够接收多模态提示并执行各种机器人任务。
在VIMA中,GPT-3模型在第一部分被用作***,用于生成导航指令,以指导机器人在环境中执行导航任务。具体来说,VIMA-GPT是一个仅包含***的架构,它通过对多模态提示进行编码,自回归地**给定指令和交互历史的下一个动作,控制机器臂的运动。连接硬件后的VIMA成为了“一个具有体现性的AI代理:它可以感知环境并逐步在物理世界中采取行动。”Fan说到。
软硬件结合的AI**能做什么
团队共实现了17个不同的任务,分为6大类:简单物体*作(Simple object manipulation)、视觉目标达成(Visual goal reaching)、新概念理解(Novel concept grounding)、单次**模仿(One-shot video imitation)、视觉约束满足(Visual constraint satisfaction)、视觉推理(Visual reasoning)。
Fan在他的推文中提及:“多模态提示使得任务规范对用户来说更加容易和灵活。通过一个单一的模型,VIMA将视觉目标达成、从**演示中进行一次性模仿、学习新概念以及满足安全约束等多种任务统一起来。而在以前的工作中,每个任务都需要不同的训练流程。”
作为一个机器人控制的框架,VIMA可以扩展成为极其强大的工具。像是一个实体的小爱同学,在学习完所有的步骤和物品之后,它可以你成为现实生活里的左膀右臂,例如:
家务。告诉它你想吃西红柿炒鸡蛋,VIMA在厨房里找到材料、开火、放糖(北方同学大喜),自动化炒菜。
教育。在学校的自习课替老师回答问题,并在黑板上拿粉笔写笔记,为学生提供定制练习和反馈。
娱乐。投篮后每次替你捡球送水的女同学,一个VIMA机器人就能替代,甚至更体贴。
当然,上面的例子过于理想了,但并不是不可能实现。
模型结构:编码-**转换器
结语
VIMA作为一个仍在开发中的基础模型,为智能机械体的发展方向指明了更切实的发展方向。它有可能使机器人更智能、更有用。而如此强大的工具将其所有内容全部开源:代码、预训练模型、数据集和物理**基准都可以免费获取和使用!代码的透明度和可重复性被提高,更多的人可以使用和改进VIMA框架,促进了合作和知识共享,这对推动机器人学习领域的发展起到了巨大的作用。
将机器人和LLM整合,相当于让机器人有了大脑!长期来说,利好智能设备的功能增强,短期来说,B站上如稚晖君的一批知名UP主,又可以整活了。
参考链接:
粉丝福利:
当前,以芯片为代表的信创产业逐步成为国家科技竞争力的重要标志。在国产CPU产业强势崛起的过程中,你首先想到的会是哪几企业?答案有很多,但“中科系”的提及率绝对很高。作为国家战略科技力量,“中科系”旗下
21世纪经济报道记者倪雨晴 圣何塞报道在硅谷源泉之一的圣何塞,英特尔CEO帕特·基辛格(Pat Gelsinger)正在带领英特尔加速奔跑。当地时间9月19日,2023英特尔on技术创新大会于美国加利
财联社9月19日讯(记者 唐植潇)近日有消息称,OPPO将会重启芯片业务,并且“有部分员工已经回流,加入到了车载业务之中”。记者就此事向OPPO方面进行核实,对方表示“不予置评”。特百惠(我国)数字与
600亿颗芯片!我国巨头正式宣布,美媒:**也没料到制裁这么快
我国芯片市场与美国依赖我国的集成电路市场一直以来都是一个巨大的市场,拥有庞大的需求和巨大的增长潜力。我国的电子消费市场一直在迅速增长,包括智能手机、电视、电脑和各种智能设备等,这些设备都需要高性能的芯
最新手机芯片天梯图:A17、华为麒麟9000S,排在什么位置?
近日,最火的两颗芯片分别是苹果的3nm芯片A17 Pro,虽然很多人吐槽它较上一代提升不明显,但论性能,可以碾压任何安卓芯片,甚至是领先2代的。另外一款芯片,则是华为麒麟9000S,当然,这颗芯片工艺
韩国芯片连续13个月暴跌,尹锡悦指责我国不采购,外媒:自食其果
据韩国媒体称,韩国的半导体出口额已经连续暴跌13个月了,比去年同比下降了28%左右。韩国政府急的焦头烂额。尹锡悦政府竟直接甩锅我国,话里话外都是指责,他认为韩国半导体卖不出竟是我国的原因,我国应该帮助
我国突破芯片瓶颈将影响全球秩序?美国很担心,指出我国关键弱点
我国在芯片半导体领域一直深受美国的**,通过贸易制裁的方式阻止高端芯片进入我国市场。这样的举措一度造成我国芯片领域发展断档,不过随着我国科技企业近几年的突破,目前我国已经在芯片制造方面取得了重大的成果
前几天,华为一声不响的上线了mate60系列,带着麒麟芯片9000s强势回归,吸引了全世界的目光。而华为麒麟芯片**背后,我们不该忘记这位老人—张汝京。我国半导体之父,为回**造芯片,被开除**户籍,
【有车以后 资讯】“未来汽车对传统汽车的颠覆性,使传统零部件体系的50%以上都面临重构。”12月16日,在全球智能汽车产业峰会(GIV2022)上,我国电动汽车百人会理事长陈清泰指出,智能汽车的价值链
投稿点这里汽车有多少个零件?其实这个问题并没有一个十分确切的标准答案...据估计,一般轿车约由1万多个不可拆解的**零部件组装而成。结构极其复杂的特制汽车,如F1赛车等,其**零部件的数量可达到2万个
全球最大的10家汽车零部件供应商 都是世界500强 无我国企业
【卡车之家 原创】美国《财富》**每年发布的世界500强排行榜,是以营业收入数据对全球企业作出排名的榜单。2017年“世界500强”榜单中,汽车制造商和零部件厂商共占据33席(除去大型工程车辆企业),
汽车零部件企业哪家强?除了博世**还有这些名字你一定耳熟能详
文:懂车帝原创 李德喆[懂车帝原创 行业]9月18日,由《我国汽车报》主办,罗兰贝格协办的2019汽车零部件“双百强”企业发布会在江苏南京举行。在两份榜单中,博世、**、电装位列2019全球汽车零部件
行业现状(Reference:产业运行 | 2021年汽车工业经济运行情况)中汽协预测:2022年我国汽车销量达到2700万辆,新能源销量超过550万辆(Reference:乘用车市场信息联席会)以乘
全球十大汽车零部件供应商,核心技术都被他们垄断,自主遗憾缺席
提到电影,我们会想到张艺谋、冯小刚,而很少会想到幕后的制作人;提起流行乐,我们会想到周杰伦、萧敬腾,而很少会想到背后的作词人。台前台后,一幕之别,知名度往往相差甚远。车界又何尝不是如此,知名车企我们都
来源:环球时报 【环球时报记者 倪浩 陶震 环球时报驻德国特约记者 青木】经过3年疫情后,全球最具影响力的通信展今年有望再现往日盛况。2月27日至3月2日,由全球移动通信**协会(GSMA)主办的20
近日华为、苹果争相推出手机卫星通信功能,成为一大亮点,不少手机厂商也将目光投到卫星通信。放眼未来,手机直连卫星的卫星通信服务将是大势所趋,也是6G时代的重要标志。华为以“北斗三号”为依托,率先把“卫星
国内企业在光通信产品的参数测试过程中,通常使用国外的先进测试设备。然而,这些测试仪器之间往往是孤立存在的,需要手动调试仪器并通过旋钮、按钮和人眼观察波形或数据。这不仅*作繁琐易出错,而且测试效率低下。
龙头20cm涨停,7天股价翻倍!一文看懂卫星通信前世今生及产业链
卫星通信概念股华力创通今日再度强势拉升,截至发稿,该股股价20cm涨停,7个交易日累计涨幅近113%,现报23.52元续刷阶段新高,总市值155.9亿元。消息上,有媒体从供应链获悉,Mate 60 P
工信部:目前我国尚不具备实现网络层面的移动通信号码归属地变更的条件
针对网友提出的“电话号码归属地更改”建议,工信部近日给出了官方回复。此前,有网友在人民网留言板向工信部留言称,“现在电话都是实名制,电话号绑定的***及一些主流的软件较多,更换号码后造成一系列问题