指挥学生
作家 | ZeR0
裁剪 | 漠影
智东西 12 月 5 日报谈,AGI 竞赛愈演愈烈!就在 OpenAI 晓谕将于将来 12 天直播新发布和 demo 前,昨夜,Google DeepMind 发布大型基础宇宙模子 Genie 2,能生成各式可适度行动、可玩的 3D 环境,还不错用于查验和评估具身 agent。
只有给一张请示图像,Genie 2 就能按照你输入的文本请示,生成对应的交互式虚构宇宙。非论是东谈主类仍是 AI agent,齐不错使用键盘和鼠标来在由 AI 生成的 3D 游戏宇宙里探索和互动。
Genie 2 是一个自总结潜在扩散模子,查验于大型视频数据集。历程自动编码器后,视频中的潜在帧被传递到大型 Transformer 能源学模子。该模子使用与大谈话模子雷同的因果掩码进行查验。
在推理时,Genie 2 能以自总结形式进行采样,逐帧得回单个行动和畴昔的潜在帧。Google DeepMind 使用 CFG(无分类器指导,classifier-free guidance)来晋升行动可控性。
博客著作放出多数由未蒸馏的基础模子生成的视频示例,来展示 Genie 2 在行径适度、生成反设事实、长视界缅念念、长视频生成、种种环境、3D 结构、物体交互、复杂变装动画、NPC、物理、烟雾、光影、快速原型想象方面的成果与上风。蒸馏版块复古及时交互,但运行时的视觉质料会裁汰些。
输入信得过宇宙的像片后,它也能很好模拟一些物理限定,比如可模拟风中摇曳的草或河中流动的水。
一、超强空间缅念念才调,模拟信得过宇宙环境
此前宇宙模子在很猛进度上局限于建模窄小的范围。Genie 1 引入了一种生成各式 2D 宇宙的方法。Genie 2 则进一步在通用性上取得证据,不错生成种类粘稠的丰富 3D 宇宙。
以下是与 Genie 2 互动的一些示例视频。模子会使用文生图模子 Imagen 3 生成的单个图像,全色网按照请示词生成一个可交互的 3D 宇宙。东谈主或 agent 进行键鼠操作,进入这个新创建的宇宙并与之互动。Genie 2 不错生成长达 1 分钟的一致宇宙,大多数示例捏续 10-20 秒(本文将部分视频示例转成 gif 动图并只截取片断,无缺视频请到原博客著作梭巡)。
1、智能反应键盘按键操作
Genie 2 不错智能地反应键盘上的按键操作,正确地识别并出动变装。比如下图中的几个示例,模子必须能弄分解标的按键对应要出动的是机器东谈主,而不是画面中的树、云等其他物体。
树林里的一个可儿的东谈主形机器东谈主。
古埃及的东谈主形机器东谈主。
紫色星球上的机器东谈主的第一视角。
大城市阁楼公寓中的机器东谈主的第一视角。
2、生成反设事实
Genie 2 不错从团结肇端帧生成不同的轨迹,为查验 agent 模拟不共事实的体验。在每一转中,每个视频齐从团结帧运转,但东谈主类玩家给与的行动不同,生成的画面践诺也反应不同。
3、长视界缅念念
Genie 2 大约记取视线中不再存在的宇宙部分,并在它们再次可见时准确呈现。
4、使用重生成的践诺生成长视频
Genie 2 可动态生成新的合理践诺,并在长达 1 分钟的时辰内看护一致的宇宙。
5、种种化环境
Genie 2 可创建不同的视角,举例第一视角、等距视图或第三视角驾驶视频。
6、3D 结构
Genie 2 会创建复杂的 3D 视觉场景。
7、模拟对象互相作用
2018无限资源在线视频Genie 2 能模拟各式物体的互相作用,举例爆破气球、大开门和射击火药桶。
8、变装动画
Genie 2 学习了如何为不同类型的变装制作动画来实践不同的行径。
9、NPC
Genie 2 大约模拟其他 agent,致使与它们进行复杂的交互。
10、物理
Genie 2 模拟水成果。
11、烟雾
Genie 2 模拟烟雾成果。
12、重力
Genie 2 模拟重力。
13、灯光
Genie 2 模拟光点和定向照明。
14、反射
Genie 2 模拟反射、喷雾减光和彩色灯光。
二、默契物理宇宙互异,可将主见图转变成交互式环境
Genie 2 模子可快速创建各式交互体验的原型。举例用 Imagen 3 生成不同图像,让 Genie 2 生成模拟纸飞机、龙、鹰、降落伞飘扬的视频。不错看到 Genie 2 生成的视频大约默契并模拟出它们飘扬的互异。
主见艺术和绘制也不错被 Genie 2 转变成十足交互式环境,以便艺术家、想象师能快速制作征询环境主见的原型。
三、AI agent 也能玩,为具身智能提供绝佳查验场
Genie 2 可快速为 AI agent 创建丰富种种的环境,从而生成 agent 在查验技艺未见过的评估任务。
举例,Google DeepMind 与游戏缔造商勾引缔造了 SIMA agent。SIMA agent 被想象成通过谨守天然谈话指示来完成一系列 3D 游戏宇宙中的任务,因此不错在 Genie 2 合成的、未见过的环境实践指示。
输入底下 Imagen 3 生成的第三绽放宇宙探索游戏图,Genie 2 可生成一个带有两扇门(一扇是红门,一扇是蓝门)的 3D 环境。
然后向 SIMA agent 提议大开某扇门的指示,Genie 2 则能生成相宜条目的画面。
在这个示例中,SIMA 通过键盘和鼠标输入适度变装,而 Genie 2 生成游戏帧。
也不错使用 SIMA 来匡助评估 Genie 2 的功能。通过率领 SIMA 环视四周、探索房屋后头等,测试 Genie 2 生成一致环境的才调。
再比如把柄底下这张图来生成视频。
输入不同请示词"上楼"、"去有植物的场所"、"走中间门",Genie 2 会生成对应的不同视频画面。
天然这项征询仍处于早期阶段,agent 和环境生成才调齐还有很大的校阅空间,但 Google DeepMind 信服 Genie 2 是搞定安全查验具体 agent 的结构性问题的阶梯,同期达成迈向 AGI 所需的广度和通用性。
结语:宇宙模子,AI 范围的下一件大事
游戏是安全测试和鞭策 AI 才调的理念念环境。查验更通器用身 agent 的传统瓶颈在于贫苦饱胀丰富和种种化的查验环境。
Google DeepMind 正将越来越多资源参加于宇宙模子征询。Genie 2 展示了基础宇宙模子在创建种种化 3D 环境、定制交互式游戏场景、加快 agent 征询等方面的后劲,可让将来的 Agent 在无尽的新宇宙中接管查验和评估。
该征询标的尚处于早期阶段,Google DeepMind 议论在通用性和一致性方面连续校阅 Genie 的宇宙生成才调。
与 SIMA 雷同,其征询悉力于构建更通用的 AI 系统和 agent,使其大约默契和安全地实践各式任务,从而匡助在线和现实宇宙中的东谈主们。
Google DeepMind 还放了一些兴味兴味的"彩蛋":Genie 2 生成出一些奇怪视频,比如莫得给与行径的情况下一个幽灵出当今花坛,在雪场的东谈主物变装比拟滑雪更爱跑酷、一个魔法球把周遭炸成灰。
着手:Google DeepMind指挥学生