苹果开辟出“AI 设备师”GAUDI,可凭据文本生成超真切 3D 场景

现在,每隔一段时间就有新的文本生成图像模子释出,个个结果都非常壮大,每每惊艳世人,这个平台曾经是卷上天了。

不过,像 OpenAI 的 DALL-E 2 或谷歌 的 Imagen 等 AI 体系,都只能生成二维图像,若笔墨也能造成三维场景,那带来视觉体验势必更加晋升。

当今,来自苹果的 AI 团队推出了 3D 场景生成的非常新神经架构 —— GAUDI。

苹果开发「AI 设备师」GAUDI:凭据文本生成超真切 3D 场景!

它可以捕获复杂和真切的 3D 场景漫衍,从挪动录像机中举行沉醉式渲染,还能凭据文本提醒来建立 3D 场景!该模子以 Antoni Gaudi 定名,他是西班牙闻名的设备巨匠 。

苹果开发「AI 设备师」GAUDI:凭据文本生成超真切 3D 场景!

苹果开发「AI 设备师」GAUDI:凭据文本生成超真切 3D 场景!

论文地点:

基于 NeRFs 的 3D 渲染

神经渲染(nerual rendering)将计算机图形学与人工智能连结起来,曾经发生了非常多从 2D 图像生成 3D 模子的体系。好比非常近 Nvidia 开发的 3D MoMa 可以在一个小时内从不到 100 张的照片中建立出 3D 模子。谷歌也寄托神经辐射场(NeRFs )在谷歌舆图中将 2D 卫星和街景图像组合成 3D 场景,实现了沉醉式视图。谷歌的 HumanNeRF 还可以从视频中渲染出 3D 人体。

当前,NeRFs 要紧或是用作 3D 模子和 3D 场景的一种神经存储介质,可以从差别的相机视角举行渲染。NeRFs 也曾经首先被用于虚拟现实体验。

辣么,NeRFs 这种从差别录像机角度真切地渲染图像的壮大才气,能不可以用于生成式 AI 呢?固然可以,曾经有研究团队测试了 3D 场景的生成,如谷歌在昨年初次推出了 AI 体系 Dream Fields,它将 NeRF 生成 3D 视图的才气与 OpenAI 的 CLIP 评估图像内容的才气相连结,非常终实现了能够生成般配文本形貌的 NeRF。

谷歌 Dream Fields

▲谷歌 Dream Fields

不过,谷歌的 Dream Fields 只能生成针对单个工具的 3D 视图,要将它扩大到彻底不受限制的 3D 场景还存在非常多难题。非常大的难点就在于录像机的地位有非常大的限制,关于单个工具,每个可能的、合理的录像机地位都可以映射到一个圆顶,但在 3D 场景中,录像机的地位会受到工具和墙壁等停滞物的限制。若在场景生成时不思量这些成分,那就非常难生成 3D 场景。

3D 渲染专家 GAUDI

关于上述录像机地位受限的疑问,苹果的 GAUDI 模子拿出了三个特地的网页来放松搞定:

GAUDI 有一个相机姿态解码器,它将录像机姿态与场景的 3D 几多和表面分开开来,可以展望录像机的可能地位,并确保输出是 3D 场景架构的有用地位。

解码器模子架构

▲解码器模子架构

针对场景的场景解码器则可以展望三维平面的显露,这种显露是一种 3D 画布。

而后,辐射场解码器会在这块画布上应用体积渲染方程来绘制后续的图像。

GAUDI 的 3D 生成包含两个阶段:

一是潜伏和网页参数的优化:借鉴对数千条轨迹的 3D 辐射场和响应相机姿态举行编码的潜伏显露。与针对单个工具差别,有用相机姿态跟着场景的变更而差别,因此需求对每个场景有用的相机姿态举行编码。

二是应用分散模子在潜伏显露上借鉴生成模子,从而能够在有前提和无前提的推理使命中都能非常好地建模。前者是凭据文本或图像提醒来生成 3D 场景,后者则是凭据录像机轨迹来生成 3D 场景。

苹果开发「AI 设备师」GAUDI:凭据文本生成超真切 3D 场景!

通过 3D 室内场景,GAUDI 可以生成新的录像机行动。如在下面少许示例中,文本形貌包含相关场景和导航线径的消息。这里研究团队接纳了事先练习的基于 RoBERTa 的文本编码器,并应用此中间显露来调节分散模子,生成结果以下:

▼文本提醒:走进厨房

文本提醒:走进厨房

▼文本提醒:上楼

文本提醒:上楼

▼文本提醒:穿过走廊

文本提醒:穿过走廊

另外,应用预练习的 ResNet-18 作为图像编码器,GAUDI 能够对从随机视点调查给定图像的辐射场举行采样,从而从图像提醒中建立 3D 场景。

▼图像提醒

苹果开发「AI 设备师」GAUDI:凭据文本生成超真切 3D 场景!

▼生成 3D 场景

生成 3D 场景

▼图像提醒

图像提醒

▼生成 3D 场景

生成 3D 场景

研究人员在四个差别的数据集(包含室内扫描数据集 ARKitScences)长举行了试验,后果评释,GAUDI 可以重建借鉴视图,并且可以与现有技巧的品质相般配。即便是在为数千个室内场景制作具备数十万张图像的 3D 场景的巨大使命中,GAUDI 也不会出现模式溃散或偏向疑问。

GAUDI 的出现不但会对非常多计算机视觉使命上发生影响,并且其 3D 场景的生成才气也将有益于基于模子的强化借鉴和规划、SLAM 以及 3D 内容的制作等研究平台。

就当前来看,GAUDI 生成的视频品质还不算高,可以看出有非常多伪影。不过,这个体系大概可以为苹果正在举行的渲染 3D 工具和场景的 AI 体系,这是一个好的首先和底子,听说 GAUDI 还将被应用到苹果的 XR 耳机中,用于生成数字化地位。可以等候一下~

参考链接:

https://medium.com/mlearning-ai/how-to-generate-3d-scenes-from-text-descriptions-2345bfb321

https://mixed-news.com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/

您可能还会对下面的文章感兴趣: