当前位置: 首页 > 新闻及公告 > 学术专题

学术专题

深度学习加速二维图片重建三维场景--高性能计算部 陈远磊

2018-11-23

三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中建立表达客观世界的虚拟现实的关键技术。因三维重建技术可以广泛应用于数字城市与古建筑数字化保护、VR&AR游戏电影、医疗教育等行业,三维重建技术近年来一直是计算机图形学和计算机视觉领域的一个热点课题。

生活在三维空间里的我们,需要的不仅仅是物体识别,而是识别后的感知与交互。例如,当我们第一次进入房间时,我们可以立即识别它包含的物体以及它们的位置,即使我们无法看到房间里的所有东西,我们也可以勾勒出它的布局,或者从另一个角度想象它的样子。传统的三维重建主要是依靠昂贵的三维扫描设备,并且需要被扫描的目标保持一段时间的稳定,通过对物体的全方位拍摄大量图像,使用相关的计算机图形学和视觉技术,重建出该物体的三维模型,这可是个耗时耗力又耗钱的活。深度学习的出现为该项工作提供了一个新的途径,但是目前主要的计算机视觉平台基本上是基于大量人工标注的数据库进行训练的,而人工标注数据集仍然是个耗时耗力的事情。

DeepMind公司近期介绍了一个新的深度学习框架——生成查询网络(GQN),只用几张二维照片,就能重建全部的三维场景。就像婴儿和动物一样,GQN通过移动观察周围环境获取数据来学习,无需对场景进行人工标注,便能掌握场景空间的大致结构。

GQN模型由两部分组成:表示网络和生成网络。表示网络将代理的观察作为其输入,并产生描述基础场景的向量表示。然后,生成网络从先前未观察到的视角对场景进行预测。

DeepMind研究人员在程序生成的虚拟3D环境中对GQN做了多次试验,包括多种不同物体,被摆放在不同的位置,并且形状、颜色、材质都不相同,同时还改变了光线方向和遮挡程度。在对这些环境进行训练后,他们基于GQN表示网络来构建新的、未曾观察到的场景表示。

1GQN整体示意图

通过实验,DeepMind研究人员发现:(1)给定一个场景表示和新的相机角度,GQN网络不需要任何先前信息就能生成精确的图像,可以近似看成是从数据中学习的渲染器;(2GQN的表示网络无需任何标注,便可以对学习对象进行计数、定位和分类。就算在小型表示上,GQN也能在具体视角上做出非常精准的预测,和现实几乎一模一样;(3GQN的表示支持稳定、数据充分的强化学习。给定GQN表示后,目前顶尖的深度强化学习智能体就开始学习以数据有效的方式完成任务,如图2所示。

2GQN网络学习对比图

DeepMindGQN网络实现了一种全新的学习现实场景的简单方法。重要的是,这种方法不需要对具体场景建模,或者花大量时间对内容标注,一个模型就能应用多个场景。它还学习了一种强大的神经渲染器,能够在任意角度生成精确的场景图像,为实现全自动场景识别和三维场景重建提供有利途径。