AI驱动，多形态“数字人”如何推动数字时代变革？

发布时间：2020-04-03 09:22:25 | 来源：中国网 | 作者：一鸣 | 责任编辑：张青

在2019年数博会上,《连线》杂志创始主编及畅销书《失控》的作者凯文·凯利发表了以“数字孪生,镜像世界”为主题的演讲,演讲中凯文·凯利描绘了对未来20年数字世界的想象:在未来的世界里,真实世界里的每个东西都会有一个芯片,整个世界都将被数字化,一切都将在虚拟数字世界里有一个复制品,像是现实世界的一面镜子。”

那么,在这样的数字世界,你也许只需一个数字替身或者虚拟数字人,通过它便能更深入看到和理解这个世界的全貌。

“虚拟数字人”的历史渊源

虚拟数字人,是存在于数字世界的“人”,通过动作捕捉、三维建模、语音合成等技术高度还原真实人类,再借助AR/MR/VR等终端呈现出来的立体“人”。我们在好莱坞科幻电影中看到的各种外星人,都是数字人技术的应用成果。

AI驱动，多形态“数字人”如何推动数字时代变革？

其实,“虚拟数字人”概念最早起源于1989年美国国立医学图书馆发起的“可视人计划”(Visible Human Project, YHP),2000年韩国开始了可视人研究的5年计划。当时“数字人”主要用于医疗领域,以VHP数据集为基础,全世界的科研工作者在图像处理、三维建模、可视化软件开发等很多领域取得重大成果。而在国内,2001年,以“中国数字化虚拟人体的科技问题”为主题的香山科学会议第174次学术讨论会首次提出了“数字化虚拟人体”的概念,所以“虚拟数字人”其实并不是一个新鲜的概念,随着5G万物互联时代的到来和深度学习和卷积神经网络(CNN)利用大量的视觉推动基于人工智能(AI)的计算机视觉迅速改进,虚拟数字人在人们的日常生活中有了更实际、广泛、深度的应用,例如影视动漫、数字营销、文化旅游、通讯会议、教育教学等领域,并逐渐打破现实世界和虚拟世界的边界。

AI驱动，多形态“数字人”如何推动数字时代变革？

(图片来源:世界地理杂志官网)

“虚拟数字人”的产生是有多方面原因,计算机视觉、深度学习和语义理解

方面的创新;3D成像传感器和硬件成本的降低;商业模式的转变和消费升级的趋势对生产力效率与成本提出了更高要求等,但根本原因还是信息成本的指数级降低,按照摩尔定律,每隔一年半到两年,信息处理效率翻一倍同时成本减半,这将推动了整个计算机视觉行业的发展,实现史上“虚拟数字人”能够比人类更好的完成任务。

根据全球调研机构MARKETS AND MARKETS估计,全球容积视频市场规模将从2020年的14亿美元增长到2025年的58亿美元,2020年至2025年的复合年均增长率为32.8%,推动这一市场增长的最重要因素是娱乐和AR/VR应用中对 3D内容日益增长的需求,同时随着 AR/VR HMD等内容交付设备的激增,届时“虚拟数字人”将在三维视频市场中发挥重要作用。

AI驱动，多形态“数字人”如何推动数字时代变革？

数据来源:《Volumetric Video Market by Volumetric Capture 》MARKETS AND MARKETS 2019

AI驱动,多形态“虚拟数字人”花样百出

目前,超写实“虚拟数字人”、仿真“虚拟数字人”、卡通“虚拟数字人”等多种形态的“虚拟数字人”花样百出。从技术角度出发,这些多形态“虚拟数字人”主要应用了动态三维重建、CG结合动作捕捉、仿真人体模型、卡通建模结合语音合成等AI技术。其背后,是机器学习新算法(深度学习)的出现、运算力的提升、数据量的上涨、计算机视觉“基础设施”的日益精进等,这些都为“虚拟数字人”提供了充分的“养料”。

基于动态三维重建的“虚拟数字人”

基于动态三维重建的超写实“虚拟数字人”,是根据光影驱动的实时动态重建方法,并引入了动态对象的骨架运动和体态先验,实现了深度相机的实时人体动态三维重建。这类型“虚拟数字人”突破了人体动态重建需要多相机从不同角度进行联合采集的前提假设,不仅实现了360度全视点重建人体模型,还可以同时获得动态人体的体态(胸围,腰围等)和三维骨架运动信息。事实上,国外企业Microsoft微软、4DViews、8i和国内企业叠境数字,在探索基于动态三维重建的“虚拟数字人”应用上投入了数年的专注研究和巨资,他们将其视为未来数字世界发展的关键。

4D Views

Raise Virtual to Reality

AI驱动，多形态“数字人”如何推动数字时代变革？

(图片来源:4D Views官网)

2017年4月份,4D Views推出了一款免费的应用4DViews: Raise Virtual to Reality,适用于Android和 iOS设备。4D Views通过动态三维捕捉系统,拍摄演员的动作,然后通过软件为虚拟环境生成逼真的全息图,然后把虚拟人物放进真实世界,打造接近真实人类的体验。因为 4DViews捕捉的不止是人的表情或身体模型,而是整个环境,光和阴影都存在,所以称作 4D。法国 ARTE电视台制作的纪录片《罗马的命运》中用到了 4DViews的系统,里面涉及到古罗马时代的军队,士兵数量庞大。

Microsoft微软

Mixed Reality Capture Studios

AI驱动，多形态“数字人”如何推动数字时代变革？

(图片来源:Microsoft官网)

2017年10月,Microsoft微软开设了旧金山混合现实捕捉工作室及混合现实学院,帮助开发者进一步学习和创作混合现实内容。在微软混合现实捕捉工作室中,采用了两种不同类型的摄影机实现360度记录真人的动作、表演,甚至包括手部细节和面部表情。内容录制后,客户能够在增强现实(AR)、虚拟现实(VR)、以及 2D屏幕环境下,与之进行全息交互。目前,该技术主要是为娱乐创造内容,但教育和培训也是一个日益庞大的市场。

叠境数字

高精度重建虚拟数字人

AI驱动，多形态“数字人”如何推动数字时代变革？

(图片来源:叠境数字官网)

2019年8月,叠境数字在世界人工智能大会上推出了实时的动态人物三维重建技术,实现了上百个深度相机进行动态人物的360度实时重建系统。不同于CG结合动作捕捉生成三维模型,该系统提供了双目视差、移动视差、选择性聚焦三方面的视觉信息,让传统的二维平面图像提升到了四维光场图像,再利用AI算法驱动表情动作、基于深度学习的光线追踪算法等,快速生成一个超高精度的虚拟数字人。该公司表示,实际上早在2016年,就已经开始了动态人物三维重建的研发和应用,而其中最核心的技术是实时渲染算法,通过特殊的光场渲染技术,实现了细微表情、毛孔斑点、服装材质等细节的超高精度还原。基于这项技术,2020年初叠境与中国移动、中国联通、芒果TV合作了5G AR明星互动应用。

GoogleRelightables系统

AI驱动，多形态“数字人”如何推动数字时代变革？

(图片来源:Google官网)

随着市场对AR三维视频的需求开始逐渐增长,2019年11月,谷歌在ACM SIGGRAPH亚洲展览会上展示了一种包含330可编程LED灯泡和约100个摄像头的球形设施Relightables系统。谷歌Relightables系统可完美还原人物周围的光影效果,使得合成的影像看起来更加逼真。该系统的核心是不仅能捕捉人身上的反射信息,还能记录人在 3D环境中自由移动时的信息,因此,该系统能在任意环境中产生高分辨率、照明独立、可调光源的动态人体3D模型,可用于游戏、电影等应用场景。

基于CG结合动作捕捉的“虚拟数字人”

腾讯数字虚拟人Siren

动作捕捉+实时渲染

AI驱动，多形态“数字人”如何推动数字时代变革？

(图片来源:腾讯官网)

2018年5月,腾讯公布了一个名为“Siren”的研究项目,这是由腾讯、Epic Games、Cubic Motion和3Lateral企业合作打造的一个虚拟人物。操作者需要将一套特制的设备戴在头上,这一设备会实时跟踪200多个面部特征点,再把这些特征点实时反映到系统构造的3D脸部模型上,最终呈现为以每秒60帧输出的动作表情。

根据腾讯官方介绍,Siren的所有动作表情都由实时捕捉以及实时渲染形成,其中实时动作捕捉,被分成两部分。一部分是动作捕捉,一部分是表情捕捉,分别采用了Epic Games公司的虚幻4引擎,Vicon动作捕捉技术和3Lateral的面部实时解算技术。

数字王国虚拟替身DigiDoug

可实时操控的虚拟人

AI驱动，多形态“数字人”如何推动数字时代变革？

(图片来源:数字王国官网)

在TED2019上,数字王国通过借助NVIDIA RTX和Epic Games开发的游戏引擎虚拟引擎,实现了表情和动作的实时捕捉,从而打造逼真的虚拟人DigiDoug。DigiDoug是数字王国基于Doug Roble(数字王国软件研发部门负责人)构建的虚拟形象,它采用了惯性运动捕捉套装,同时搭配支持轻量单一摄像头的面部动画系统。围绕DigiDoug,数字王国将机器学习融入创作流程中,与此同时,采集了几千张Doug Roble不同角度和光线条件下的面部图像,用来获取尽可能多的数据,随后运算出所需信息,这些信息让DigiDoug像真人一样行动。

基于卡通建模结合语音合成的“虚拟数字人”

超级AI虚拟主播绊爱

AI驱动，多形态“数字人”如何推动数字时代变革？

(图片来源:youtube)

2016年底,youtube出现了一个自称是“超级AI”的虚拟主播,名字叫绊爱 (kizuna ai)。绊爱的角色形象由森仓圆设计,利用MikuMikuDance进行三维模型设计,3D模型由Tda制作。绊爱其实与普通的Youtuber一模一样,上传唱歌、脱口秀等视频,也会直播打游戏与粉丝实时互动,粉丝送爱称“人工智障”。她的背后是一整支团队在运作,用演员的动作表情捕捉,以及声优同步配音塑造出一个鲜活的二次元少女形象。

随着技术的成熟,现在不少“虚拟主播”已经可以完全映射真人演员:通过完善的肢体动作、面部表情捕捉设备与精致的3D建模进行实时输出。而AR与全息投影技术则让观众与“虚拟主播”之间的距离更近了一步。

虚拟数字人最终将走向人性化

在科幻电影中,我们经常看到,在不远的未来,人类和各种形式的“虚拟数字人”

共存,并作为人类出色的帮手。其中,避免不了有人担忧“虚拟数字人”是否会发展成让人恐惧的智能生物?在不可预知的环境中伤害人类?2019年3月4日,联合国教科文组织召开了一次关于制定围绕人工智能的核心原则的会议,重点讨论采用更人性化的人工智能方法,并考虑应该允许机器为社会做出什么样的决定,包括将什么价值观和优先权写入机器的算法。

5G时代,人机共存的序幕才刚刚拉开“虚拟数字人”的出现,而这只是第三产业智能化趋势的一个缩影,随着我国产业转型升级的脚步逐渐加速,将会有各种形态的虚拟数字人出现在各行各业。

无论是哪种形态的“虚拟数字人”,将来一定会在多个场景下大放光彩,并用AI传递爱,比如韩国MBC电视台利用诺亦腾Hi5动作捕捉手套,打造了一场超越生死界限的感人重逢,让一个失去女儿的母亲与女儿重新“见面”,未来“虚拟数字人”将给人类更多的创作空间,进一步解放人类的双手,让生活更有AI。（一鸣）