随着时代的发展,不知不觉,自虚拟偶像的诞生到发展,已经渐渐熬过了四个年头,当然本人不会对虚拟偶像收益多少做经济性的评价。
而Vtuber是英文Virtual Youtuber的缩写,目前特指虚拟偶像的一种,衍生分化有Vgamer、Vliver、Vup等等……Vtuber的活动平台主要以youtube、niconico、BiliBili、showroom为主,创作内容和形式多样,直播录播都有,投稿题材涉及广,游戏实况、翻唱、翻跳、杂谈、访谈。asmr……简单的来说,其实理解成“虚拟主播”也算是是没有问题。
而打造一个虚拟偶像从而完全制作一个漂亮的3D模型是昂贵的,因为它需要多种类型的人才:一个厉害的人物形态设计师是必须的,一个高度熟练的3D建模人员也需要。
一个人同时拥有这两种技能是很罕见的,更不用说创造一个普通的版面图画角色对于没有艺术技能的人来说是不可能的。
当然,你可以在这个问题上砸钱,但是一个简单的谷歌搜索显示,佣金的要价大约是50万日元(约5000美元/35475今日汇率人民币---3月22日)。
不过输入一张图,就能让二次元老婆动起来,对于我来说却是一种不可言喻的新奇感。
偶然想做一篇这种文章,请教了业内虚拟主播模型开发者,也问了hol的内部员工,借鉴了朋友的文章(已获得其转载权,可提供证据)。
在这里,我想先把虚拟主播的技术构成分享给大家,而下一章我会讲解怎样才能成为虚拟主播。
首先,打造一个虚拟主播,把祂从幻想之中添加进一点现实是必要的。
所以打造虚拟偶像的第一步则是画师或者设计人完成的————制作静态图。
这个不用说大家都可以明白,我们就不在这花字数解说。
静态图制作完后为了让祂动起来,则需要把这一张静态图打造成一个模型。
一种方法是做3D模型,有些虚拟偶像的确是这样直接诞生的。只是比较贵,我也在上文说到了。如果是没有艺术技能的普通人类,就更做不到了。
另一种是做2D模型,成本比较低,这种方法制造的VTuber更常见。2D人物的动作也会简单一些。
当然2D模型更容易获得。但即便这样,2D模型还是分成几个可动的部分,建模师要把这些部分的动作整合到一起,依然是非常耗时。
模型技术其实不算是特别难的,这里本人会在下一章讲解如何成为虚拟主播中提到,我们现在要讲解的是成为一般级虚拟偶像所需要的技术方案,主要包括以下几个部分:
1.动作捕捉
根据实现的原理,动作捕捉方案可分为光学以及惯性两类。光学动捕需要在场地安置多台摄像机,这些摄像机同时对演员身上佩戴的光学标记进行识别,从而得到演员的位置以及动作信息。惯性方案则是通过演员各关节佩戴的惯性传感器得到骨骼的旋转信息。
光学方案的优势在于精确度高,同时支持的人数多,而且可以取得绝对位置,便于演员之间、或者演员与物体之间的交互。而由于需要大量摄像机,所以初期成本略高、运营成本都很高,对使用人员的要求也更专业。
另外惯性方案的优势在于其设备成本低略低,使用起来方便,对场地也没有特别要求,光学方案中可能出现的遮挡问题也能从原理上避免。
另一方面,惯性方案由于无法取得各传感器的绝对位置,要实现诸如握手这样的多演员交互比较麻烦,而且因为惯性传感器会累计误差,随着使用时间增长,可能逐渐产生位置偏移,所以不得不经常校准(这个也是一些2D模型卡崩的原因)。
不过因为光学和惯性方案的优劣都很明显,所以现在已经出现兼具光学和惯性优点的混合型动捕方案,比如诺亦腾推出的 Perception Neuron Studio。其在惯性动捕的基础上增加摄像头进行绝对位置定位,帮助减少因为误差积累形成的偏移,效果非常可期。其他惯性厂商,也有其类似方案。
2.手势控制
手势控制主要有以下三种方法。
(1)动捕方案自带的手势捕捉。
(2)独立的手势捕捉方案。
(3)在预设手势进行中选择。
在一些动捕方案有自带的手势捕捉。
XSens MVN,Perception Neuron 等惯性方案现在都可增配手势捕捉。如果动捕选择的是惯性方案,那么选择这些自带系统也是自然的延申。
还有独立的手势捕捉方案
这个领域选择很多,既有老牌的,也有前几年跟随 VR 热潮起来的,下面罗列几种。
Manus VR
StretchSense
IGS Cobra Glove
他们的共同特点是都不便宜,不适合刚刚起步没有多少资本支持的虚拟偶像。
而在预设手势中选择有以下几种。
除了上述两种依靠捕捉来控制手势的方法外,另一种常见的方法是通过控制器在预设的手势中选择。选用这种方案,面临的最主要考量是,控制器是由演员使用还是另外配备人员控制。
如果是由演员实时控制,控制器就不能太复杂,相应的预设手势数量比较有限,如果专门配置人员使用,控制器的选择比较丰富,从键盘到游戏手柄到专门的外设都行,预设的手势数量也可以变多些。
3.表情捕捉。
表情捕捉可算是虚拟偶像方案中除动作捕捉之外的另一个重要组成部分,现在主要方案有以下三种。
图像识别——
这是是传统的影视制作的表情解决方案。通过摄像头捕捉演员的面部表情,经由解析软件得到表情信息后,然后应用到虚拟形象上。
这种方法的优点在于解析精度高,当然解析软件都不便宜。常用的包括以下这些:
Faceware
DynamiXYZ
iPhoneX 深度摄像头识别——
这个方案发源于 2018 年,主要通过 iPhoneX 的深度摄像头识别人脸的表情信息,再转换为由苹果事先约定的 51 种微表情并进行组合,从而形成虚拟形象的表情。该方案优势在于解析软件的门槛很低,并且Unreal Engine 和 Unity 都已经开源了实现方法,非常容易移植到自己的模型上。
与预设表情中进行选择——
这种方法可以通过控制器在预设的表情中选择。很适合表情不需要特别真实的二次元形象,而且还能用于星星眼之类无法通过人脸识别得到的夸张表情,当然主要的问题也是由谁操控。
4.口型同步——
口型同步的主要方案有如下几种。
图像识别
和表情识别一样,也是通过一般摄像头获得脸部图像后,由解析软件得到嘴型信息,并且应用到虚拟形象上。和表情捕捉不同的是,因为只需要得到嘴部轮廓,解析软件早已普及。
iPhoneX 深度摄像头识别
iPhoneX 的深度摄像头也能识别口型,所以如果表情识别使用的是 iPhoneX,那么其实也顺带完成了口型同步。
声量识别
声量的大小来控制嘴巴张开的大小,一般分大中小三种。实现简单,虽然听上去有些简陋,但用在二次元形象上还恰到好处,极大部分软件都自带的功能,这里不多描述。
音素识别
这种方法通过语音识别,判断当前所发的是什么音,进而选取与该语音匹配的口型,这也是传统意义上的口型同步。现在比较常用的库是 OVRLipSync。
而一般汉语的日常对话,我们只需处理 A O E I U 这样的元音即可。