二人转,仅用话音,AI 就能“脑补”你的脸! | 工艺企鹅号,沈阳

二人转,仅用话音,AI 就能“脑补”你的脸! | 工艺企鹅号,沈阳

作者 | Wav2pix 研讨团队

【导语】之前咱们为咱们介绍过一项十分酸爽的徐佳宁个人资料年纪研讨“Talking Face Generat二人转,仅用话音,AI 就能“脑补”你的脸! | 工艺企鹅号,沈阳ion”:给定音频或视频后(输入),能够让恣意一个人的面部特征与输入的音视频信息坚持一致,也便是说出输入的这段话。其时就想到了“杨逾越的声响+高晓松的脸二人转,仅用话音,AI 就能“脑补”你的脸! | 工艺企鹅号,沈阳”这样的神仙调配。不过,近期一项新研讨再度抓到了笔者的眼睛!在最新的研讨中,研讨者仅需求音频信息就生成了人脸.忐忑.. ...如此鬼畜的操作,此乃头一次见啊!接下来就为咱们介绍一下这项作业!

音频和图画是人类最常用的两种信号传输形式,图画传达的信息十分直观,而语音包含的信息其实比咱们幻想的要更丰厚,包含说话人的身份,性别和心情状况等等。从这两个信号中提取的特征一般是高度相关的,能够让人仅倾听声响就能够幻想他的视觉外观。WAV2PIX 的作业便是仅运用语音输入,来生成说话者的人脸图画。其实这便是一个跨模态的视觉生成使命。

谈到这项研讨的奉献,首要有三点:

论文收集了大V用户(Youtubers)上传到 Youtube 的讲演视频,这些视频一般具有高质量的说话环境、表达方法、人脸特征等。Youtubers 数据集首要由两部分组成:一个是主动生成的数据集和一个手动处理后的高质量的子集。

首要的预处理作业:

办法介绍

研讨首要由三个模块构成:一个是steal语音编码器,一个是图片生成网络,一个是图片判别网络。

语音编码器(Spee超级无敌唱衰你ch Enco小本创业der):已有的办法大多数是手艺提取音频特征,并不是针对生成网络的使命进行优化的,而 SE二人转,仅用话音,AI 就能“脑补”你的脸! | 工艺企鹅号,沈阳GAN 提出了一种在波形上用于语音处理的办法。因而作者在已有的作业 SEGAN 上进行修正。修正为具有 6 层一维网络,而且每层的 kernel 巨细是 15x15,步长为 4,然后每层卷积网络后边运用 LeakyReLU 激活函数,网络的输入通道是 1。输入 16kHZ 下1 秒的语有妖气寒舞自己相片音片段,上述的卷积网络能够得到一个 4x1024 的张量,然后选用三个全衔接网络将特征数量从 4x1024 降到 128。作为生成器网络的输香港三级伦理入。

图片生成器(Image Generator Network):输入是语音编码器的 128 向量。选用二维转置卷积、涉传672插值、dropout 等方法将输入转为 64x64x3 或许 128x128x3 的张量。在 G 的丢失函数中添加了一个辅佐丢失用于坚持说话人的标签(Identity)。

图片判别器(Image Discriminator Network):判别器由几层步长为 2,kernel 巨细是 4x4 的卷积网络组成,并运用谱归一化和 LeakyReLU 激活函数。当张量为 4x4 时,作者拼接参苓白术丸了语音的输入,并选用最终一层网络来核算 D 网络的分数。

试验进程

练习:将手动处理后的数据集作为练习集,选用数据增强等手动。值得注意的是,在处郢理时将每张图画仿制了 5 次,并将其与 4 秒音频里边随机采样的 5 心脏早搏是怎么回事个不同的1秒新闻大求真音频块进行匹配。因而总共有 24K 左右的图兰州烟价格表和图片像-音频对用于模型练习。其它超参数选用参阅的文献设置。

评价:下图给寂静岭2出了可视化的成果,尽管生成的图画都比较含糊,但根本能够观察到人的面部特征,而且有不同的面部表情。

作者进一步微调了一个预练习的 VGG-FACE Deor 网络,用于量化测验成果,欧元对人民币在作者供给的数据集上,能够到达 76.81% 的语音辨认准确率和 5三泰控股0.08% 的生成图画准确率。

为了评价模型生成图画的实在程度,作者界说了一个 68 个人脸要害点的精度检测分数。如下图所示,测验成果精度能够到达 90.25%。标明在大多数情况下生成的图画保留了根本的面部特征。

感兴趣的小伙伴们能够下载阅览研讨一下~

免责声明:本文系网络转载,版权归原作者一切。如触及作品版权问题,请与咱们联络,咱们将根据您供给的版权证乙肝两对半对照标明资料承认版权并付出稿费或许删去内容。

超市
声明:该攀登者文观念仅代表二人转,仅用话音,AI 就能“脑补”你的脸! | 工艺企鹅号,沈阳作者自己,搜狐号系信息发布渠道,搜狐仅供给二人转,仅用话音,AI 就能“脑补”你的脸! | 工艺企鹅号,沈阳信息存储空间效劳。

评论(0)