主页 > 快资讯 > 科技说 > 正文

科大讯飞虚拟技术再突破：让A.I.虚拟人帮你更有爱拜年

2021-02-12 12:47:26来源：光明编辑：时寒峰

扫一扫

分享文章到微信

扫一扫

关注鹿财经网微信公众号

复制网址

　　原标题：科大讯飞虚拟技术再突破：让A.I.虚拟人帮你更有爱拜年

　　当科技遇上新年，会有怎样的火花？

　　近日，科大讯飞最新上线了A.I.虚拟人爱加帮你送新春祝福的H5《你用A.I.拜年了吗？》，把最暖心的新春祝福通过爱加声情并茂地送到家人朋友眼前，让你今年的拜年更酷炫。和以往的虚拟人不一样的是，爱加的形象更加活泼可爱，行动也更灵活，还熟悉更多种语言和方言，能给天南海北的朋友传达更亲切的拜年祝福。（在微信公众号“科大讯飞”后台回复“爱加”即刻体验，还有机会获得千元惊喜A.I.礼物）

　　百节年为首，回家过年是每个在外打拼的人一年中最大的期盼。然而，今年情况特殊，很多地方都倡议“原地过年”。通过爱加传达你的新春祝福，让今年的“屏”上拜年将更具科技感和真实感。

　　个性化科技拜年，这个虚拟人更逼真

　　集成语音合成、语义理解、机器翻译、人脸建模、口唇预测、图像生成等多项人工智能技术不断发展，使得A.I.虚拟人能根据文本语义做出相对应的面部表情及肢体动作，并逐渐走入寻常生活中。对于虚拟人，很多人并不陌生，2001年，英国 PA New Media公司推出了世界上第一个虚拟主持人“阿娜诺娃”，三年后央视推出了国内首位虚拟电视节目主持人“小龙”，都是虚拟人的应用案例。

　　相比于爱加来说，此前科大讯飞推出的A.I.虚拟主播小晴表情动作相对比较单一，使用场景很受限制。而当前推出的虚拟人爱加在风格上更多样，在声音、肢体动作乃至于微表情的表达上更丰富，使用虚拟人爱加来帮你送上拜年祝福视频，让接收者更能真切感受到浓浓的新春祝福。另外，特别关注到的一点，这次的爱加拜年活动视频，除了爱加本身形象更多样表达更灵动，还创新性的引入了语义理解技术根据文本实现背景、音效等更多丰富视频元素的自动搭配，引领了AI驱动多模态视频合成方向，这一突破，也意味着A.I.虚拟人技术有望实现更加多元的拓展应用，各行业大范围应用虚拟形象交互的时代，或许不远将至。

　　攻克合成技术壁垒，拜年虚拟人体现“人性化”

　　人工智能不断进步，A.I.早已不再是冷冰冰的科技，而是演变成为能帮助人类享受智慧生活、守护情感世界的好帮手。虚拟人的应用前景可期，但由于技术限制，其肢体动作、语言、情感表达效果还不能满足人们期待。

　　那么科大讯飞是如何攻克合成难点，让其A.I.虚拟人有更高的触达率？

　　首先，拓展A.I.虚拟人的“本事”，让其“能说会道”“能歌善舞”。在科大讯飞A.I.虚拟人已有的多语种、多方言合成能力之外，科大讯飞提出了基于歌唱音准的无监督歌唱标注方法，将发音和音准分离，利用神经网络分层级预测，结合高精度神经网络声码器合成高品质歌曲，同时提出姿态自适应的表情合成技术，解决了舞动状态面部姿态大角度以及多角度快速切换场景下的唇形合成难题，在使得虚拟人在精通各种语言的同时，还能倾情演唱。

　　其次，增强虚拟人的“人性化”。为了给虚拟人注入情感，使其在互动表达中更有人情味，科大讯飞结合认知心理学理论对虚拟人进行交互情感设计，利用无监督表征学习方法，分离并获取语音中的情感表征。同时，利用海量文本无监督语义模型对各类文本进行情感分类预测，实现人性化的端到端情感合成系统，让虚拟人“活泼”起来。

　　最后，提升虚拟人的“表现力”。为使拜年视频更具个性化，科大讯飞提出结合场景的背景音乐、音效叠加方案。通过对常用场景分类分析，构建丰富多元的背景音乐、音效资源库，结合具体应用场景，进行背景音乐、音效的预测、叠加，从而实现高表现力的虚拟形象合成，用户能定制理想状态中的拜年场景，让A.I.拜年场景更加生动多元。

　　值得一提的是，基于科大讯飞提出的海量说话人的音视频数据预训练技术，虚拟人爱加能够做到基于少量数据就完成快速的建模，满足多种场景多种风格形象的快速定制，同时，当前虚拟人实时合成的速度以及并发一直是业界的痛点，科大讯飞本次的虚拟人拜年活动支持了高并发在线高质量视频生成，从而大幅提升虚拟人视频制作的效率。用户只需要等待几秒钟就可以完成一个A.I.虚拟人合成视频，有效突破了A.I.虚拟人因为并发路数有限而不能大规模推广的难题，同时也展现出A.I.虚拟人从toB向toC推广应用的可能。

　　可以预见，虚拟人爱加只是一个科大讯飞在虚拟人技术突破的一个新起点，它的出现为下一步A.I.虚拟人的大范围、规模化应用奠定了坚实基础。

投稿邮箱：lukejiwang@163.com 详情访问鹿财经网：http://www.lucaijing.com.cn