科技日报记者 吴长锋
想足不出户游览祖国大好河山?与表情丰富、情感细腻的虚拟人对话,无需穿戴设备就能开启一场身临其境的沉浸式“云旅游”。
这个AI能力“硬核”的虚拟导游,集成了“讯飞超脑2030计划” 的多模感知、多维表达、深度理解等多项前沿技术,让真人和虚拟人可以非常自然地“穿越”不同场景对话,给人机交互带来全新的沉浸式体验。
11月18日,2022科大讯飞全球1024开发者节正式启幕,在发布会上,科大讯飞AI研究院副院长高建清以“AI新纪元,讯飞超脑2030”为主题,详解“讯飞超脑2030计划”阶段性技术突破,一大波“预演未来”的创新应用将走入生活。
2022年科大讯飞正式发布“讯飞超脑2030计划”,要让人工智能“懂知识、善学习、能进化”,让机器人走进每一个家庭,让机器远不止具备“你问我答”的基础智能,还拥有更强的交互、运动能力,以解决未来社会重大刚需命题。
高建清表示,实施“讯飞超脑2030计划”,要突破人工智能共性基础算法,攻克多模态感知、多维表达、认知智能、运动智能等核心技术,也要研究软硬一体的机器人关键技术。此外,要探索虚拟人交互、机器人等方面的示范应用。
“AI超脑”更懂知识
“支撑‘讯飞超脑2030计划’的发展,有两个关键算法亟待突破,无监督学习和知识推理。”高建清说,前者要实现实用化、场景化的预训练技术,后者要构建基于知识检索、决策以及融合的推理系统。
科大讯飞设计了基于无监督学习的预训练框架,并创新使用了少量有监督数据进行优化,大幅提升训练效率。高建清说,“预训练模型支持语音识别、声纹识别、情感识别、多模态语音识别等多个任务,参数量远远少于业界公开的模型,但效果却达到了业界最优。”
以回答“面包在低温下会马上发霉吗”为例,机器要理解“低温变质慢”等常识,在引入海量知识的基础上,要用预训练模型进行知识重要性排序,也要融合知识与问题进行推理,才能与人畅聊“面包变质的二三事”。
科大讯飞还探索将神经网络与符号推理相结合,实现了推理过程的可解释性。应用于小学平面几何题上,这个推理系统让AI答题的正确率从完全不可用,提升到了90%的水平,显著优于传统推理系统。
“唇形+语音”多模态感知
环境太吵、人声太多,语音交互怎么办?在“讯飞超脑2030计划”中,“唇形+语音”的多模态语音增强技术,唤醒智能语音交互新模式。
“机器想更自然地与人类进行交互,需要通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息,AI感知方式必然要从单模态发展到多模态,逐步拟人化。”高建清表示。
一个典型的场景是,当你在嘈杂的环境中通话,旁边其他人也在说话,搭载了多模感知技术的应用系统只“听”到你的声音,不受旁边嘈杂音干扰,从而非常顺利地完成沟通。“这一方案,从用户主观理解度层面有了极大改善,是真正站在用户体验的角度优化系统的一种方法”,高建清表示,这个算法主要解决“语音识别准确率高,但用户体验不好”的现实问题。
虚拟人有温度有个性
如何让机器的声音媲美人类?高建清分享了科大讯飞在语音合成技术领域的新突破——多风格多情感合成系统SMART-TTS,语音合成从简单的信息播报“变身”具备喜怒哀乐情感的语音助手。
高建清介绍,SMART-TTS系统可提供“高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺”等11种情感,每种情感有20档强弱度不同的调节能力;也能提供声音的创造能力,如停顿、重音、语速等,可以根据自己喜好调节,真正实现了合成系统媲美具备个性化特点的真人表达能力。
当你漫步林荫路,TA可以用字正腔圆的“播音腔”为你读新闻;当你结束一天工作准备入睡,TA可以轻声细语读为你散文;当你驱车去公司上班,TA可以用你最喜欢的歌手声音告诉你走哪条路不堵车;当你和家人一起观看纪录片,TA可以为纪录片不同人物配音,人机交互表达自然、情感饱满。
目前,讯飞有声APP和讯飞开放平台都开放了SMART-TTS语音合成系统,开发者可以在讯飞有声直接下载体验,或在开放平台进行调用。高建清透露,讯飞开放平台将开放500个虚拟合成的声音。
用AI解决社会刚需命题
基于多模态交互,以及医疗认知技术, 讯飞研发了一套抑郁症定量筛查系统。“可模拟心理医生的问诊思路进行交互设计,用户通过与机器聊天的方式即可初步实现病情的定量评估,筛查效果达到91.2%。”
据悉,这一系统已经在北京安定医院等医疗机构进行了试点应用。“未来,基于定量筛查基础能力,我们将研发抑郁症筛查平台,向更多的学校推广,助力青少年的心理成长。”高建清表示。
作为“讯飞超脑2030计划”的阶段性成果,今年讯飞打造了多款专业虚拟人,分别用于客服、助理、招聘、财务、法务等行业的工作,目前已为金融、电信、媒体等多行业提供专业虚拟人解决方案,为“数字经济”服务。
(科大讯飞供图)