杭州的马塍路,2022年夏天开了两家特殊的店铺,一家熟客靠小纸条、打字沟通的理发店,一家没有“欢迎光临”问候声的面包店。这两个靠听障者经营的店铺格外安静,但生意却火热,街道也因此得到了“无声街道”的称呼。

隔了一年的夏天,AIGC技术开始席卷国内外的商业世界,互联网公司纷纷投入到新一轮的技术浪潮中。AI技术的风也吹到了这条街道。

今年45岁的听障理发师沈师傅难得地拨通了自己母亲的电话,通过用自己的音色合成的话,说出了自己对妈妈表示感谢的“人生第一句”。店里的熟客也终于听到了这位长期为自己理发的“Tony”的声音。

先天听障的甜品师小陈,做出拿手的奶冻和牛角包,总是最快售罄。平时发不出完整声音的她,也人生第一次跟顾客说了“欢迎光临。”“甜品需要为您打包吗?”

对一部分听障人士来说,说出完整的句子、甚至音节都是现实的难题。普通人轻易可以做到的这件事,对他们却是时间跨越几十年后,才终于靠技术得到的一种完全的展现。技术让这种缺憾有了弥补的可能性。

有数据显示,中国听力障碍残疾人数约为2780万。对比来看,听障专业服务人士只有约1万名,助听器的应用不到5%。这意味着,听障人士需要主动或者被动地减少沟通。

正是有了网易互娱的听障人士AI复原原声的工具,听障人士只需要上传2分钟没有完整语义的发声片段,就能重建出属于自己独一无二的声音。之后,只需输入文字,就可以通过个人音色传达出来。这项新技术的成熟正在渐渐消除听障人士沟通的困难和情感表达的阻碍。

被挂掉的电话和“欢迎光临

45年来,沈师傅的母亲已经习惯了儿子声音的“缺席”。沈师傅因为儿时的一场高烧,失去了听力,世界的声音逐渐消失。跟异地的妻子联系时,两人也只能通过手语交流。沈师傅的母亲从来没接到儿子电话,以至于第一次打去电话时,她下意识地选择了挂断。

一句属于沈师傅声线合成的“妈妈,谢谢你”,换来了电话那头的母亲隔着电话,传过来的兴奋,“太像太像了”。她用绍兴话在电话那头“叽里咕噜”地说着话,似乎已经忘记儿子听不见自己声音。

这是一家同样不会说“欢迎光临”的理发店。价低,但手艺被熟客认可。熟客们到发廊时,会用手比划,或者在写字板上,用尽量精简的语言表达自己的理发诉求。再后来,店里又专门增加了一台预约机器,用机器取缔更多兴许不顺畅的沟通。

到访的那天,沈师傅又迎来了一位熟客,对头发的诉求就写在随便撕下的纸片上,“两耳边修一下,头后也尽量短点”。沈师傅点开自己的声音,跟他进行了第一次剪发需求的沟通,不依赖机械的机器人声,而是被妈妈认可的,像他的声线的声音。

沈师傅的隔壁,就是筑梦无声烘培。沈师傅的人生第一句说给了妈妈,烘培坊的小陈则完成了跟顾客的一次语言沟通。

小陈曾经遇到过商品原材料质量问题,当面跟顾客道歉,又是比划,又是打字。虽然最终没有发生大的冲突,但没法直接说出歉意,让她很愧疚。她同样也遇到过,因为沟通困难,遇到没耐心的顾客,明知对方是听力障碍人士,听不到却还是不断动着嘴巴。

小陈说,这种表达语言的功能,可以让他们和健全人一样上班。“比如进公司、实体门店就不会有阻碍了。”

小陈用完网易的AI声音复原工具,店里终于有了“欢迎光临”的声音。属于她的声音,也开始帮助她跟顾客沟通。小陈试用后也开始向同学们推介,他们中多数人也同样因为听力障碍,而留有遗憾或难以言表的感谢。

网易互娱AI Lab团队曾经接触过一个咖啡师,没有亲口对女朋友说过情话,对他而言心中纵有万千思绪,却难以言表。他想用自己的声音说,但原有的AI产品没有一个能真正实现。

曾经参与世界巡演的舞蹈家顾老师,在一岁左右时同样因为发烧打针引起了耳聋,100多分贝的声音对着她的耳朵,也毫无反应。在很长的日子里,爸妈带着她四处求医,针灸、吃药成了家常便饭。但直到女儿出生,她的耳朵也未见好转。如今,她能用自己的音色“说话”了,还弥补了曾经的遗憾,“女儿学说话的时候不能陪她、教她。”

市场上,虽然文字转换为语音的技术已经高度成熟。比如从最早期的比较机械的声音,到富有节奏韵律的语音合成效果,再到在短视频中成熟应用,可以带着“情绪”的电影解说配音,这种进化代表着文字到语音转化技术更加趋近实用。但对听障人士而言,相比于采用统一的声线合成语音,他们更加渴望能够使用他们自己独特的声线,向周边人传递自己的心声。努力让每一个TA,在AI世界里,也能成为独一无二存在,是技术团队追逐的目标。

一场公益的共谋

在社交媒体上,越来越多的听障人士被关注,也从更大程度上展现了房间里的大象。对他们来说,如何与社会自如相处,更便捷、准确的沟通,是终身的难题。

今年5月,网易互娱AI Lab团队开始思考,在游戏场景之外,如何能把现有的技术拓展到更多的场景。帮助听障人士“说话”的提议被拎出来讨论。

技术是熟悉的,iSpeech技术曾在游戏很多场景应用过,但要应用到听障人士群体,这个场景是陌生的,他们起初也不知道技术可以做到哪一步。

为了调研听障人士是否真的有这个需求,网易找到了浙江省残疾人福利基金会,做了一次调研。

调研结果显示,仅有十分之一的受访对象能够通过简单的口语与身边的人进行交流。更多时候,还是依靠手语、更传统的写字或借助手机。他们中的大多数人经历过太多想说但说不出的自卑与懊恼,说出“人生第一句”是一部分的“梦想”。

在社交媒体上,也有不少正在通过“音书”等App练习发音、通过实施转录语音听网课的听障人士,他们也在通过各种办法,找回语感、训练发音、或者找到跟其他人交流更便捷、有效的办法。

在确认需求后,网易互娱AI Lab团队总结出来,在现有的技术方案下,音色克隆系统可以通过听障人士的发声片段学习声线特色,但无论是声线的录制、录音上传后的处理,都需要更便捷地完成。

大多数听障人士在阐述一句话时,嘴巴在动,但一句话中,兴许有部分音节能出发声音,或者只是不完整的句子,没有语义的声音。这些对采集声音造成了不小的挑战,也是团队主要攻克的难题。最终,他们通过技术层面的升级,仅提取听障人士的声纹信息,摒弃了传统语音合成需要采集上百个句子(超半小时)的语音量,将声音收集的时间压缩到最短2分钟,进而大幅度降低听障人士的使用门槛。

为了尽可能提升训练和合成的效果,网易互娱AI Lab还邀请声优、内部人员,设计了大量的文本进行语音录制,随后花了大量的精力进行模型的训练和调参优化。终于,花了两个月时间,工具在聚集了许多听障人士的音书App上线。这才有了沈师傅、小陈说出的“人生第一句”。

事实上,由于大多数听障人士无法完整清晰地表达一句话,因此在音频被机器学习并转化之后,他们的声音中,仍然残留着“嘶哑声”。但在此过程中,听障人士们的一次次努力,一次次沟通,也构成了一些人情感“缺憾里的完美”。

技术如何向善?

在为听障人士提供音色复原的技术之前,网易作为一家主营业务为游戏的公司,早早就把iSpeech技术应用在游戏场景中。

简单来说,网易的游戏产品中,NPC的语音生成、游戏中的系统播报、转换音色等都有了基础的应用。当一个成熟的新技术被验证,随之而来的就是将其作用更极致化、铺展开的过程。

在开始之前,团队反复考量,这事要如何更好地推进下去。原本更多只是服务游戏的声音合成技术,在公益价值上得到了第二次的落地。

根本上,这更多旨在提供社会价值,而非商业价值。网易互娱AI Lab技术总监林悦提到,现在没有考虑(通过这个技术)盈利赚钱。但相关技术除了游戏中应用提高生产效率之外,也在不断探索新的玩法。

他举例说,在游戏开发过程中,一些声优遇到需要补录的问题时,跨地域、实地到录音棚的周期会很长,但现在已经可以通过AI以及音色复原的算法,对相应的少量台词进行修改。在做听障人士还原音色项目的过程中,也促使团队重新梳理语音合成技术的各个细节和可能提升的方案,这次合作也使得合成技术有了进一步的提升,对未来在游戏中也有了更多应用的可能性。

在做调研时,他们还发现,一个现实的问题是,听障人士在使用无障碍通信软件主要面临需支付较高费用、语音转文字准确率不够、翻译器翻译有延迟等问题。这也是网易将这个技术免费开放给听障人士的初心之一。能尽可能高准确度地,为听障人士的日常沟通创造“情感”的价值,这也是一定要做出“声线”的根本所在。

林悦说,下一步的计划就是能在合成后,还能准确表达出相应的情绪。传统工业界的做法往往是基于大量的带情绪的训练数据,或者是通过文本判断情绪并在合成时做情感的迁移,但靠听障人士在录制数据表达的语义信息,再带上情感信息的仍然有难点。

在不少听障人士的人生故事中,沟通的不便捷会消磨掉一部分时刻的完整性。一位参与该项目的人士提到,她记得一个父亲说过,他不能说话的遗憾来自,在孩子的婚礼上,他没办法做致辞。亲口说话不可替代,人生就是有很多时刻,可能就是得亲自来讲话。

在那场调研中,有超过67%的受访对象表示“愿意使用音色复原技术”,超过一半的受访对象表示“愿意将音色复原技术推荐给身边有需要的人”,也有部分受访对象表示除了手机 APP 软件以外,希望音色复原技术应用于在公交、出租、饭店、超市、银行等公共场所。但这仍然需要长时间的,社会各界的共谋。至少从现在开看,一些人找回了失去的声音,尽管方式会更曲折。

沈师傅的故事在无声街道上被多次关注,在许多的视频、采访中,沈师傅常常只是打着手语,由不同的人担当翻译。他喜欢说“奋斗”,总是对来访者提出的要求充分配合。但在使用了音色合成的工具后,沈师傅第一次在视频中,通过自己的语言、声音阐述自己的经历、思考和期盼,为自己完成了“配音”。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

推荐内容