首页 > 科技 >

亚马逊的语音合成AI模仿了节奏 音调和音量的变化

发布时间:2024-07-11 03:09:05来源:
摘要 诸如Alexa之类的语音助手使用文本到语音系统将书面单词转换为语音,最强大的功能是利用AI从头开始说话,而不是将预先录制的声音片段串在一

诸如Alexa之类的语音助手使用文本到语音系统将书面单词转换为语音,最强大的功能是利用AI从头开始说话,而不是将预先录制的声音片段串在一起。神经文本语音转换系统(NTTS)倾向于比传统模型产生更自然的语音,但是可以说,它们的真正价值在于它们的适应性,因为它们能够模仿录音的韵律或其变化。速度,音调和音量。

在今年在奥地利格拉茨举行的Interspeech会议上发表的一篇论文(“ 用于单扬声器神经文本到语音的细粒度鲁棒韵律转移”)中,亚马逊科学家研究了一种使他们能够在录音中选择声音的系统的韵律转移。同时保留原始的变形。他们说,与过去的尝试相比,它有了很大的改进,这些尝试通常无法很好地适应他们以前从未遇到过的声音。

为此,该团队的系统利用了韵律特征,这些韵律特征比通常由神经文本语音转换网络提取的原始频谱图(信号频率随时间变化的表示)更易于标准化。它将语音信号与文本在音素级别(最小的语音单位)对齐,并从频谱图中提取每个音素的音高或音量变化等特征。

该团队声称,该技术在处理不可靠的文本时也能像处理干净的成绩单一样出色,因为它结合了自动语音识别器,该语音识别器试图猜测与给定输入信号相对应的音素序列。识别器将这些猜测表示为概率分布,并使用单词序列频率信息系统地消除它们。

该系统将语音识别器的低级音素序列概率作为输入,从而使其能够学习音素与韵律特征之间的一般相关性,而不必强迫声学数据与可能不准确的转录对齐。结果?研究小组说,在实验中,其输出与使用可靠笔录训练的系统之间的差异“在统计上无关紧要”。

在另一项独立但相关的研究中(“ 朝着实现鲁棒的通用神经声码法迈进 ”),同一研究团队试图训练声码器(一种通过对语音输入进行分析而产生声音的合成器),以达到最新的音质。以前没有遇到过的声音。他们说,经过训练的数据集包含来自74种说话者的2,000种发音的17种语言的信息,即使在没有声音的情况下,它在各种条件下(例如,耳语或演唱的声音或带有强烈背景噪音的语音)也优于特定于说话者的声码器。之前没有看到来自特定说话者,主题或语言的数据。

免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。