Google开源Live Transcribe的语音引擎

发布时间：2024-07-11 13:30:26来源：

摘要 Google今天将其Android语音识别转录工具Live Transcribe的语音引擎开源。该公司希望这样做可以让任何开发人员为长时间的对话提供字幕。源

Google今天将其Android语音识别转录工具Live Transcribe的语音引擎开源。该公司希望这样做可以让任何开发人员为长时间的对话提供字幕。源代码现在可以在GitHub上获得。

Google 在2月发布了Live Transcribe。该工具使用机器学习算法将音频转换为实时字幕。与Android即将推出的Live Caption功能不同，Live Transcribe是一种全屏体验，它使用智能手机的麦克风(或外部麦克风)，并且依赖于Google Cloud Speech API。Live Transcribe可以为70多种语言和方言的实时语音字幕提供字幕。您也可以重新输入-Live Transcribe实际上是一种交流工具。另一个主要区别是：Live Transcribe可在18亿个Android设备上使用。(当Live Caption在今年晚些时候到货时，它将仅在部分Android Q设备上运行。)

Google的Cloud Speech API当前不支持发送无限长的音频流。此外，依靠云意味着网络连接，数据成本和延迟方面的潜在问题。

结果，语音引擎在达到超时之前关闭并重新启动流请求，包括在长时间的静音期间重新启动会话，并在检测到语音暂停时立即关闭。在会话之间，语音引擎还会在本地缓冲音频，然后在重新连接后将其发送。因此，Google避免了句子或单词被截断，并减少了会话中丢失的文本量。

为了减少带宽要求和成本，Google还评估了不同的音频编解码器：FLAC，AMR-WB和Opus。FLAC(一种无损编解码器)可以保持准确性，不会节省大量数据，并且编解码器的延迟显着。AMR-WB可保存大量数据，但在嘈杂的环境中准确性较低。同时，Opus允许数据速率比大多数音乐流服务低很多倍，同时仍保留音频信号的重要细节。Google还使用语音检测在长时间的静音期间关闭网络连接。总体而言，该团队能够实现“数据使用量减少10倍而又不影响准确性”。

与Cloud Speech API相比，为了进一步减少延迟，Live Transcribe使用了自定义的Opus编码器。编码器刚好增加了比特率，因此“在视觉上与发送未压缩的音频没有区别。

文档指出，这些库与在生产应用程序Live Transcribe中运行的库“几乎完全相同”。Google已经对其进行了“广泛的现场测试和单元测试”，但是测试本身并不是开源的。但是Google确实提供APK，因此您无需构建任何代码即可试用该库。

标签： Google开源LiveTranscribe的语音引擎

免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。

Google开源Live Transcribe的语音引擎

相关阅读

猜你喜欢

生活经验

生活百科

生活常识

精选知识

最新滚动