谷歌宣布开源Live Transcribe语音识别转文字工具

Android社区 收藏文章

昨日,谷歌在其开源博客中宣布开源 Android语音识别转录工具——Live Transcribe的语音引擎(Live Transcribe Speech Engine),它旨在将语音或对话实时转录为文字,还能够为听障人士提供帮助。

Live Transcribe 是谷歌于今年2月推出的一款Android应用程序,它的语音识别由谷歌最先进的Cloud Speech API提供。但是,依赖于云引入了一些复杂性,不断变化的网络连接、数据成本和延迟等等都带来一些考验。因此,谷歌把它开源出来,希望开发人员在已有的基础上进一步构建和开发。

Cloud Speech API目前无法支持无限的音频流,团队采取了一些措施来解决这一难题,例如在达到超时之前关闭并重新启动流式传输请求,这将有效减少会话中丢失的文本量。

无限流媒体音频带来了一大挑战。在许多国家,网络数据非常昂贵,并且在互联网较差的地方,带宽可能有限。Live Transcribe Speech Engine的团队对音频编解码器进行了大量实验,并最终在不影响精度的情况下将数据使用量减少了10倍。

另外,由于是提供实时语音转录,转录出来的文本会随着语音的输入不断发生变化,降低延迟自然十分必要。该引擎能够大大降低延迟率,这都要归功于它的自定义Opus编码器。

此外,值得一提的是,Live Transcribe支持超过70种语言,并能够根据语音自动识别语种,其中也包括中文。

相关标签
 相关文章
王慧文病休53天,旗下OneFlow团队重新创业 8月以前  |  1次阅读
智己CEO现场怒怼!不满LS6和小鹏G6当对手 8月以前  |  1次阅读
董明珠回应落榜世界500强:总比爆雷的世界500强好 8月以前  |  1次阅读
阿里云上线 AI 视频生成工具 Live Portait:可一键让照片开口说话 8月以前  |  78次阅读
妙鸭相机将并入神力视界,阿里大文娱CTO郑勇:不是“搬家”是“回家” 8月以前  |  85次阅读
特斯拉上海超级工厂约40秒下线一台车,零部件本土化率超95% 8月以前  |  69次阅读
宁德时代发布神行超充电池,可实现充电10分钟行驶800里 8月以前  |  71次阅读
中科院博士被骗到缅甸已一年!女友:他负债几万,家里条件一般,以为去当翻译 8月以前  |  85次阅读
小鹏汽车否认收购玛莎拉蒂传闻:系谣言 8月以前  |  63次阅读
联想二季度净利润猛降66%,股价应声跳水 8月以前  |  80次阅读
业内人士:视觉中国对不同侵权主体采用差异化策略,老客由销售沟通新客发律师函 8月以前  |  70次阅读
恒大集团在美国申请破产保护 8月以前  |  56次阅读
劳斯莱斯首款纯电轿跑将在北美亮相 8月以前  |  89次阅读
realme印度前CEO确认加盟荣耀,即将推出手机新品 8月以前  |  88次阅读
OpenAI正在测试内容审核系统,一天可以完成六个月的工作 8月以前  |  80次阅读
谷歌百人“复仇者联盟”出击,将发对标GPT-4的大模型,26位研发主管名单流出 8月以前  |  77次阅读
OpenAI收购数字产品公司Global Illumination,为创立以来首笔公开收购 8月以前  |  80次阅读
海口规定:电动汽车充电服务费不得超过0.65元每度 8月以前  |  80次阅读
波音任命柳青为波音中国总裁 8月以前  |  88次阅读
业内人士谈图片复杂代理链:图片代理商越多摄影师分成越少 8月以前  |  67次阅读

扫一扫

在手机上阅读