NVIDIA的最新技术使人工智能的声音更具表现力和真实感

Android社区 收藏文章

Rafael_002.webp

为了改进其人工智能语音合成,NVIDIA的文本-语音研究团队开发了一个名为RAD-TTS的模型,这是NAB广播大会上开发最逼真化身的比赛的获胜作品。该系统允许个人用自己的声音训练文字转语音模型,包括节奏、音调、音色等等。

RAD-TTS的另一个特点是语音转换,它可以让用户用另一个人的声音来传递一个说话者的话语。该界面可以对合成的声音的音调、持续时间和能量进行精细的、帧级的控制。

利用这项技术,NVIDIA的研究人员为自己的《我是人工智能》系列视频创造了更多听起来像对话的语音解说,使用的是合成的声音而不是人的声音。其目的是让解说词与视频的语气和风格相匹配,这是迄今为止许多人工智能解说视频中没有做到的。结果仍然有点像机器人,但比我听过的任何人工智能解说都好。

"有了这个界面,我们的视频制作人可以录下自己阅读视频脚本的过程,然后用人工智能模型将他的语音转换为女解说员的声音。"NVIDIA公司写道:"利用这一基线旁白,制作人可以像配音演员一样指挥人工智能--调整合成的语音以强调特定的词语,并修改旁白的节奏以更好地表达视频的基调。"

NVIDIA公司正在分发这项研究的一部分--当然是为了在NVIDIAGPU上有效运行而进行的优化--通过用于GPU加速的对话式人工智能的NVIDIA NeMo Python工具包(可在该公司的容器和其他软件的NGC中心获得),向任何想要尝试的人开放源代码。其中几个模型是在NVIDIA DGX系统上用数万小时的音频数据训练出来的。开发人员可以针对他们的使用情况对任何模型进行微调,利用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。

相关标签
 相关文章
王慧文病休53天,旗下OneFlow团队重新创业 1年以前  |  1次阅读
智己CEO现场怒怼!不满LS6和小鹏G6当对手 1年以前  |  1次阅读
董明珠回应落榜世界500强:总比爆雷的世界500强好 1年以前  |  1次阅读
阿里云上线 AI 视频生成工具 Live Portait:可一键让照片开口说话 1年以前  |  78次阅读
妙鸭相机将并入神力视界,阿里大文娱CTO郑勇:不是“搬家”是“回家” 1年以前  |  85次阅读
特斯拉上海超级工厂约40秒下线一台车,零部件本土化率超95% 1年以前  |  69次阅读
宁德时代发布神行超充电池,可实现充电10分钟行驶800里 1年以前  |  71次阅读
中科院博士被骗到缅甸已一年!女友:他负债几万,家里条件一般,以为去当翻译 1年以前  |  85次阅读
小鹏汽车否认收购玛莎拉蒂传闻:系谣言 1年以前  |  63次阅读
联想二季度净利润猛降66%,股价应声跳水 1年以前  |  80次阅读
业内人士:视觉中国对不同侵权主体采用差异化策略,老客由销售沟通新客发律师函 1年以前  |  70次阅读
恒大集团在美国申请破产保护 1年以前  |  56次阅读
劳斯莱斯首款纯电轿跑将在北美亮相 1年以前  |  89次阅读
realme印度前CEO确认加盟荣耀,即将推出手机新品 1年以前  |  88次阅读
OpenAI正在测试内容审核系统,一天可以完成六个月的工作 1年以前  |  80次阅读
谷歌百人“复仇者联盟”出击,将发对标GPT-4的大模型,26位研发主管名单流出 1年以前  |  77次阅读
OpenAI收购数字产品公司Global Illumination,为创立以来首笔公开收购 1年以前  |  80次阅读
海口规定:电动汽车充电服务费不得超过0.65元每度 1年以前  |  80次阅读
波音任命柳青为波音中国总裁 1年以前  |  88次阅读
业内人士谈图片复杂代理链:图片代理商越多摄影师分成越少 1年以前  |  67次阅读

扫一扫

在手机上阅读