Meta推出语音生成人工智能工具Voicebox
Meta 正在开发一种新工具,该工具利用生成式 AI 的力量,这是病毒式聊天机器人 ChatGPT 的基础技术。该工具被称为 Voicebox,可用于通过语音样本和简单的文本输入创建语音。Meta 还声称 Voicebox 可以从音频样本中过滤掉不需要的背景噪音。然而,与 ChatGPT 和 Bard 等其他生成式 AI 工具或 Dall-E 或 Midjourney 等 AI 图像生成器不同,Voicebox 仍然对测试人员不可用,并且可能在一段时间内受到限制。这是因为 Meta 表示 Voicebox 可能会被滥用,并且存在很多潜在风险。
什么是 Meta Voicebox,它是如何工作的?
简而言之,Voicebox 是一个语音到文本生成器以及一些音频编辑工具。然而,Meta 表示,其人工智能工具比竞争对手有效得多,因为 Voicebox 可以复制语气和口音。Voicebox 现有的竞争对手 Vall-E 还允许用户使用 3 秒录音创建文本转语音样本。然而,Meta 声称 Voicebox 的输出速度提高了 20 倍,而且错误更少。
由于 Voicebox 不对公众开放,该公司在研究论文和博客文章中解释了其功能。Meta 表示,Voicebox 是基于一种称为“流程匹配”的方法构建的,可将文本转换为语音。据说该模型可以处理文本和语音之间复杂且不可预测的关系。它还允许 Voicebox 训练更大、更多样化的数据集,使其更加强大和灵活。
目前,Voicebox 可以生成英语、法语、德语、西班牙语、波兰语和葡萄牙语的语音。Meta 表示这项技术“令人兴奋”,因为它可以帮助人们以自然和真实的方式进行交流,“即使他们说的语言不同”。
如前所述,Voicebox 还可以用于音频编辑。在演示中,Meta 展示了该工具有效地过滤了样本中狗吠的背景噪音。Google Meet 和 Zoom 中已经存在类似的音频过滤功能。
版权声明:本文由用户上传,如有侵权请联系删除!