随着人工智能(AI)领域以指数级速度不断发展,总部位于旧金山的初创公司ElevenLabs宣布了一项突破性的消息。他们开发了一种新的AI模型,可以在30种语言中使用你的声音生成语音,这是一个巨大的飞跃,原来只有8种语言。这一进展有望革新语音克隆和多语言交流领域。
多语言飞跃
ElevenLabs以文学代理公司和独立出版商Lukeman Literary为案例研究,以展示他们技术的有效性。Lukeman每年制作大量的多语种有声读物,这个过程过去需要几周时间,因为需要找到合适的配音艺术家、预订录音棚并进行后期制作。现在,多亏了ElevenLabs的AI模型,整个过程可以在几个小时内完成。
新的多语种v2模型可以提供富有情感并捕捉到自然语音的微妙语调的音频。用户可以在目标语言中键入他们想要朗读的文本,AI将生成无缝的配音。
语音克隆选项
ElevenLabs提供两种主要的语音克隆工具:文本到语音工具和用于克隆特定声音的”VoiceLab”。用户可以上传语音样本来创建自定义的语音克隆,AI会分析这些样本来构建合成版本。这个克隆的声音可以被操纵来说出任何想象的内容。最新的更新允许这些AI克隆流利地说瑞典语、阿拉伯语和马来语等语言。
解决伦理问题
尽管这项技术有潜在的好处,但人们对其滥用存在担忧。深度伪造的音频可能使用户容易受到欺诈和误导性宣传的影响。去年,ElevenLabs的平台被用来模仿和骚扰公众人物,引起了强烈的反对声音。该公司此后采取了更严格的保护措施,但伦理问题仍然存在。
像Meta这样的大型科技公司也因为开发强大的生成式人工智能而面临类似的批评,但缺乏透明度。Meta最近推出了一个名为Voicebox的AI语音合成工具,承认它可以轻松促成深度伪造。然而,由于”滥用风险”,Meta决定不进行公开发布。
尽管存在这些担忧,但AI语音克隆的快速进展似乎势不可挡。正如ElevenLabs的语言学家Mati Staniszewski所说,”最终我们希望借助人工智能来覆盖更多的语言和声音,并消除内容的语言障碍。”
挑战在于确保伦理实施。全球误导和创新沟通方式之间的界线非常脆弱,小心谨慎是关键。
在不断发展的加密货币和人工智能世界中,像cryptoview.io这样的平台在提供最新和相关信息方面发挥着重要作用。通过cryptoview.io了解加密货币新闻和更新。
在Cryptoview.io上了解更多
