ASV 评分用来评估在输出语音中保留源说话人音色的能力,ASR-BLEU 用来测评翻译质量。通过实验作者给出了一些结论:
(资料图)
1. 当真实的目标翻译序列可用时,PolyVoice 展示了更好的语音克隆能力。
2. PolyVoice 在翻译质量方面略有下降,但在语音质量方面有显著的提升。翻译质量下降可能是由于无监督的音频离散化会引入信息损失。语音自然度提升则可能是因为大规模语言模型的数据容纳能力可以带来更好的生成效果。
为了验证 PolyVoice 在非书写语言上的有效性,作者在不使用西班牙语的任何文本监督情况下,评估了一个英语→西班牙语 S2ST 系统,ASR-BLEU(18.3)的结果表明 PolyVoice 生成的西班牙语语音在语义上是可理解的。
分析和消融实验
1. Decoder-only 和 Encoder-Decoder 两种框架的对比
Decoder-only 模型带来了 3.9 个 BLEU 的显著改进,当用 U2S 代替声码器合成语音时,缩小了性能差距,证明了 U2S 后端的鲁棒性。
2. 多任务训练
U-XLM 在涉及的多个任务(包括 S2ST、ASR、ST、MT 和 TTS)上都取得了可观的性能,验证了 Decoder-only 框架的通用建模能力。
3. U2S 模块的优化
从实验结果发现从 U2S 中去掉时长模型,WER 会急剧增加,可能是由于 units 本身不包含与音素一样多的时长信息。因此,在使用无监督训练得到的离散单元时,时长模型是必不可少的。此外,作者额外训练了一个中英的多语言 HuBERT 模型(mHuBERT_zh_en)作为 Semantic Unit Extractor,实验对比发现更大的模型可能会生成更好的 Semantic Units。
结论
PolyVoice 是一个基于语音离散单元的 S2ST 框架。实验结果表明,基于 units 的 S2ST 系统在 ASR-BLEU、ASV 和自然度方面优于现有系统。此外,作者还证明了 PolyVoice 在不使用文本信息监督的情况下在非书写语言场景中的能力。由于 PolyVoice 性能与语音离散单元的质量高度相关,未来的工作将持续研究如何更好地进行语音离散化。
关键词: