注意事项

关于语音克隆的一些注意事项以及最佳实践

瞬时克隆/风格引导样本注意事项

如概览中所述，如果您提供的声音样本较为独特，我们的AI曾经没有学习过类似的声音，则可能导致较差的生成结果，或无法较好的复刻该声音。

样本质量比长度更重要。有噪音的样本可能会产生不好的结果，请尽可能提供高质量的样本语音。目前，样本语音长度需大于2秒，且文件大小不超过10M。您可以使用剪映电脑版的人声分离/音频降噪/人声美化/响度标准化等功能来简单便捷的从任意音频中获得较高质量的人声音频样本；我们也即将在我们的服务中直接提供此类能力。

我们建议您通常使用5-8秒的清晰语音音频即可，且不应包含任何混响，回声，背景噪音以取得最佳效果。且对于音频文件的质量，我们推荐您使用源码率为128kbps或以上的音频来确保携带尽量完整的信息。

专业克隆注意事项

在开始您的专业克隆前，您需要准备用于克隆的单个或多个音频样本文件。

音频样本文件需要符合以下要求：

所有音频样本文件相加的总时长至少为1分钟，最多60分钟；在该范围内，总时长越大，克隆效果越佳。
每个音频文件都需要为wav/mp3/mp4/flac/m4a/ogg格式。
请确保尽可能提供高质量的音频，确保音频中包含可被识别的中文或英文语句，且不应包含任何混响，回声，背景噪音以取得最佳效果。

音频样本文件准备完毕后，请将它们打包为未加密的Zip格式压缩包，压缩包的大小最大不能超过256MB。

综合注意事项

我们的AI语音模型将尝试模仿它在音频中听到的所有内容，例如说话人的语调、语速、口音、呼吸方式、力度、背景噪音、人声噪音、迟疑停顿等其它所有一切。这意味着如果样本音频中包含相关信息，均有可能被AI模仿并表现于最终合成中。

也就是说，如果您用缓慢，平淡的声音说话，最终结果通常也会如此；或者您用激动，快速的方式说话，AI也会尝试对其进行模仿。

非常重要的一点是，我们建议您尽可能在各方面确保整段语音样本中语音表现的一致性，如果样本前2秒的表现是激动并快速的，那后续几秒也需要尽可能保持相似的表现，包括语调，语速，音量等各方面。如果您在同一段语音样本中表现波动过大，则有可能使AI感到困惑，并在每次生成时产生更为不可预测的结果。

总的来说：

声音的表现本身，口音，以及录音的质量会大幅影响克隆的最终效果
对于瞬时克隆，音频的长度不是那么重要，但我们建议尽可能至少为五秒以包含足够多的信息
尽可能保持整段音频样本中语音表现和录音质量的一致性，避免在同一段中出现过大的变化
音频的音量也可能会被AI复制，因此我们建议您找到良好的音量平衡范围，以避免声音过大或过小

目前，我们仅支持中英文样本语音，请确保您提供的样本语音中包含可被正确识别的中英文内容，且不包含其他语言内容，否则将会导致角色创建失败，或导致其它各类问题。

请勿使用我们的服务克隆或生成任何侵犯版权、违反道德伦理、或违反中华人民共和国法律法规的内容。我们生成的所有内容均带有详细日志，自动/人工复审，以及可溯源的隐形音频水印，若发现您违反了相关规则，我们保留终止您的服务并上报公安机关等机构的权利。

更多信息请参阅服务协议、账号协议、隐私声明。

最后更新于1个月前