模型

您可以在此处了解关于我们各个模型的介绍，以及相关的优缺点等

我们的REECHO睿声语音大模型已预先经过海量中文音频的训练，训练的内容涵盖多种类型，但最多的是有声读物与常规对话音频。如果您提供的克隆音频样本以及目标文本是此类内容，则通常会在生成语音时取得较好的效果。我们的模型会尽可能模仿克隆音频样本的语调、语速、情感、停顿、响度、声学环境、呼吸声、口音、发声方式等特征，尽可能理解目标文本的上下文，并综合它们来产生最匹配的语音。

REECHO 睿声语音大模型 V1.0

这是我们在中文领域最为先进的SOTA语音大模型，可一定程度上理解文本上下文，并以与真人几乎无异的表现力、情感、韵律和音色来基于文本生成人声音频，并且支持以极短样本进行瞬时语音克隆。该版本模型还带来了对英文语音合成及克隆的实验性支持，但目前相较中文的稳定性与表现力可能较差。

目前，此模型的点数消耗量为1点数/字符。

当前版本的语音模型(V1.0)已具备与真人无异的语音生成能力，且提供高质量的生成结果，但仍不够完美，您可能会在使用过程中遇到以下问题：

偶发的不稳定结果：您可能会偶尔遇到一些质量较差的生成结果。您可以通过少量降低多样性（不建议低于95）以及启用稳定性过滤并设置为一个适当的数值（不建议低于40）来改善全局稳定性，但会降低产生更丰富表现力的概率。您还可以尝试多次生成同一段文本，以获得更好的生成结果。
英文内容的稳定性或质量可能略低于中文：目前版本的模型支持中英双语的克隆与合成，但英文支持仍属于实验性阶段，因此英文内容的克隆与合成表现可能会略低于中文内容。
不太擅长过于浮夸尖锐或过于独特的克隆样本：您在使用过于浮夸尖锐或过于独特的克隆样本时，可能会遇到音质/相似度/稳定性下降的问题；您可以尝试通过多次生成单句，并将您最满意的一句生成结果作为样本进行克隆来改善此问题。

我们即将到来的下一版本的语音大模型(V1.1)已针对以上问题进行专项优化，预计将大幅改善这些问题，敬请期待。

REECHO 睿声语音大模型 V0.9 BETA（已弃用）

此模型可以以接近真人的语速、语调和语气来生成语音，更能模仿情绪上的变化，让AI更加接近人类，并且支持瞬时语音克隆技术。目前仅支持中文。

此模型的点数消耗量为1点数/字符。

此版本的语音模型(V0.9)仍然处于早期测试阶段，存在较多已知问题，您可能会在使用过程中遇到以下问题：

稳定性较差：目前版本的生成稳定性相对较差，您可能经常会遇到一些不可预测乃至不可用的生成结果。您可以通过少量降低随机性（不建议低于95）以及启用稳定性增强并设置为一个适当的数值（不建议低于20）来改善全局稳定性，但会降低产生更丰富表现力的概率。您还可以尝试多次生成同一段文本，以获得更好的生成结果。
仅支持纯中文内容：目前我们的训练内容绝大部分以中文为主，这导致模型完全无法理解或合成中文以外的语音，包括任何英文字母。目前，如果您的克隆样本或生成文本中包含任何外语内容，则较大可能会导致生成失败、相关内容没有声音、或显著的质量下降。
不太擅长较为浮夸尖锐或表现力较强的克隆样本：目前我们的训练内容中，对较为浮夸或尖锐的音色数据涵盖较少，例如许多二次元或动漫音色；对于此类音色的克隆，您可能会遇到生成质量的显著降低。同时，对于情感表现力波动较大的音频样本，也可能表现出较为不稳定的生成结果。我们目前推荐您尽可能使用自然的音频样本以取得最佳效果

最后更新于1个月前