项目详情
深入了解 index-tts 的功能与特性
IndexTTS:工业级可控高效零样本文本转语音系统
👉🏻 IndexTTS 👈🏻
[HuggingFace 演示] [ModelScope 演示]
[论文] [示例音频]
IndexTTS 是一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音 (TTS) 模型。它能够通过拼音纠正汉字发音,并通过标点符号在任意位置控制停顿。我们对系统的多个模块进行了增强,包括改进说话人条件特征表示,以及集成 BigVGAN2 以优化音频质量。经过数万小时数据的训练,我们的系统实现了业界领先的性能,超越了当前流行的 TTS 系统,如 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS。
体验 IndexTTS:请发送邮件至 [email protected] 获取详细信息。
联系我们
QQ群(二群):1048202584
Discord:https://discord.gg/uT32E7KDmy
简历投递:[email protected]
欢迎大家来交流讨论!
📣 最新动态
2025/05/14🔥🔥 发布 IndexTTS-1.5 版本,显著提升模型稳定性及英语表现。2025/03/25🔥 发布 IndexTTS-1.0 模型参数与推理代码。2025/02/12🔥 论文提交至 arXiv,并发布演示示例和测试集。
🖥️ 技术方案
IndexTTS 的整体架构如下所示。
主要改进与贡献总结如下:
- 在中文场景中,我们引入了字符-拼音混合建模方法,可快速纠正发音错误的汉字。