引言:
近年来,随着人工智能技术的不断发展,语音技术已经成为了热门领域。尽管已有不少技术实现了一定程度的成功,但传统语音合成技术的问题依然存在。传统方法对于训练数据的需求量大、效果受到声音质量和口音差异的影响。因此,在语音技术领域中,一种受到广泛关注的新技术GPT-SoVITS-WebUI应运而生。GPT-SoVITS是花儿不哭大佬研发的低成本AI音色克隆软件,作为一种新兴的网络界面工具,具有自主学习、高效合成、支持多语言等特点,在语音领域中受到极高的关注和重视。它不仅能够迅速训练高质量的文本到语音模型,更能够克服声音质量和口音差异的影响,在语音合成中发挥既有的功效。同时,GPT-SoVITS-WebUI具有零次学习和少量次学习的TTS功能,可以实现自然语言转换,进一步提高了语音合成的性能。这一特性可为语音技术的开发者和爱好者带来更多的机会,实现多样化的语音应用,创造更加便捷的用户体验。综上所述,GPT-SoVITS-WebUI是一种非常先进的语音技术,具有广泛的应用前景和潜力。创作不易,要是对您有用请加个关注或点个赞,非常感谢了!
开源地址:
https://github.com/RVC-Boss/GPT-SoVITS
以下依据官方文档整理而得:
特点:
-
零样本 TTS:输入 5 秒的人声样本,体验即时文本到语音转换。
-
小镜头 TTS:只需 1 分钟的训练数据即可微调模型,以提高语音相似度和真实感。
-
跨语言支持:使用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。
-
WebUI工具:集成工具包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,帮助初学者创建训练数据集和GPT/SoVITS模型。
-
详细说明:教程中文版 User guide (EN)
安装
对于中国地区的用户,您可以点击此处使用AutoDL Cloud Docker在线体验全部功能。
经测试的环境
- Python 3.9、PyTorch 2.0.1、CUDA 11
- Python 3.10.13、PyTorch 2.1.2、CUDA 12.3
- Python 3.9、PyTorch 2.3.0.dev20240122、macOS 14.3(Apple 芯片)
注意:numba==0.56.4 需要 py=10 测试),你可以直接下载预打包的发行版,双击 go-webui.bat 启动 GPT-SoVITS-WebUI。
Linux操作系统
conda create -n GPTSoVits python=3.9 conda activate GPTSoVits bash install.sh
macOS操作系统
只有满足以下条件的 Mac 才能训练模型:
- 搭载 Apple 芯片的 Mac 电脑
- macOS 12.3 或更高版本
- 通过运行xcode-select --install
所有 Mac 都可以使用 CPU 进行推理,这已被证明优于 GPU 推理。
首先,通过运行 或 确保已安装 FFmpeg,然后使用以下命令进行安装:brew install ffmpegconda install ffmpeg
conda create -n GPTSoVits python=3.9 conda activate GPTSoVits pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu pip install -r requirements.txt
注意:仅当安装了 PyTorch Nightly 时,训练模型才有效。
手动安装
安装依赖项
pip install -r requirements.txt
安装 FFmpeg
Conda 用户
conda install ffmpeg
Ubuntu/Debian 用户
sudo apt install ffmpeg sudo apt install libsox-dev conda install -c conda-forge 'ffmpeg