前言
最近网上冲浪的时候又发现阿里推出了一个新的语音生成模型Qwen3-TTS,第一反应是有点奇怪,因为阿里巴巴之前已经推出了CosyVoice这个语音模型,为什么要推出两个在我看来功能都一样的模型呢?同时这个新推出的Qwen3-TTS效果如何呢?有什么区别呢?待着疑问来体验和了解一下
环境:windows10
显卡:N卡3060TI
环境:conda python3.12
安装&体验
首先还是老样子clone一下仓库到本地
1 | git clone https://github.com/QwenLM/Qwen3-TTS |
然后这次使用conda来体验一下环境隔离
Download Anaconda Distribution | Anaconda
下载后一路install即可,安装完后在顺手配置一个PATH环境变量(个人不太喜欢使用Anaconda Prompt那个命令行)
例如:
1 | G:\conda |
配置完后,就可以开始新建一个Qwen3-TTS专用的Python环境了
1 | # 配置环境 |
安装完后,还要根据情况看下本地环境配置是否有Sox相关组件,没有的话还要下载一下,不然运行会报错
https://sourceforge.net/projects/sox/
下载完后同理,丢到PATH环境变量里
默认pip install的torch依赖是CPU版本的,为了提高处理速度,要特定安装下3060TI的torch版本
1 | # 卸载 |
安装完后试一下是否正常
1 | import torch |
来试下生成的效果
1 | import torch |
我感觉效果还是不错的,而且生成速度比之前CosyVoice3是要快的。
Qwen3-TTS和CosyVoice3的区别
Qwen3-TTS:面向实时交互的语音模型
模型主要是用在:
- 实时对话
- AI Agent
- 语音助手
- IoT设备
主要强调或者擅长:超低延迟、流式输出、 快速响应
CosyVoice:面向高音质生成的语音模型
模型主要是用在:
- 有声书
- 视频配音
- 广告
- 长音频内容
主要强调或者擅长:音色稳定、情感自然、发声者一致性
从技术原理来区分,它们也是不一致的
Qwen3-TTS 本质是“偏LLM化的语音生成”
CosyVoice 本质是“偏声学建模的生成模型”
这是两条不一样的技术路线,一个实时优先,另一个音质和speaker 一致性优先。