Qwen3-TTS

Description:

Alibaba Group が開発した、次世代の高品質・多機能なテキスト読み上げ (Text-to-Speech) モデルシリーズ

GitHub:

Tags:

Explore:

Updated:

2026/01/28

・ 卓越した自然さ: 最新の大規模言語モデル (LLM) ベースのアプローチにより、イントネーション、ポーズ、感情表現が極めて人間的な音声を生成。
・ ゼロショット・ボイスクローニング: わずか数秒の音声サンプルを提供するだけで、その人物の声色や話し方の特徴を模倣した読み上げが可能。
・ 多言語・多タスク対応: 中国語、英語、日本語を含む多言語をサポート。テキストからの音声生成だけでなく、音声から音声への変換 (Speech-to-Speech) にも対応。
・ 高いカスタマイズ性: 読み上げのスピード、ピッチ、スタイルの詳細な制御が可能で、用途に合わせた最適な音声を出力。
・ オープンソース: 研究および開発向けにモデルの重みと推論コードが公開されており、ローカル環境での運用や独自データでの微調整が可能。

構築・初期設定

詳細な導入手順は、公式 GitHub リポジトリを参照してください。基本的には Python 環境（PyTorch 等）が必要です。

リポジトリのクローン:

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS

CLI または Python スクリプトから実行可能です。

python inference.py --text "こんにちは、Qwen3-TTS の世界へようこそ。" --output output.wav