日本語の対話テキストから 2話者の同時発話音声を生成する マルチストリーム TTS。Moshi/Moshika アーキテクチャを 4 段階のカリキュラム学習で日本語対話に適応させたモデル。
A Japanese multi-stream text-to-speech model that synthesises 24 kHz stereo dialogue audio (left = speaker A, right = speaker B) from a turn-tagged text dialogue.
入力は [["A", "..."], ["B", "..."], ...] 形式の対話テキスト JSON。出力は 24 kHz・ステレオの WAV で、左チャンネルが話者 A、右チャンネルが話者 B の音声。Kyutai 社の Moshika をベースに、日本語の音声・テキスト分布を 4 段階で学習させて構築した。
| Architecture | Moshi LM (1 text + 8×2 audio codebooks = 17 channels) |
|---|---|
| Audio codec | Kyutai Mimi (24 kHz, 12.5 frame/s) |
| Text tokenizer | rinna/japanese-gpt2-medium spiece (32 k vocab) |
| Parameters | ≈ 7 B |
| Language | 日本語のみ / Japanese only |
| Speakers | 2 名固定(A / B) |
Stage 1 と Stage 2 は名古屋大学 大橋厚元さんが学習した checkpoint をベースとして再利用(許諾済)。Stage 3 と 4 で本プロジェクトの Zoom1 対話への適応を行った。
mono pretraining — by Atsumoto Ohashi
multi-stream TTS pretraining — by Atsumoto Ohashi
Zoom1 fine-tune (v0b)
extended Zoom1 fine-tune (v0c, this model)
同じ入力テキストを 4 段階の checkpoint それぞれに通した結果。ノイズ → 自然な対話音声へと改善していく様子が聞き取れる。
Zoom1 学習データには含まれない「趣味の名前を思い出せない側を、もう一方が助ける」というシナリオで生成テスト。テキストは下記の通り、人手で書き下ろしたもの。
| 段階 | Step | Total Loss | text | audio |
|---|---|---|---|---|
| v0a (control) | 500 | 6.55 | 3.29 | 3.25 |
| 0178 Stage 2 終了時 | 17,892 | — | — | — |
| v0b | 500 | 3.92 | 2.40 | 1.52 |
| v0c (this) | 1,500 | 3.04 | 2.02 | 1.02 |
max_generation_length 上限内(≈ 1 分)でのみ安定動作確認済。生成音声を公開する場合は 合成音声であることを明示 し、可能であれば AudioSeal 等の音声透かしを併用することを推奨します。
本モデルは CC-BY-NC 4.0 ライセンス(Creative Commons Attribution-NonCommercial 4.0)で配布されます。Stage 1, 2 で使用された J-CHAT (CC-BY-NC 4.0) および LaboroTVSpeech (非商用限定) から継承された制約により、商用利用はできません。ベースの Moshika 単体は CC-BY-4.0 です。
| 役割 | 担当 |
|---|---|
| Base model & audio codec | Kyutai (Moshika, Mimi) |
| Text tokenizer | rinna (japanese-gpt2-medium) |
| Stage 1 / 2 学習コード・checkpoint | 大橋厚元 / 名古屋大学 対話研究グループ |
| Stage 3 / 4・統合・本ページ | 阿部雄斗 / 早稲田大学 |
| 学習データ提供 | sarulab-speech (J-CHAT), Reazon Holdings (ReazonSpeech), Laboro.AI (LaboroTV), LLM-JP (Zoom1) |
@misc{abe2026llm-jp-moshi-mstts-v0c-zoom1,
author = {Abe, Yuto and Ohashi, Atsumoto},
title = {llm-jp-moshi-mstts-v0c-zoom1: A Japanese multi-stream dialogue TTS model},
year = {2026},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/abePclWaseda/llm-jp-moshi-mstts-v0c-zoom1}}
}
@article{ohashi2025towards,
title = {Towards a Japanese Full-duplex Spoken Dialogue System},
author = {Ohashi, Atsumoto and Iizuka, Shinya and Jiang, Jingjing and Higashinaka, Ryuichiro},
journal = {arXiv preprint arXiv:2506.02979},
year = {2025}
}