---
title: VALL‑E‑X_JP-Voice-Cloner
emoji: 🎙️
colorFrom: indigo
colorTo: pink
sdk: gradio
sdk_version: 5.25.2
app_file: app.py
pinned: false
license: mit
short_description: 5秒の音声で話者をクローン
---

# 🎙️ VALL‑E‑X_JP-Voice-Cloner

Zero-shot 音声クローンができる日本語対応の音声合成アプリです。  
1〜3秒の音声サンプルと台本テキストを入力するだけで、  
**話者の特徴を保持した新しいセリフ音声を生成**できます。  
モデルは Microsoft の [VALL-E X](https://arxiv.org/pdf/2303.03926) を再現・公開した  
[Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) に基づいています。

---

## 🐾 特徴

- 🇯🇵 **日本語対応**：日本語音声の入力・出力が可能
- 🎙️ **Zero-shot Cloning**：3秒の音声と文字起こしで話者再現
- 📜 **テキスト合成**：好きな台本で喋らせられる
- 🐱 **カジュアルUI**：誰でも使いやすい Gradio Web UI

---

## 🚀 使い方

1. 左側のパネルから
   - クローンしたい話者の音声（WAV）
   - その文字起こし（必須）
   - 話させたい台本テキスト（任意）
   を入力
2. 「🎙️ 音声生成」ボタンをクリック
3. 右側に生成音声が再生可能な状態で表示されます🎧

---

## 💻 動作環境

- 推論には CPU でも動作可能ですが、GPU があると高速です
- 利用している主なライブラリ：
  - `torch`, `torchaudio`, `encodec`, `gradio`, `pyopenjtalk-prebuilt`, `openai-whisper`, など

---

## 🔗 モデルについて

このアプリは、[Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) によって公開された  
MITライセンスのコードおよび学習済みモデル（vallex-checkpoint.pt）を利用しています。  

モデルの詳細やアーキテクチャは[こちらのモデルカード](https://github.com/Plachtaa/VALL-E-X/blob/main/model-card.md)をご覧ください。

> This app uses the pretrained VALL-E X model by [Plachtaa](https://github.com/Plachtaa/VALL-E-X), released under the MIT License.

---

## 📜 ライセンス

本アプリケーションおよび構成コードは **MIT License** に基づいて公開されています。  
学習済みモデル・データセットの利用は、各リソースの元ライセンスに従ってください。

---

## 🧠 クレジット・参考文献

- [VALL-E X 論文](https://arxiv.org/pdf/2303.03926)
- [Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X)
- [Facebook EnCodec](https://github.com/facebookresearch/encodec)
- [OpenAI Whisper](https://github.com/openai/whisper)

---