TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS

TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS

Abst
 テキストからの音声生成は通常複数のステージがあるけど、それだと複数のドメインエキスパートが必要になるから、end-to-endでできるようにしました。

1. Introduction
 複数のモジュール構成は大変。ダイレクトにできたら、アノテーションも少なくて、うれしいはず。でも発音には色々あるから、テキストから発音を構成するのは基本無理。seq2seqとattentionを組み合わせて頑張ります。

2. Related Work
 WaveNetは遅いし、発音の特徴が必要。DeepVoiceは全部NNにしたけど、個々の学習が必要。似たやつもあるけど、中々学習が大変。また、事前学習をするやつもあるけど、我々はやらない。

3. Model Architecture
3.1 CBHG Module
 CBGHはシークエンスから表現を抽出する強力なモジュールだ。まず、畳み込んで、maxpoolをとる。これに畳み込んで、またresnetで入力とつなぐ。(これ使うなら、実装をコードで見に行こうかなー)(Bidirectional LSTMって出力は何になるの?)
3.2 Encoder
3.3 Decoder
 
 
  

メモ
 生成の周りだけ、わかればいいかなー。
 bidirectionalの様子:https://qiita.com/gacky01/items/f2537468b7381269588b

 わかりやすいなー。
 結局エンコーダはこれでよくて、デコーダは自己回帰系でやればいいのか?
 え、もしかして、スペクトログラムから波形の生成をしている?位相も大丈夫なの?
 まぁちゃんと調べるのは2でいいかな。

 

単語
 prosody:韻律論
 dubbed:吹き替え