NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM
PREDICTIONS

Abst
　Tacotron2について紹介する。seq2seqでテキストから、音声のmel-scale spectrogramを生成する。

1. Inrtro
　色々生成モデルはあったけど、ノイズがあったし、人っぽくなかった。
　WaveNetは成功をおさめたが、学習はまだ難しい。
　tacotronは特徴抽出も自動でやって、スペクトログラムを生成し、Griffin-Lim algで位相の推定をして、波形生成をしていた。でもこれは、あまり生成モデルとして、良くなく、単純にwavenetの代わりとして使っていたといっていた。
　よって、この論文では、seq2seqでテキストを解析し、wavenetで生成を行う。

2. Model Architecture
　（１）再帰型seq2seqの特徴推定。これはattentionでシーケンスのメルスペクトログラムを入力から推定する。（２）修正されたWaveNetでメルスペクトログラムから波形の生成を行う。

2.1. Intermediate Feature Representation
　二つのコンポーネントの橋渡しとして、mel-周波数スペクトログラムを利用する。

2.3 WaveNet Vocoder
　
　
　

参考
　https://akifukka.hatenablog.com/entry/tacotrn2_1
　https://akifukka.hatenablog.com/entry/tacotrn2_2
　https://akifukka.hatenablog.com/entry/tacotrn2_3

メモ
　やっぱり詳しいモジュールの話は、実際に実装するときでいいかなー。
　固定長でデコードして、長さは後で線形補完しようかな。。（出力の長さはわかってるからな。。）
　PixelCNN++ とParallel WaveNetのデコードを見ておいた方がいいのかな。
　とりあえず、なんか適当にコードを書きたくなってきたなー。

単語
　muffled：音を殺した