NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM
PREDICTIONS
Abst
Tacotron2について紹介する。seq2seqでテキストから、音声のmel-scale spectrogramを生成する。
1. Inrtro
色々生成モデルはあったけど、ノイズがあったし、人っぽくなかった。
WaveNetは成功をおさめたが、学習はまだ難しい。
tacotronは特徴抽出も自動でやって、スペクトログラムを生成し、Griffin-Lim algで位相の推定をして、波形生成をしていた。でもこれは、あまり生成モデルとして、良くなく、単純にwavenetの代わりとして使っていたといっていた。
よって、この論文では、seq2seqでテキストを解析し、wavenetで生成を行う。
2. Model Architecture
(1)再帰型seq2seqの特徴推定。これはattentionでシーケンスのメルスペクトログラムを入力から推定する。(2)修正されたWaveNetでメルスペクトログラムから波形の生成を行う。
2.1. Intermediate Feature Representation
二つのコンポーネントの橋渡しとして、mel-周波数スペクトログラムを利用する。
2.3 WaveNet Vocoder
参考
https://akifukka.hatenablog.com/entry/tacotrn2_1
https://akifukka.hatenablog.com/entry/tacotrn2_2
https://akifukka.hatenablog.com/entry/tacotrn2_3
メモ
やっぱり詳しいモジュールの話は、実際に実装するときでいいかなー。
固定長でデコードして、長さは後で線形補完しようかな。。(出力の長さはわかってるからな。。)
PixelCNN++ とParallel WaveNetのデコードを見ておいた方がいいのかな。
とりあえず、なんか適当にコードを書きたくなってきたなー。
単語
muffled:音を殺した