NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM
PREDICTIONS

Abst
 Tacotron2について紹介する。seq2seqでテキストから、音声のmel-scale spectrogramを生成する。

1. Inrtro
 色々生成モデルはあったけど、ノイズがあったし、人っぽくなかった。
 WaveNetは成功をおさめたが、学習はまだ難しい。
 tacotronは特徴抽出も自動でやって、スペクトログラムを生成し、Griffin-Lim algで位相の推定をして、波形生成をしていた。でもこれは、あまり生成モデルとして、良くなく、単純にwavenetの代わりとして使っていたといっていた。
 よって、この論文では、seq2seqでテキストを解析し、wavenetで生成を行う。

2. Model Architecture
 (1)再帰型seq2seqの特徴推定。これはattentionでシーケンスのメルスペクトログラムを入力から推定する。(2)修正されたWaveNetでメルスペクトログラムから波形の生成を行う。

2.1. Intermediate Feature Representation
 二つのコンポーネントの橋渡しとして、mel-周波数スペクトログラムを利用する。

2.3 WaveNet Vocoder
 
 
 

参考
 https://akifukka.hatenablog.com/entry/tacotrn2_1
 https://akifukka.hatenablog.com/entry/tacotrn2_2
 https://akifukka.hatenablog.com/entry/tacotrn2_3

メモ
 やっぱり詳しいモジュールの話は、実際に実装するときでいいかなー。
 固定長でデコードして、長さは後で線形補完しようかな。。(出力の長さはわかってるからな。。)
 PixelCNN++ とParallel WaveNetのデコードを見ておいた方がいいのかな。
 とりあえず、なんか適当にコードを書きたくなってきたなー。

 

単語
 muffled:音を殺した