2016wavenet

WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

 

Abst.
 このモデルは確率的で自己回帰的だ。予測は今までのすべてで条件づけられる。テキスト-to-speechではsotaだ。WaveNetは異なる人の特徴をとらえて、スイッチすることができる。これはまた、話者の識別モデルでも使えるはずだ。

 

1.Introduction
 これは最近のニューラル自己回帰生成モデルに触発されてはじめた。
 PixelRNNは高次の画像をモデル化できる。これらは高解像の音声データにも通用するのか?
 この論文はPixelCNNに則っている。貢献は以下だ。
1. WaveNetはスピーチをかつてないほどリアルに生成できる。
2. 長い時系列依存が必要になるので、dilted causual convolutionを導入しました。
3. 話者が条件付けられれば、一つのモデルで複数の話者を生成できる。
4. 小さいスピーチのデータセットでもうまくいったし、音楽にも応用できるはず。
 色々な音声にかかわる分野で結果を残せるはず。

2.WaveNet
 ある信号x={x1,...,xT}の同時確率p(x)は(1)で表される。すべてのサンプル点xtがそれまでの過去により条件づけられる。
 PixelCNNと同じように、条件付き確率の分布は畳み込みレイヤにためられる。ネットワークにはpoolingがなく、モデルのアウトプットは入力と同じ次元になる。モデルの出力は次の値の確率を出力する。対数尤度は扱いやすいし、モデルのoverfit、underfitも分かる。

2.1 Dilated Causal convolutions
 WavNetの主な特徴はcausal convolutionだ。これにより、モデルがデータの順番を違反することを防げる。p(xt+1|x1,...,xt)は未来の情報に依存できない。データを全て一回ずつ使うなら、間隔を広げていけば、receptive fieldをかなり広げられる。

2.2 Softmax Distribution
 値の分布の形は、混合ガウスとかではなく、各ピクセル値のsoftmaxでいく。値がでかいので、量子化して行う。

2.3 Gated Activation Units
 PixelCNNと同じユニットを使う
z = tanh(Wf,k * x)・σ(Wg,k * x)
 *は畳み込みで、・は要素積。σはシグモイド関数Wは学習パラメータ。LeRUとかより良い感じ。

2.4 residual and skip connections
 収束速度の向上とより深いネットワークの為に、rsidualとparameterised skip connectionが使われる。図4がたくさん重ねられる。

2.5 Conditional Wavenets
 hという追加の入力があった場合、条件付き確率になるり、過去のデータ+hで条件づけられる。これにより狙った生成が可能になる。例えば話者で条件づけたり。
 二種類の情報で条件づける:全体的と局所的。全体的は全ての時刻の出力に関与する。例えば、アクティベーションは入力にVhが入る。
 局所条件付けでは、入力より短い周波数のサンプリングのデータで、入力の周波数にアップサンプリングして利用する。

2.6 Context Stacks
 WaveNetの受容野を広げる方法について、述べてきた。補完的な方法は、信号の長い領域を処理し、局所を条件づける、小さなコンテキストの積み重ねを利用することだ。様々な長さと隠れ層の複数のコンテキストスタックを使うこともできる。広い受容野のスタックはレイヤごとのユニットは小さくなる。これはpoolingしてもよい。

 

3.4 Speech Recognition
 識別モデルでは、LSTMを使うことが多かったけど、今回のことで、容易に受容野をふやすことができるようになった。このタスクでは平均poolingを拡張畳み込みの後に追加し、160倍のダウンサンプリングをしました。lossは通常の予測とクラスの予測を用いたところ、良い性能であった。

 

単語
fidelity:忠実
tractable:扱いやすい
ingredient:成分
complementary:補完的

 

疑問点
結局畳み込みの具体的なやり方がよくわからなかったなー。
→まぁここはコード見ればいいかな。
特徴ベクトルの作り方はよくわからなかったなー。
VAEのエンコーダ的な役割はできない?