2020-03-13から1日間の記事一覧

WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS

WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS Abst WaveGlow:メルスペクトログラムからスピーチを生成する手法を提案。高速化のため、自己回帰をやめる。 1. Intro スピーチ生成のアプリは生成の速さが大事。 TTSタスクでは、エンコーダ…

NON-PARALLEL VOICE CONVERSION USING VARIATIONAL AUTOENCODERS CONDITIONED BY PHONETIC POSTERIORGRAMS AND D-VECTORS

Abst

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAMPREDICTIONS Abst Tacotron2について紹介する。seq2seqでテキストから、音声のmel-scale spectrogramを生成する。 1. Inrtro 色々生成モデルはあったけど、ノイズがあったし、人っぽくなか…

TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS

TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS Abst テキストからの音声生成は通常複数のステージがあるけど、それだと複数のドメインエキスパートが必要になるから、end-to-endでできるようにしました。 1. Introduction 複数のモジュール構成は大変。ダ…