SMPL: A Skinned Multi-Person Linear Model

SMPL: A Skinned Multi-Person Linear Model Abst. 体の形とポーズに依存した人体モデル「Skinned Multi-Person Linear Model(SMPL)」を紹介する。今までのものとは違い、ポーズの合成形状はポーズの回転行列に対して線形だ。 1. Intro 我々の目標は、リアル…

2020-05-03

FaceNet: A Unified Embedding for Face Recognition and Clustering

Abst. 顔画像を直接近さが測れるユークリッド空間に落とせるFaceNetを開発した。これにより、顔認証やクラスタリングができてうれしいよ。 1. Inrto 顔画像をDeepで埋め込みベクトルにして、顔の近さ＝L2距離にする。今までボトルネック層を使ってたけど、…

2020-05-02

Learning Fine-grained Image Similarity with Deep Ranking

Abst. 細分化された画像の近さを測るのは大変。クラス間やクラス内のきょりなど。。画像からDeepを使って、直接距離を測ってみます。 1. Inro クエリ画像に近いものを探すのは、近年の画像サーチエンジンに必須だ。よくあるのは、カテゴリレベルの近さだ。…

2020-05-02

距離学習

下記を基本的にベースに。 Triplet Loss 徹底解説 Contrastive Lossってなに？ Siamese Networkと損失関数のContrastive Loss ・Siameseによる推論フロー 1. ネットワークにペア画像を入力2. 得られた特徴ベクトルを空間に埋め込む3. 最適な距離Dを出力する…

2020-04-17

Full-Body Locomotion Reconstruction of Virtual Characters Using a Single Inertial Measurement Unit

Full-Body Locomotion Reconstruction of Virtual Characters Using a Single Inertial Measurement Unit Abst. 一個のIMUから全身を復元する。でも動作は自由度が高すぎて、かなり難しい。まず、ユーザの全身歩行とIMUのデータを同時に取得する。現在の歩行…

2020-04-17

Deep Inertial Poser: Learning to Reconstruct Human Pose from Sparse Inertial Measurements in Real Time

Deep Inertial Poser: Learning to Reconstruct Human Pose from Sparse Inertial Measurements in Real Time Abst. 6個の慣性センサで全身復元をする。いくつか問題がある。１．IMUの状態に相当するポーズは複数ある（不良設定問題）。２．IMUを付けながら…

2020-04-17

Sparse Inertial Poser: Automatic 3D Human Pose Estimation from Sparse IMUs

Sparse Inertial Poser: Automatic 3D Human Pose Estimation from Sparse IMUs Abst. 少数の体に装着したIMUで屋外の全身モーションキャプチャーを実現する。今まではたくさんIMUを装着したり、ビデオが必要だった。我々はいくつかの異なるアプローチをとり…

2020-04-15

Real-time Physics-based Motion Capture with Sparse Sensors

Real-time Physics-based Motion Capture with Sparse Sensors Abst. 少数の光学マーカとIMUから全身を復元する。小数のセンサでは全身を復元できない。関節のトルクと、接地パワーなどから動きの尤もらしいものを推定する。事前のモデルは内側の関節の推定…

2020-04-01

Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude Estimation

Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude Estimation Abst デッドレコニングで真値を使って、ジャイロからノイズを除去する手法を提案する。ジャイロ値そのものではなく、姿勢でlossを取る

2020-04-01

Multivariate Time Series Missing Data Imputation Using Recurrent Denoising Autoencoder

Multivariate Time Series Missing Data Imputation Using Recurrent Denoising Autoencoder Abst LSTMとDAEで消失データを埋める。 1. Inrto 多変量の時系列データを考える。データの紛失は以下の理由が考えられる。MCAR:ランダムに消失して、周辺にも残っ…

2020-04-01

Deep Recurrent Neural Networks for ECG Signal Denoising

Deep Recurrent Neural Networks for ECG Signal Denoising Abst ECGのモデルを作って、学習して転移学習しました。感想[4]を読んでみたい。ノイズの傾向が結構違うんだよなー。このくらいなら、カルマンフィルタとかでもいいのでは？

2020-04-01

Denoising Gravitational Waves using Deep Learning with Recurrent Denoising Autoencoders

Denoising Gravitational Waves using Deep Learning with Recurrent Denoising Autoencoders Abst 重力波はノイジーで大変。トラディショナルなデノイジング手法ではだめ。bidir LSTMに基づく、Denoising Autoencoderでやってみまました。 Introduction 辞…

2020-04-01

Deep RNNs for Video Denoising

Deep RNNs for Video Denoising Abst動画のデノイジングを提案する。パッチベースのend-to-endの学習で、クリーンとノイジーな動画列をマッピングする。 1.Intro Y=X+N(Xがきれいな動画、Yがノイズ動画、Nはノイズ) 2. Related Work ノイズ除去は長い歴史が…

2020-04-01

Adaptive Image Denoising by Mixture Adaptation

Abst適応的に、画像のノイズ除去のために、パッチベースの画像の事前分布を学習する。データべースから一般的な事前分布を学習して、ある画像に対して、特別な事前分布を出力する。今まではこのへんアドホックだったけど、厳密にベイジアンの理論から導かれ…

2020-03-13

WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS

WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS Abst WaveGlow:メルスペクトログラムからスピーチを生成する手法を提案。高速化のため、自己回帰をやめる。 1. Intro スピーチ生成のアプリは生成の速さが大事。 TTSタスクでは、エンコーダ…

2020-03-13

NON-PARALLEL VOICE CONVERSION USING VARIATIONAL AUTOENCODERS CONDITIONED BY PHONETIC POSTERIORGRAMS AND D-VECTORS

Abst

2020-03-13

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAMPREDICTIONS Abst Tacotron2について紹介する。seq2seqでテキストから、音声のmel-scale spectrogramを生成する。 1. Inrtro 色々生成モデルはあったけど、ノイズがあったし、人っぽくなか…

2020-03-13

TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS

TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS Abst テキストからの音声生成は通常複数のステージがあるけど、それだと複数のドメインエキスパートが必要になるから、end-to-endでできるようにしました。 1. Introduction 複数のモジュール構成は大変。ダ…

2020-02-28

SAMPLERNN: AN UNCONDITIONAL END-TO-END NEURAL AUDIO GENERATION MODEL

SAMPLERNN: AN UNCONDITIONAL END-TO-END NEURAL AUDIO GENERATION MODEL Abstract 条件なしでオーディオ信号を一度に作る手法を提案する。我々のモデルは階層構造中で自己回帰マルチレイヤパーセプトロンというメモリの少ないモジュールと、ステートフルなr…

2020-02-21

2016wavenet

WAVENET: A GENERATIVE MODEL FOR RAW AUDIO Abst. このモデルは確率的で自己回帰的だ。予測は今までのすべてで条件づけられる。テキスト-to-speechではsotaだ。WaveNetは異なる人の特徴をとらえて、スイッチすることができる。これはまた、話者の識別モデル…

2020-01-31

Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space Multi-Person Video Motion Capture in the Wild

・Abstract 色々なマーカレスmocapの提案があるが、実用化はあまりされていない。複数台カメラを用いる、マーカレスの正確で滑らかなmocapを提案する。これは、広大なスペースで複数人いても大丈夫なものだ。キーアイディアは、各人の3Dポーズを推定し、複数…

2020-01-13

raspberry pi と ADRSIRとアレクサで家電操作 with macbook

はじめに・この記事について 1. リビングのリモコンの増加→スマホで操作したい。 2. 売ってる奴の評価があまりよくない 3. 自分で作ろう・この記事でできること raspberry pi zero WH と ADRSIRを用いて、アレクサから家電操作をできるようになる。・購入…

mueda_masiの日記

2020-01-01から1年間の記事一覧

SMPL: A Skinned Multi-Person Linear Model

FaceNet: A Unified Embedding for Face Recognition and Clustering

Learning Fine-grained Image Similarity with Deep Ranking

距離学習

Full-Body Locomotion Reconstruction of Virtual Characters Using a Single Inertial Measurement Unit

Deep Inertial Poser: Learning to Reconstruct Human Pose from Sparse Inertial Measurements in Real Time

Sparse Inertial Poser: Automatic 3D Human Pose Estimation from Sparse IMUs

Real-time Physics-based Motion Capture with Sparse Sensors

Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude Estimation

Multivariate Time Series Missing Data Imputation Using Recurrent Denoising Autoencoder

Deep Recurrent Neural Networks for ECG Signal Denoising

Denoising Gravitational Waves using Deep Learning with Recurrent Denoising Autoencoders

Deep RNNs for Video Denoising

Adaptive Image Denoising by Mixture Adaptation

WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS

NON-PARALLEL VOICE CONVERSION USING VARIATIONAL AUTOENCODERS CONDITIONED BY PHONETIC POSTERIORGRAMS AND D-VECTORS

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS

SAMPLERNN: AN UNCONDITIONAL END-TO-END NEURAL AUDIO GENERATION MODEL

2016wavenet

Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space Multi-Person Video Motion Capture in the Wild

raspberry pi と ADRSIRとアレクサで家電操作 with macbook