2020-01-01から1年間の記事一覧
SMPL: A Skinned Multi-Person Linear Model Abst. 体の形とポーズに依存した人体モデル「Skinned Multi-Person Linear Model(SMPL)」を紹介する。今までのものとは違い、ポーズの合成形状はポーズの回転行列に対して線形だ。 1. Intro 我々の目標は、リアル…
Abst. 顔画像を直接近さが測れるユークリッド空間に落とせるFaceNetを開発した。これにより、顔認証やクラスタリングができてうれしいよ。 1. Inrto 顔画像をDeepで埋め込みベクトルにして、顔の近さ=L2距離にする。 今までボトルネック層を使ってたけど、…
Abst. 細分化された画像の近さを測るのは大変。クラス間やクラス内のきょりなど。。画像からDeepを使って、直接距離を測ってみます。 1. Inro クエリ画像に近いものを探すのは、近年の画像サーチエンジンに必須だ。 よくあるのは、カテゴリレベルの近さだ。…
下記を基本的にベースに。 Triplet Loss 徹底解説 Contrastive Lossってなに? Siamese Networkと損失関数のContrastive Loss ・Siameseによる推論フロー 1. ネットワークにペア画像を入力2. 得られた特徴ベクトルを空間に埋め込む3. 最適な距離Dを出力する…
Full-Body Locomotion Reconstruction of Virtual Characters Using a Single Inertial Measurement Unit Abst. 一個のIMUから全身を復元する。でも動作は自由度が高すぎて、かなり難しい。まず、ユーザの全身歩行とIMUのデータを同時に取得する。現在の歩行…
Deep Inertial Poser: Learning to Reconstruct Human Pose from Sparse Inertial Measurements in Real Time Abst. 6個の慣性センサで全身復元をする。いくつか問題がある。1.IMUの状態に相当するポーズは複数ある(不良設定問題)。2.IMUを付けながら…
Sparse Inertial Poser: Automatic 3D Human Pose Estimation from Sparse IMUs Abst. 少数の体に装着したIMUで屋外の全身モーションキャプチャーを実現する。今まではたくさんIMUを装着したり、ビデオが必要だった。我々はいくつかの異なるアプローチをとり…
Real-time Physics-based Motion Capture with Sparse Sensors Abst. 少数の光学マーカとIMUから全身を復元する。小数のセンサでは全身を復元できない。関節のトルクと、接地パワーなどから動きの尤もらしいものを推定する。事前のモデルは内側の関節の推定…
Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude Estimation Abst デッドレコニングで真値を使って、ジャイロからノイズを除去する手法を提案する。 ジャイロ値そのものではなく、姿勢でlossを取る
Multivariate Time Series Missing Data Imputation Using Recurrent Denoising Autoencoder Abst LSTMとDAEで消失データを埋める。 1. Inrto 多変量の時系列データを考える。データの紛失は以下の理由が考えられる。MCAR:ランダムに消失して、周辺にも残っ…
Deep Recurrent Neural Networks for ECG Signal Denoising Abst ECGのモデルを作って、学習して転移学習しました。 感想[4]を読んでみたい。ノイズの傾向が結構違うんだよなー。このくらいなら、カルマンフィルタとかでもいいのでは?
Denoising Gravitational Waves using Deep Learning with Recurrent Denoising Autoencoders Abst 重力波はノイジーで大変。トラディショナルなデノイジング手法ではだめ。bidir LSTMに基づく、Denoising Autoencoderでやってみまました。 Introduction 辞…
Deep RNNs for Video Denoising Abst動画のデノイジングを提案する。パッチベースのend-to-endの学習で、クリーンとノイジーな動画列をマッピングする。 1.Intro Y=X+N(Xがきれいな動画、Yがノイズ動画、Nはノイズ) 2. Related Work ノイズ除去は長い歴史が…
Abst適応的に、画像のノイズ除去のために、パッチベースの画像の事前分布を学習する。データべースから一般的な事前分布を学習して、ある画像に対して、特別な事前分布を出力する。今まではこのへんアドホックだったけど、厳密にベイジアンの理論から導かれ…
WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS Abst WaveGlow:メルスペクトログラムからスピーチを生成する手法を提案。高速化のため、自己回帰をやめる。 1. Intro スピーチ生成のアプリは生成の速さが大事。 TTSタスクでは、エンコーダ…
Abst
NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAMPREDICTIONS Abst Tacotron2について紹介する。seq2seqでテキストから、音声のmel-scale spectrogramを生成する。 1. Inrtro 色々生成モデルはあったけど、ノイズがあったし、人っぽくなか…
TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS Abst テキストからの音声生成は通常複数のステージがあるけど、それだと複数のドメインエキスパートが必要になるから、end-to-endでできるようにしました。 1. Introduction 複数のモジュール構成は大変。ダ…
SAMPLERNN: AN UNCONDITIONAL END-TO-END NEURAL AUDIO GENERATION MODEL Abstract 条件なしでオーディオ信号を一度に作る手法を提案する。我々のモデルは階層構造中で自己回帰マルチレイヤパーセプトロンというメモリの少ないモジュールと、ステートフルなr…
WAVENET: A GENERATIVE MODEL FOR RAW AUDIO Abst. このモデルは確率的で自己回帰的だ。予測は今までのすべてで条件づけられる。テキスト-to-speechではsotaだ。WaveNetは異なる人の特徴をとらえて、スイッチすることができる。これはまた、話者の識別モデル…
・Abstract 色々なマーカレスmocapの提案があるが、実用化はあまりされていない。複数台カメラを用いる、マーカレスの正確で滑らかなmocapを提案する。これは、広大なスペースで複数人いても大丈夫なものだ。キーアイディアは、各人の3Dポーズを推定し、複数…
はじめに ・この記事について 1. リビングのリモコンの増加→スマホで操作したい。 2. 売ってる奴の評価があまりよくない 3. 自分で作ろう ・この記事でできること raspberry pi zero WH と ADRSIRを用いて、アレクサから家電操作をできるようになる。 ・購入…