Sparse Inertial Poser: Automatic 3D Human Pose Estimation from Sparse IMUs

Sparse Inertial Poser: Automatic 3D Human Pose Estimation from Sparse IMUs

Abst.
 少数の体に装着したIMUで屋外の全身モーションキャプチャーを実現する。今まではたくさんIMUを装着したり、ビデオが必要だった。我々はいくつかの異なるアプローチをとり、問題を制限する1.人体測定の制限を含むリアルな性的な体のモデルを利用する。2.モデルを観測されたIMUの情報にフィッティングさせるため、結合された最適化のフレームワークを利用する。結果、腕と足と腰と頭で、任意の動作を復元できる。

1.Intro
 SMPLモデルを利用する。フレームごとに推定するのは、安定しない。一度に全てのフレームをフィッティングする。観測されたセンサに矛盾のない、SMPLのパラメータを全フレーム一度に推定する。角度だけの推定精度と、SIPの異なる人間のモデルを利用した精度を確認した。

 2.Related Works
 IMUを利用した全身復元にフォーカスします。

2.1 Database retrieval and learning based methods
 [CH05]はローカルPCAモデルを利用して、小数の光学マーカを食えりとして、データベースから人のポーズを推定した。[LWC∗11]は6個のIMUで同様に、動きの復元を行った。[SMN09]はガウス過程を用いて、4個のIMUから全身の復元を行った。 [HKP∗
16]では、CNNで歩行のパラメータを抽出した。どれもデータベースに強く依存しており、データベースにない動きは復元できない。

2.2 Full-body IMU MoCap
 全身にIMUつけるのもあるけど、非常にめんどくさい。動画とIMUを組み合わせるものもある。

3. Background
 省略。
4. Sparse Inertial Poser
 6個のIMUから全身の動きを復元するのは、多分に不良設定問題だ。でも一連の動きに矛盾がないとか、考えると意外と問題は制限されてる。
 x*1:T = arg min x1:T Emotioin(x1:T, R1:T, a1:T)
xは各時刻のSMPLのパラメータ、Rはセンサの回転、aはセンサの加速度。
 Emotioin(x1:T, R1:T, a1:T)=wort・Eori(x1:T, R1:T)
            +wacc・Eacc(x1:T, a1:T)
            +wanthro・Eanthro(X1:T)
4.3 The Anthropometric Term
 人のポーズを制限するのに、多変量ガウス分布を用いる。平均姿勢uxと分散Σxを色々なSMPLから姿勢を推定する。これは動的でなく、静止したSMPLを利用する。

4.4 Energy Minimization
 Emotionは非線形性が強くて、最適化が困難だ。LM法で最適化する。

 

 

その他

・TNT15 dataset [MPMR16] は利用できないか見てみた方が良いかも



単語
anthropometric:人体測定
intrusive:煩わしい

Real-time Physics-based Motion Capture with Sparse Sensors

Real-time Physics-based Motion Capture with Sparse Sensors

Abst.
 少数の光学マーカとIMUから全身を復元する。小数のセンサでは全身を復元できない。関節のトルクと、接地パワーなどから動きの尤もらしいものを推定する。事前のモデルは内側の関節の推定改善にも役立つ。

1. Introduction
 光学式は大変だし、IMUはドリフトで大変。
 マーカー式とマーカレス式を組み合わせて頑張ります。
 体の尤もらしい動きを推定する。不明な部分はblack-boxな動きの事前分布を利用して補間する。

1.1.Related Work
Body Tracking by Inertial Sensors
 Kruger et al. [19]はkd-treeを使ってる。Liu et al. [22]はベイズを使ってる。今回は、IKとPCAの再構成[11]を発展させている。

1.2 System OUtline
 imuとマーカトラッキングキャリブレーションして、IKと同時に、ブラックボックスの動きの事前分布で動きを推定する。

2. Phisucs-Based Body Tracking
 IKの説明を色々します。

3. Motion Priors
 いくつかの異なる動きの事前分が実験では使われた。
Reference Pose
 これは最もシンプルだ。T-Poseオンリーでいく。
Pertubed ground truth
 高密度の光学マーカーとカメラのセットから再構築された骨格ポーズの前の「ゴールドスタンダード」モーションを検討します。 私たちのシステムは、そのようなシステムだけで構築された事前モーションを使用して評価されます。 ただし、各関節角度に適用されるガウスノイズ関数を使用してデータを摂動します。 これは、センサーデータからスケルトンの姿勢へのマッピングを学習しましたが、高周波ノイズまたはランダムエラーが発生しやすい事前モーションのクラスを表します。 特に明記しない限り、ラジアン単位の単位で、平均µ = 0および標準偏差σ= 0.12のガウスパラメーターがすべての実験で使用されます。
Clusterd mocap database
 オフラインステップとして、ChenおよびCai [12]によって提案されたスペクトルアルゴリズムを使用して、大規模なモーションキャプチャデータベースからのサンプルをクラスター化し、それを間引きします。 代表的なポーズのみを保存することにより、データベースのサイズが大幅に削減されます。 これにより、保存と検索がより効率的になります。 合成IMUと光学マーカーのセンサーデータが計算され、各ポーズと一緒にクラスター化データベースに保存されます。 実行時に、k最近傍アルゴリズムを使用して、逆四次重み付けスキームを使用して補間された、類似したポーズとセンサーデータの例を見つけます。 つまり、近くの各サンプルˆyの重みwが計算されます。
 w=1/dist(y, y^)^4
y=(θ, x, q)でxはマーカの位置、θはimuの姿勢、qはスケルトンの各姿勢。これで、データとyとデータセットy^の距離を測る。重み付け和か、下記式で表される。

 

その他
 事前分布をどうやってつかってるのかを参考にする。
 Kruger et al. [19]はkd-treeを使ってる。
  Liu et al. [22]はベイズを使ってる。

単語
Perturbed:摂動

Multivariate Time Series Missing Data Imputation Using Recurrent Denoising Autoencoder

Multivariate Time Series Missing Data Imputation Using Recurrent Denoising Autoencoder

Abst
 LSTMとDAEで消失データを埋める。

1. Inrto
 多変量の時系列データを考える。データの紛失は以下の理由が考えられる。MCAR:ランダムに消失して、周辺にも残ってない。MAR:ランダムに消失してるが、観測に依存している。MNAR:観測にも観測できていないところにも依存している。
 たくさんの研究で消失データの帰属が研究されている。LSTMやGRUには問題がある。LOCFは変数間の関係を無視するし、その性能はサンプリング周波数が低いと悪化する。Decay modelは過去のデータに依存するとするモデルだ。
 我々が提案するモデルは、LSTMとDAEに依存する。Bi-LSTMをエンコーダに利用し、変数間の相関を学習する。これは全ての時系列で行い、各時間で表現を取得する。0で適当に埋めて、それを復元させる。

 

感想
なんかデータを人工的に作ってるのは残念だな。(そりゃそうか。)
各々エンコードして、潜在変数に落として、個々に復元していく。

 

単語
ubiquitous:至る所にある
Multivariate:多変量
imputation:帰属
deteriorate:悪化させる
corrupt:破損した

Deep Recurrent Neural Networks for ECG Signal Denoising

Deep Recurrent Neural Networks for ECG Signal Denoising

Abst
 ECGのモデルを作って、学習して転移学習しました。

感想
[4]を読んでみたい。
ノイズの傾向が結構違うんだよなー。このくらいなら、カルマンフィルタとかでもいいのでは?

Denoising Gravitational Waves using Deep Learning with Recurrent Denoising Autoencoders

Denoising Gravitational Waves using Deep Learning with Recurrent Denoising Autoencoders

Abst
 重力波はノイジーで大変。トラディショナルなデノイジング手法ではだめ。bidir LSTMに基づく、Denoising Autoencoderでやってみまました。

Introduction
 辞書ベースは計算もが重くて大変。
 SMTDAEを教師無し学習でやってみる。

Methods
 重力はのデノイジングに当たり、automatic speech recognitionの技術を利用する。Multiple Timestep Denoising Autoencoder(MTDAE)では、ノイズあり1入力、ノイズ無し1出力で行く。
 

 

感想
[26, 32-34]を読みたい。
Denoising Autoencoderも分かってないかも。。
enc_decでもいいけど。。実装的にどうなんだろうか。

 

単語
astronomy:天文学
transient:一時的な
obscure:あいまいな
GW:gravitational wave

Deep RNNs for Video Denoising

Deep RNNs for Video Denoising

Abst
動画のデノイジングを提案する。パッチベースのend-to-endの学習で、クリーンとノイジーな動画列をマッピングする。

1.Intro
 Y=X+N(Xがきれいな動画、Yがノイズ動画、Nはノイズ)

2. Related Work
 ノイズ除去は長い歴史がる。
 動画は結構情報が冗長。パッチの一致を取る研究が色々ある。
 RNNの動画の超解像が良い結果を出した。

3. Model Desccription
3.1 Deep Recurrenct Neural Networks
 RNNを重ねるとDeep RNNになる。

3.2 Deep RNNs for Video Denoising
 x^t = y^t + n^t
 画像の一部分を時系列でRNNに突っ込んでいって、真ん中のフレームを再構成する。

 

 感想
シンプルだなー。
陽にパッチを保持するわけではないんだなー。

しかし、やはり正解の対応が無い場合はどうすればいいの?

 

単語
accommodating:収容する