Sparse Inertial Poser: Automatic 3D Human Pose Estimation from Sparse IMUs

Sparse Inertial Poser: Automatic 3D Human Pose Estimation from Sparse IMUs

Abst.
　少数の体に装着したIMUで屋外の全身モーションキャプチャーを実現する。今まではたくさんIMUを装着したり、ビデオが必要だった。我々はいくつかの異なるアプローチをとり、問題を制限する１．人体測定の制限を含むリアルな性的な体のモデルを利用する。２．モデルを観測されたIMUの情報にフィッティングさせるため、結合された最適化のフレームワークを利用する。結果、腕と足と腰と頭で、任意の動作を復元できる。

1.Intro
　SMPLモデルを利用する。フレームごとに推定するのは、安定しない。一度に全てのフレームをフィッティングする。観測されたセンサに矛盾のない、SMPLのパラメータを全フレーム一度に推定する。角度だけの推定精度と、SIPの異なる人間のモデルを利用した精度を確認した。

2.Related Works
　IMUを利用した全身復元にフォーカスします。

2.1 Database retrieval and learning based methods
　[CH05]はローカルPCAモデルを利用して、小数の光学マーカを食えりとして、データベースから人のポーズを推定した。[LWC∗11]は6個のIMUで同様に、動きの復元を行った。[SMN09]はガウス過程を用いて、4個のIMUから全身の復元を行った。 [HKP∗
16]では、CNNで歩行のパラメータを抽出した。どれもデータベースに強く依存しており、データベースにない動きは復元できない。

2.2 Full-body IMU MoCap
　全身にIMUつけるのもあるけど、非常にめんどくさい。動画とIMUを組み合わせるものもある。

3. Background
　省略。
4. Sparse Inertial Poser
　6個のIMUから全身の動きを復元するのは、多分に不良設定問題だ。でも一連の動きに矛盾がないとか、考えると意外と問題は制限されてる。
　x*1:T = arg min x1:T Emotioin(x1:T, R1:T, a1:T)
xは各時刻のSMPLのパラメータ、Rはセンサの回転、aはセンサの加速度。
　Emotioin(x1:T, R1:T, a1:T)=wort・Eori(x1:T, R1:T)
　　　　　　　　　　　　+wacc・Eacc(x1:T, a1:T)
　　　　　　　　　　　　+wanthro・Eanthro(X1:T)
4.3 The Anthropometric Term
　人のポーズを制限するのに、多変量ガウス分布を用いる。平均姿勢uxと分散Σxを色々なSMPLから姿勢を推定する。これは動的でなく、静止したSMPLを利用する。

4.4 Energy Minimization
　Emotionは非線形性が強くて、最適化が困難だ。LM法で最適化する。

その他

・TNT15 dataset [MPMR16] は利用できないか見てみた方が良いかも

単語
anthropometric：人体測定
intrusive：煩わしい