Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space Multi-Person Video Motion Capture in the Wild

 

・Abstract
 色々なマーカレスmocapの提案があるが、実用化はあまりされていない。複数台カメラを用いる、マーカレスの正確で滑らかなmocapを提案する。これは、広大なスペースで複数人いても大丈夫なものだ。キーアイディアは、各人の3Dポーズを推定し、複数カメラの十分小さい矩形領域を決定することだ。人間の骨格構造を用いた、この予測と時空間のフィルタリングは、人の3D復元を容易にし、精度に貢献する。正確な3D復元はまた、次のフレームの各カメラ内の矩形を推定するのに利用される。これは3Dモーションから2Dポーズへのフィードバックだで、これはシナジー効果をもたらし、全体のパフォーマンスを向上させる。

 

・1.Intro
 人間のモーションデータは色々なところで利用される。これを得るにはいろいろな方法がある、光学マーカ式mocapやIMUのmocapなど。マーカレスの深度カメラ、単眼/複数カメラ。でも限られた環境でしか利用されてない。
 なぜ実際の環境でダメなのか?mocapは現実環境では厳しい条件だからだ。人間の動きは連続だから、motionデータも連続でなくてはいけない。現実世界には難しい要素が三つある。一つ目は複数人数だ。オクルージョンや、人物同定が大変。二つ目は、広大なフィールドだ。広いとキャリブレーションエラーも上がる。また、開けていると、対象が範囲から出たり、違う人が入ったりする。さらにイベントによっては、マーカやIMUを付けられない。さらに他にも、ライトのコンディションや、センサが適切な位置で使えないなどある。よって、最新技術でも中々大変。
 ここでは、一人のmocap法を拡張して、複数人の正確で滑らかな3Dの画像ベース復元を議論する。我々は、異なる方向からの同期された複数の校正済みカメラを用いる。同様に、復元のために、関節の動きのフィルタリングを利用して人間の骨格モデルも利用する。キーアイディアは、3Dのポーズを推定し、十分小さい矩形を決めることだ。矩形を使うと、top-downで対象のkeypointsの位置を推定できる。それらは関節のヒートマップを受ける。各カメラのPCMと3Dポーズの推定により、キーポイントは推定される。双方の誤差を最小化することで、3Dポーズが復元される。これは次のフレームで矩形推定に利用される。これはトータルのパフォーマンスを向上させる。
 実験では色々な環境でためした。Inverse Kinematic(逆運動)により、関節の角度も算出可能になる。

 

・2. Related work

・2.1.Single-view pose estimation
 単眼姿勢推定では、画像から関節の二次元位置を特定する。基本的に二つのアプローチがある。top-dwonアプローチでは、まず画像内で人の位置を特定し、キーポイントを特定する。bottom-upアプローチでは、まずすべてのキーポイントを特定し、関節をくっつけていく。通常top-downの方が正確で、bottom-upの方が高速だ。しかし、top-downでは、人の検出がかなり精度にかかわる。よって、オクルージョンがあると、失敗しやすい。
 再帰は3Dポーズ推定も盛んだ。これは2Dの関節を三次元にもっていく。でも3Dの姿勢推定は基本的に不良問題設定だ。いろいろな仮定が必要になる。だから、こみった環境ではやはり、複数カメラを使ったほうがよい。

・2.2.Multi-view 3D pose estimation
 複数画像からの3Dポーズ推定は広く研究されている。最新のやつでは、体の三次元位置を複数カメラで特定し、連続して、その領域を追跡する。このトラッキングベースのアプローチは、ポーズを独立して推定できる。これは、非常に良い結果だった。しかし、人の詳細なモデルを事前に作る必要があった。よって、光の状態とか服の色とかで失敗しやすい。
 近年は、2Dポーズ推定の発展が目覚ましいので、それを複数台で組み合わせて3Dにするものも多い。しかし、それらは2Dポーズの推定が難しい場合、関節の3D復元をしない。
 早い研究はbottom-upのアプローチをとって、複数台のカメラで3D関節推定の後平滑化して、高精度を達成した。しかし、みっつ問題があった。一つは、一人専用で、複数人に対応してなかった。二つ目は、4台のカメラの重なる狭いスペースしか対象ではなかった。三つめに、フィルタリングのためにIkを計算するとき、RoMを考慮してなかった。これらの欠点をこの論文では克服する。

 

・3.Synergitic reconstruction
 提案3D復元システムはnc個のカメラでnpの人数を対象に行われる。カメラから見えなくなることを防ぐため、一か所に複数の異なる方向を向いたカメラを設置する。
 各対象のキーポイントはtop-downで推定される(HRNet)。これで、PCMを得る。PCMを各関節のピクセルの代わりに使う。PCMで最適な人間の骨格を生成する。骨格モデルは40DoFだ。次のフレームの3D位置も正確に算出される。ポーズの情報はHRNetに矩形情報として、渡される。これを繰り返す。
 初期化周りは付録に書きます。

 

・3.1.Determine bounding box from 3D motion
 最近、top-downの姿勢推定は目覚ましい。矩形さえしっかりしていれば、オクルージョンがあってもかなり正確に推定できる。でも複数人数は中々難しい。矩形が難しいから。。
 提案手法は高精度なmocapを実現できる。フレームレートが大丈夫なら、過去の3Dモーションから正確な現在の3Dモーションを推定できる。矩形も同様に算出できる。基本的に、HRNetを利用する。入力画像はW'H'3にトリムされ、PCMが計算される。
 HRNetは体がそんなに傾いていない仮定があるので、傾いているときは、画像ごと傾ける。これには首の位置とかを使う。
 カメラは見えているやつだけ使う。

・3.2 Spatiotemporal 3D motion reconstruction
 上記手法は検出ミスで死んだりする。でも、PCMは正しい検出確率を作っている可能性がある。これは、PCMはTP/FPを考慮するといける。格子上に空間を区切ってやる。
 各カメラの推定を写像して、格子のmaxをとればかなりロバストになる。
 しかしながら、これは複数人の環境を想定しているので、top-downの手法は意図した人のOCMを矩形の中で計算しようとするが、これには限界がある。オクルージョンがすごいきついと、無理になる。
 よって、オクルージョンの状況によりPCMを重みづけする方法をとる。
 次に、キーポイントから骨格の関節位置を推定する。これはIKでやる。
 しかし、関節位置は上記のように最適化されるが、動きが滑らかな様子は考慮されない。時系列のlow passフィルターでこれを実現する。でもこれにより、骨格か崩壊する可能性がある。よって、もう一度、ここでIKを走らせる。

 

・次に調べること

(RoM):range of motion, K. Yonemoto, S. Ishigami, and T. Kondo. Measurement Method for Range of Joint Motion (Japanese). The Japanese Journal of Rehabilitation Medicine, 32(4):207–217, 1995.

(HRNet):B. Xiao, H. Wu, and Y. Wei. Simple Baselines for Human Pose Estimation and Tracking. In European Conference on Computer Vision (ECCV), 2018.

 

・単語
spatiotemporal:時空の
apparently:どうやら
examining:調べる
accomplishes:成し遂げる
erroneously:誤って
lattice:格子
referencing:参照する