モーションキャプチャとパフォーマンス分析（基礎）

モーションキャプチャとパフォーマンス分析の基礎をまとめた概説です——モーションキャプチャとは何か、マーカーレスの姿勢推定は従来のマーカー式とどう違うのか、どんなバイオメカニクスが取り出せるのか、そしてどう計測をセットアップするのか。当サイトの実践チュートリアルの全体像となる回です。

従来の（マーカー式）モーションキャプチャ

従来のモーションキャプチャはマーカー式です: 体にマーカーを貼り、複数のカメラで追跡します。映画（黒いスーツにマーカーを付けた俳優）で始まり、のちにスポーツ科学へ導入され、キネマティクス解析のゴールドスタンダードになりました。実際に高精度で——だからこそ新しいシステムの検証基準に使われます——ただし相応のコストが伴います。

マーカー式モーションキャプチャ: カメラを備えたラボで体に約40個のマーカー — マーカー式は高精度だが、手間・費用がかかりラボが前提。

手間がかかる — 約40個のマーカーを正確に貼り、身体の人体計測も必要
高コスト — カメラ1台$2,000以上を複数台
専門知識 — マーカー配置とカメラ校正
ラボ環境 — 公式大会では選手にマーカーを付けられない
ただし高精度 — 基準となる標準

マーカーレス（姿勢推定）

コンピュータビジョンの発展により、姿勢推定によるマーカーレス計測が可能になりました——動画や画像から直接、人の関節位置を検出するAIです。動画を撮って、モデルを走らせ、解析するだけ。簡単・高速・安価（スマホで十分）で、ほぼどこでも使えます——本当のパフォーマンスはラボではなく実際の試合で起きるので、これは重要です。ただし、精度はまだ確立の途上です。

モデルと座標系

姿勢推定モデル: OpenPose（2D）、MediaPipe（2.5D）、MeTRAbs（3D） — 3つの姿勢推定器、3つの座標系: OpenPose（2D）、MediaPipe（2.5D）、MeTRAbs（3D）。

OpenPose — 最も研究されているモデル。2Dのピクセルキーポイント。開発者フレンドリーだがやや遅い。
MediaPipe（Google） — 高速でモバイル向きだが2.5D: 腰の中心を原点とした相対的な3D。関節角度は計算できるが、絶対的な変位（歩幅・ストライド長）は計算できない。
MeTRAbs — 単一カメラから絶対座標の真の3D。変位も計算できる。

教訓: 必要な変数でモデルを選ぶこと——2Dか3Dか、絶対か相対か、どれだけ速く動く必要があるか。

精度はどのくらい？

Vicon（マーカー式）を基準にした検証では、姿勢推定はおおむね約10°の誤差を示します。目視の比較ではほぼ分かりませんが、臨床診断ではとても大きすぎる場合も。要は用途次第です。

精度: 約10度の誤差。スポーツ/競技動作でのOpenPose対VICONのスケルトン — Vicon（ゴールドスタンダード）に対して約10°の誤差。

誤差の主な原因は3つです:

オクルージョン — モデルはカメラに映るものしか知らない。体の陰に隠れた四肢は推測するしかない。
学習データ — 対象の動作が学習データに無いと、うまく検出できない。
系統的差 — これが厄介です。マーカー式は皮膚上のマーカーを追跡し、人体計測から関節中心を推定します（間接測定）。姿勢推定は画像から関節中心を直接検出します。両者は本質的に異なるものを測っているため一定のオフセットが生じ、これが平均誤差の大きな要因になります。この理由で、論文が姿勢推定の誤差を過大評価することもあります。

バイオメカニクス解析: キネマティクス vs キネティクス

キネマティクスは力を含まない運動学。関節位置から角度を求め、微分して（角）速度、もう一度微分して加速度が得られます。（例: 60fpsでフレーム間10°の変化なら 600°/s の角速度。）

キネティクス（動力学）は力を含む解析。力の得方は3通り: 直接測定（地面反力はフォースプレート、または Moticon のようなインソール型ウェアラブルセンサ。関節モーメントも計算可）、逆動力学（地面反力からモーメントを逆算）、または無料でスタンフォード製の OpenSim によるシミュレーション（動作データから地面反力や筋活動まで推定）。（純粋なラグランジュ力学の方法もありますが複雑です。）

キネティクス: フォースプレート、インソール型ウェアラブルセンサ、地面反力と関節モーメント — 直接測定によるキネティクス: フォースプレートやインソールで地面反力と関節モーメントを取得。

フレームワーク: 計測のセットアップ

単一カメラ — 手軽・安価。2Dで十分なとき（例: サッカーキックの2D解析）に最適。精度は劣る。
単一カメラ＋深度センサ — ステレオカメラは、固定された基線長・焦点距離・視差から深度を求める。ToF（Time-of-Flight）センサ（最近のiPhone Pro等）は、照射した光が戻る時間から深度を測る——高解像だが、光を吸収する非常に暗い物体は測れない。
複数カメラ — 高精度な3Dへの道。単一動画では奥行き軸が失われるため、3D再構成で復元する: 各カメラの姿勢（位置＋回転）を、校正ケージ・チェスボード・スキャン方式（ARCore）などで校正し、全カメラの投影線の交点を三角測量（特異値分解）で求める。手間と費用は増えるが、追加視点でオクルージョンを補えるため最も高精度。

（複数カメラの3D再構成パイプライン——校正・三角測量・シミュレーション——は、OpenPose と3D再構成シリーズで一段ずつ構築しています。）

実例: 1台のカメラからフルシミュレーションまで

単一カメラでどこまで到達できるか。MeTRAbs モデルで3Dキーポイントを取得し、OpenPose のトポロジーに整え、OpenCap の LSTM モデルでより充実したマーカーセットに拡張します（各関節周りに点を追加し、位置だけでなく回転も計算可能に）。汎用の OpenSim モデルを被験者に合わせてスケーリングし、逆運動学と逆動力学を実行——関節の動き、地面反力、そして（次の段階では）筋活動が得られます。

OpenSimの逆運動学: 汎用筋骨格モデルをスケーリングし、取得した動きで駆動 — 単一カメラの3Dキーポイントで駆動する、OpenSimの逆運動学。

まとめ

マーカー式は今も高精度なゴールドスタンダードですが、マーカーレスの姿勢推定は、カメラさえあれば誰でもモーションキャプチャができる時代を開きました——数値を信頼する前に理解すべき、精度と座標系のトレードオフを伴いながら。理解できれば、スマホ動画からキネマティクス・キネティクスまで一気通貫で到達できます。実践は OpenPose と3D再構成シリーズと OpenPose と OpenCap の使い方をどうぞ。

著者について

Takashi Fukushima — スポーツ・運動科学 × Human Pose Estimation × Computer Vision × XR を横断して研究・開発しています。

YouTube（登録）: Takashi Fukushima｜Sports Science & Pose Estimation
研究（ORCID）: orcid.org/0000-0002-7318-3384
ウェブサイト: takashifukushima.com
お問い合わせ: お問い合わせフォーム