機械学習とニューラルネットワーク - ページ 12

 

MIT 6.801 マシン ビジョン、2020 年秋。講義 1: マシン ビジョンの概要



講義 1: マシン ビジョンの概要

講義「マシン ビジョン入門」では、画像解析への物理学に基づくアプローチに重点を置いて、コースのロジスティクスと目的の概要を詳しく説明します。マシン ビジョン コンポーネント、不適切な設定の問題、面の向き、および画像処理の課題について説明します。講師はまた、最小二乗最適化法とカメラで使用されるピンホール モデルも紹介します。カメラ中心の座標系、光軸、およびベクトルの使用についても簡単に説明します。このコースは、学生がより高度なマシン ビジョン コースと、プログラミングにおける数学と物理学の実際の応用に備えることを目的としています。

また、スピーカーは、透視投影のベクトル表記、表面照明、表面要素の短縮、2D 画像を使用して 3D ビジョンの問題を解決する方法など、画像形成に関連するさまざまな概念についても説明します。講師は、表面の照度が入射角によってどのように変化するか、および赤の長さと表面の長さの余弦関係を説明します。これは、表面のさまざまな部分の明るさを測定するために使用できます。ただし、オブジェクトのすべての小さなファセットの方向を決定することは、2 つの未知数のために困難な場合があります。スピーカーは、2D 画像を使用して 3D ビジョンの問題を解決できる理由についても説明し、トモグラフィーの数学は単純ですが、方程式が複雑であり、逆変換を実行するのが難しいことに言及して締めくくります。

  • 00:00:00 このセクションでは、マシン ビジョン 6801 のインストラクターが、6801 と 6866 の両方について、課題と採点システムを含むコースのロジスティクスを紹介します。宿題の問題。 6866 の場合は、マシン ビジョン手法、できれば動的問題を実装する期間プロジェクトがあります。このクラスには教科書はありませんが、論文はコースのウェブサイトで入手できます。

  • 00:05:00 このセクションでは、講師がマシン ビジョン入門コースの目的と成果について説明します。このコースでは、物理学に基づくアプローチを使用して光線を分析し、画像から環境に関する情報を復元する方法を学習します。表面と画像。このコースでは、生データから有用な機能を抽出し、プログラミングで数学と物理学を実際に応用する方法を学生に教え、微積分、ベクトル、行列などの基本的な数学の概念、および少しの線形代数について説明します。また、学生は将来的により高度なマシン ビジョン コースに備えることもできます。

  • 00:10:00 トランスクリプトのこのセクションでは、講演者は、マシン ビジョンのコースでカバーされる内容とカバーされない内容の概要を説明します。このコースでは、基本的な幾何学と線形システム、および畳み込みと画像形成について説明します。ただし、画像処理やパターン認識に関するものではありません。このコースでは、機械学習や計算イメージングについても掘り下げませんが、物理ベースのモデルを使用した直接計算に焦点を当てています。講演者はまた、人間の視覚についてはあまり議論されないだろうと述べています。

  • 00:15:00 このセクションでは、講師がマシン ビジョンと、画像の動きの回復や表面形状の推定など、マシン ビジョンでできることの例を紹介します。講師は物理学に基づいたアプローチで問題を解決し、時変画像から観察者の動きを復元する方法、衝突までの時間を推定する方法、画像に基づいて環境の説明を作成する方法について説明します。講義では、航空写真からの等高線図、産業用マシン ビジョン作業、および製造におけるオブジェクトの山からオブジェクトを選択する問題の解決についても説明します。

  • 00:20:00 このセクションでは、講師は不適切な設定の問題について説明します。これは、解がない問題、解が無限にある問題、または解が初期条件に依存する問題です。議論は、カメラの位置と向きを決定するマシン ビジョンの方法に集中していますが、これは小さな測定誤差のために不正確になる可能性があります。この講義では、2 次元画像から 3 次元情報を認識する方法についても探究し、変数を解く際に制約と未知数をカウントするという課題に焦点を当てます。講師は、リチャード ファインマンの鼻や偏楕円体など、画像からオブジェクトの 3D 形状を決定するアルゴリズムの例と、それらを 3D プリンターを使用してオブジェクトのモデルを作成するなどの実用的な目的にどのように使用できるかを紹介します。

  • 00:25:00 このセクションでは、講師がマシン ビジョンとそのコンポーネントの概要を説明します。これには、シーン/世界、イメージング デバイス、記述の構築を担当するマシン ビジョン システムが含まれます。マシン ビジョンの最も興味深いアプリケーションはロボティクスに関係しており、成功の証明は構築された記述を使用して環境と正しく対話するロボットの能力です。マシン ビジョンの最も困難な側面の 1 つは、接触する時間と拡大の焦点を決定することです。具体的には、利用可能な情報がグレー スケール画像のみである場合に画像の拡大を測定する方法です。講師は、キャリブレーションも不可欠ですが、プロセスの見過ごされがちな部分であると述べています。

  • 00:30:00 このセクションでは、講師が座標系とそれらの間の変換について、特にロボットとカメラの場合について説明します。また、画像処理にアナログ コンピューティングを使用すること、およびそのようなアルゴリズムの開発に伴う課題についても言及しています。その後、講義は画像形成のトピックに移り、照明の重要性と、画像のグレーレベルまたは RGB 値を決定する上での照明の役割を強調します。講師は、光源、画像デバイス、および表面の図を提示し、反射を制御する角度と画像への影響を指摘します。

  • 00:35:00 このセクションでは、講師が表面配向の概念と、それがマシン ビジョンにどのように影響するかを紹介します。オブジェクトの向きが異なると、オブジェクトの輪郭内で明るさが異なります。さらに、表面反射特性もさまざまな外観につながる可能性があるため、これらの効果を説明して説明する方法を見つけることが重要です。 1 つのアプローチでは、複数のライトと、球などの既知の形状のキャリブレーション オブジェクトを使用して、すべてのピクセルで 3 つの制約を取得し、表面の向きと表面の反射率の両方を回復できるようにします。

  • 00:40:00 このセクションでは、固有のノイズと測定誤差を考慮する必要があるため、画像を扱う際の課題について教授が説明します。彼は、8 ビット画像の粗い量子化と小さなピクセル サイズが原因で画像にノイズが多く、測定誤差に敏感になると説明しています。教授はまた、異なる表面の向きが異なる色を生成する方法と、これを使用して針の図を作成し、形状の再構築を可能にする方法についても説明します。最後に、オブジェクトの向きを決定するのに役立つ 3D での形状の便利な表現として、拡張ガウス画像を紹介します。

  • 00:45:00 このセクションでは、ロボットと視覚システムの座標系との関係を確立するためのキャリブレーションの使用や、その関係を判断するために、画像を処理しやすく、正確に位置を特定できる測量士のマーク。次に、講師は、画像から世界について何かを学ぶことを目的とする逆グラフィックスの概念と、データに敏感に依存するソリューションを処理できる方法を必要とする逆問題の不適切な性質について説明します。

  • 00:50:00 このセクションでは、講師がコースに最適な最適化方法を紹介します。これは「最小二乗法」です。この方法は、閉じた形式のソリューションにつながり、実装が容易になり、局所的最小値に陥る可能性を回避できるため、好まれています。ただし、コースでは多くの最小二乗法を使用しますが、特に測定値がオフの場合は、方法の堅牢性を確保するためにノイズ ゲインを考慮する必要があります。次に講師は、レンズ付きカメラで使用されるピンホール モデルのトピックに移り、それが 3D の点から 2D の画像への投影を説明するのにどのように役立つかについて説明します。カメラ中心の座標系を選択することで、方程式を簡単に把握できます。

  • 00:55:00 このセクションでは、カメラ中心のマシン ビジョンに使用される座標系について講師が説明します。原点は投影の中心にあり、軸は光軸と一致しています。講義では、光軸は投影の中心から像面への垂線であると説明されています。さらに、講義では、マシン ビジョンでのベクトルの使用と、工学出版物の記法でそれらを表す方法についても触れます。最後に、前述の式を微分することで、3D と 2D の運動の関係が得られることを説明しました。

  • 01:00:00 このセクションでは、講師が透視投影に使用されるベクトル表記と、それによって方程式の操作がどのように簡素化されるかについて説明します。ベクトル表記は、使用されるシンボルの数を必ずしも減らすわけではありませんが、すべての個々のコンポーネントを簡単に持ち運ぶことができます。次に講師は、列ベクトルの使用とその表記法における転置について説明します。このセクションは、明るさと、カメラでキャプチャされた画像との関係についての紹介で終わります。

  • 01:05:00 このセクションでは、講師は、オブジェクトの明るさは、その照明と表面が光をどのように反射するかに依存することを説明しています。彼はまた、オブジェクトからの距離が長くなるにつれて、受容体にイメージされる領域が増加するため、距離が光源と同じように画像形成に影響を与えないことについても説明しています。さらに、彼は、距離または方向の変化率が画像形成に影響を与える可能性があると述べています。これは、光源の下での表面要素のパワーの短縮に見られます。

  • 01:10:00 このセクションでは、話者は、表面上の照明が入射角と、赤の長さと表面の長さの間の余弦関係によってどのように変化するかを説明します。この照明の変動性を使用して、表面のさまざまな部分の明るさを測定できます。これは、表面の向きについて理解するのに役立ちます。ただし、サーフェスの法線と明るさという 2 つの未知数があるため、オブジェクトのすべての小さなファセットの方向を特定することは困難な場合があります。講演者は、この問題を解決するためのさまざまな方法について説明します。その中には、複数の光源または色付きの光源を使用する力ずくのアプローチが含まれます。

  • 01:15:00 このセクションでは、インストラクタが、入射照明に影響を与える短縮および反転現象と、それが表面にどのように結像されるかについて説明します。彼はまた、2D 画像を使用して 3D 視覚の問題を解決できる理由についても説明しています。これは、私たちが直線光線と固体表面を持つ視覚世界に住んでいるためです。光線は空気を通過するときに遮られないため、3D サーフェスを 2D 画像に簡単にマッピングできます。トモグラフィーは、ゼリーで満たされた部屋の着色染料の分布を把握するために複数のビューが必要な場合に使用できます。彼は、トモグラフィーの数学は単純ですが、方程式が複雑であり、逆変換を実行するのが難しいと述べて締めくくっています。
Lecture 1: Introduction to Machine Vision
Lecture 1: Introduction to Machine Vision
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 2: 画像形成、透視投影、時間導関数、モーション フィールド



講義 2: 画像形成、透視投影、時間導関数、モーション フィールド

この講義では、透視投影の概念と運動との関係について詳しく説明します。講師は、透視投影方程式の微分を使用して、画像内の輝度パターンの動きを測定する方法と、それが現実世界の動きとどのように関連するかを示します。講義では、展開の焦点、連続画像と離散画像、画像内のオブジェクトの速度を推定する際のテクスチャの基準点を持つことの重要性などのトピックも取り上げます。さらに、この講義では、曲線に沿った総導関数と、オプティカル フロー ベクトル場を復元しようとするときの方程式のカウントと制約の問題についても触れています。

講演者は、明るさの勾配、物体の動き、2D ケース、等光線など、さまざまなトピックを取り上げます。オブジェクトの速度を計算する際に直面する課題の 1 つは、輝度勾配の比例関係によって引き起こされる開口の問題です。これは、異なる画像領域への寄与を重み付けするか、最小解を検索することによって解決されます。次に、等光線のさまざまなケースを詳しく説明し、結果の変化に対する画像の変化の感度を測定するノイズ ゲインの概念を使用して、速度を決定する際にノイズの多いものではなく、意味のある答えを計算することの重要性を強調します。 .

  • 00:00:00 このセクションでは、講師が透視投影とモーションについて説明します。透視投影には、3D ワールド内のポイントと 2D イメージ間の関係が含まれており、適切な座標系で表すことができます。彼らは、透視方程式の微分が画像内の輝度パターンの動きを測定するのに役立ち、それを使用して現実世界の動きを判断できると説明しています。講師は、x 方向と y 方向の速度など、より簡単に消化できる記号を利用して、方程式の複雑さを軽減します。

  • 00:05:00 このセクションでは、講師が動きベクトルを使用して拡大の焦点、つまり画像内の動きのないポイントを見つける方法を説明します。この点は重要です。なぜなら、それを原点に接続するだけで動きの方向を決定できるからです。また、環境や動きについて何かを教えてくれます。講師は、展開の焦点が特定の点にある場合に画像のパターンがどのように表示されるか、および運動場を示すためにベクトル図を描く方法を示します。

  • 00:10:00 講義のこのセクションでは、拡大と圧縮の焦点の概念が、画像形成と透視投影のコンテキストで紹介されます。この方程式は、距離と速度を測定する際に重要な、膨張の焦点から外側に放射するベクトルを表します。 z に対する w の比率によってベクトルのサイズが決まり、展開の焦点の逆数が圧縮の焦点になります。 w に対する z の比を取ることで、衝突までの時間を推定できます。これは、宇宙船の着陸や距離の測定に役立ちます。アイデアはベクトル形式で導入されますが、すぐには役に立ちません。

  • 00:15:00 このセクションでは、スピーカーは透視投影方程式と、それを使用して画像座標を導入する方法について説明します。展開の焦点は、z に対応する r dot がゼロの点として導入されます。時間に関して各コンポーネントを微分することにより、3D での動きと深さでの動きの方程式を導き出すことができます。スピーカーはまた、本の付録の結果を使用して、方程式を流れに関する一般的なステートメントに変換し、世界の動きの観点からイメージの動きを表現できるようにします。

  • 00:20:00 このセクションでは、講師が画像の動きの概念と z 軸との関係について説明します。結果として得られる画像の動きは、z 軸に垂直であることがわかります。これは、画像が x 方向と y 方向の速度を持つ 2 次元のみであるため、驚くべきことではありません。次に、放射状の動きの概念とその画像の動きへの影響について説明し、オブジェクトが観察者に直接近づいたり遠ざかったりする場合、画像の動きはないという結論に達します。講師は、ベクトルがすべて同じ長さではない流れ場の例を調べることで締めくくります。

  • 00:25:00 このセクションでは、講師は、画像形成の順方向プロセスを理解することが、モーション フィールドから深度を復元するという逆の問題を解決するのにどのように役立つかについて説明します。講師は、深度と速度がモーション フィールドの外観に影響を与える 2 つの重要な要素であり、一方を知ることが他方を計算するのに役立つと述べています。ただし、両方を回復すると、解決策が複数ある、または解決策がない不適切な問題が発生する可能性があります。また、講師は、輝度値の 2 次元パターンとして表現できる画像の輝度パターンと、後で説明する RGB 値を使用した色表現についても簡単に触れます。最後に、講師は、画像は連続的または離散的に表すことができ、デジタル画像は空間内で、通常は長方形のグリッド上で量子化されると説明します。

  • 00:30:00 講義のこのセクションでは、教授が画像処理における連続ドメインと離散ドメインの違いについて説明します。実際には、イメージは 2 つのインデックスを持つ数値の配列で表されることがよくありますが、連続関数を使用すると、積分などの特定の操作を理解しやすくなります。さらに、教授は、輝度の x 導関数と y 導関数を差分法で近似すること、および画像処理における輝度勾配の重要性について話します。講義では、1D センサーと、画像をスキャンする手段として動作を使用して、1D センサーをイメージングに使用する方法についても触れます。教授は、画像の 2 つのフレーム間の動きの速度を決定する問題を提起し、テーブルの表面をマッピングする光学式マウスの例を示します。

  • 00:35:00 このセクションでは、講師が光学式マウス技術で行われた仮定、特に表面を見たときの一定の明るさの仮定について説明します。彼はまた、フレーム間の明るさの変化を分析することにより、曲線の小さな線形近似を使用して動きを判断する方法についても説明しています。講師は偏微分表記法と、エッジ検出に使用できる輝度勾配の成分を紹介します。最後に、式 delta e = e sub x x delta x が導出され、これを delta t で割ってモーションを計算します。

  • 00:40:00 講義のこのセクションでは、講演者は 1D 画像の単一ピクセルからモーションを復元する方法について説明します。その結果、スピーカーは動きを回復できますが、このアプローチは 2D 画像では機能しません。話し手は、ET 値が大きいほど動きが速いことを示し、EX が 0 の場合、0 で除算したり小さな値で割ると測定上の問題により誤差が生じるため、問題があると説明します。さらに、話し手は、EX 値が小さいかゼロであると、測定誤差のためにノイズの多い推定値になると説明しています。

  • 00:45:00 レクチャーのこのセクションでは、スピーカーは、画像内のオブジェクトの速度を推定する際に、テクスチャを含む基準点を持つことの重要性について説明します。このタイプの測定は、特定の画像条件が満たされない限り、ノイズが多く信頼性が低くなる可能性があります。ただし、複数のピクセルを使用し、最小二乗法などの手法を適用してエラーを減らすことで、結果を劇的に改善できます。複数のピクセルを組み合わせることで、測定値の標準偏差を n の平方根で減らすことができます。これは、大きな画像では重要です。ただし、テクスチャの勾配に基づいて測定値を重み付けして、勾配の低い領域が勾配の大きい領域からの情報で汚染されないようにすることが重要です。最後に、分析を 2D 画像に拡張し、次の結果を得るために複数のアプローチについて説明します。

  • 00:50:00 このセクションでは、講師は、x、y、および t を軸とする輝度値の 3 次元ボリュームとして、ビデオ フレームをどのように概念化できるかを説明します。次に、偏導関数と、x、y、または t 方向の隣接ピクセルの差からどのように導出されるかについて説明します。次に講師は、特に運動中の物体の明るさの勾配に関連する、曲線に沿った全導関数の概念を探究します。連鎖律を使用すると、総導関数を偏導関数として表すことができ、オブジェクトの明るさが時間とともにどのように変化するかを予測できます。最後に、一連の画像から u と b を求める概念を紹介します。

  • 00:55:00 このセクションでは、講師は、オプティカル フロー ベクトル フィールドを復元しようとするときの方程式のカウントと制約の問題について説明します。未知の u が 1 つ、拘束方程式が 1 つの場合、有限個の解を得ることができます。ただし、u と v の 2 つの未知数と 1 つの方程式の制約があると、絶望的に見えます。制約式は、画像が移動しても明るさが変わらないという仮定から導き出されます。講師は、拘束方程式を速度空間にプロットすると、それが直線であることが明らかになり、これは問題を解決する上で重要な進展であることを示しています。目標は、ポイントをポイントに固定し、正確なオプティカル フロー ベクトル フィールドを取得することです。

  • 01:00:00 ビデオのこのセクションでは、話者は物体の動きを決定する際の輝度勾配の重要性について説明します。輝度勾配は、高輝度領域と低輝度領域の間の遷移に垂直な方向を指す単位ベクトルです。話者は、局所的な測定を行う場合、物体の動きを決定するのに十分な方程式がないことを説明します。しかし、輝度勾配方向の動きは判別できる。その後、スピーカーは 2D のケースについて議論し、オブジェクトの動きを決定するには複数の制約を使用する必要があると述べています。これを実証するために、スピーカーは単純な線形方程式を解いて u と v の値を復元します。

  • 01:05:00 このセクションでは、講師が 2x2 行列を反転し、それを使用して画像の動きに関する一連の線形方程式を解く方法を説明します。ただし、一部のエッジ ケースでは、マトリックスの行列式がゼロになることがあります。これは、明るさの勾配が互いに比例することを意味し、アパーチャの問題が発生します。この問題は、結果を単に平均化するのではなく、異なる画像領域への寄与を異なる方法で重み付けする必要があることを示唆しています。この問題を解決するには、方程式をゼロにするか、できるだけ小さくする u と v の値を探す必要があります。

  • 01:10:00 このセクションでは、スピーカーは、u と v の正しい値が画像全体で積分されたときに被積分関数がゼロになるという理想的なケースに適用される制約について説明します。これは、u と v の正しい値を見つけるための戦略の基礎となる可能性があります。話者は、シーンに光やテクスチャがない場合、このアプローチが失敗し、ex と ey の値がゼロになる可能性があることに注意します。次にスピーカーは、被積分関数を 2 乗して最小化することで常に正になる方法を説明し、2 つの未知数を持つ 2 つの方程式の微積分の問題を導きます。ただし、2 行 2 列の行列式がゼロの場合、これは失敗する可能性があります。これは、ex がどこでもゼロであるか、ex が ey に等しい場合に発生する可能性があります。

  • 01:15:00 このセクションでは、スピーカーは等輝度線のさまざまなケースについて説明します。これは、等輝度勾配の線です。等照線は、45 度の角度、平行線、または曲線にすることができます。ただし、スピーカーは、他のすべてのケースを包含するため、最も一般的なケースはある角度から見たアイソフォテスであることを強調しています。彼らはまた、アイソフォトが平行線である場合に唯一の問題が発生することにも言及しています。この問題は、コーナーやアイソフォトの曲率が高い領域など、画像内で輝度勾配が大きく変化する領域を探すことで解決できます。最後に、スピーカーはノイズ ゲインの概念を紹介し、学生が講義や今後の宿題について質問がある場合は送信するように促します。

  • 01:20:00 このセクションでは、講師は、動きの速度を決定する際に、ノイズの多い答えではなく、意味のある答えを計算することの重要性について説明します。彼は、結果の変化に対するイメージの変化の感度を表すノイズ ゲインの概念と、それが速度計算に与える影響について説明しています。彼は次に、前方関数が既知であり、ノイズに過度に敏感でない賢明な方法でそれを反転することが目標である 1 次元変換について説明します。
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 3: 接触までの時間、拡張の焦点、ダイレクト モーション ビジョン法、ノイズ ゲイン



講義 3: 接触までの時間、拡張の焦点、ダイレクト モーション ビジョン法、ノイズ ゲイン

この講義では、マシン ビジョン プロセスに関連するノイズ ゲインの概念を強調し、さまざまな方向と精度の変化に焦点を当てます。講師は、計算のエラーを最小限に抑えるために、ベクトルを正確に測定し、ゲインを理解することの重要性について説明します。この講演では、接触時間の概念、展開の焦点、モーション フィールドについて説明し、放射状勾配を計算して接触時間を推定する方法のデモンストレーションを行います。講師は、Web カメラを使用したライブ デモンストレーションで、マルチスケール スーパーピクセルを使用したフレームごとの計算の限界を克服する方法も示します。全体として、この講義では、マシン ビジョン プロセスの複雑さと、さまざまな量を正確に測定する方法について有益な洞察が得られます。

レクチャーでは、モーション ビジョンのさまざまな側面と、接触するまでの時間、拡大の焦点、ダイレクト モーション ビジョン法を決定する際のアプリケーションについて説明します。スピーカーは、中間結果を視覚化するためのツールを実演しますが、それらの制限とエラーも認識しています。さらに、画像処理における任意の動きを扱う問題に取り組み、同様の速度で動く隣接点の重要性が強調されています。この講義では、ダイレクト モーション ビジョン手法の成功に影響を与えるパターンについても掘り下げ、より便利に敵と接触する時間を定義するための新しい変数を紹介します。最後に、3 つの線形方程式と 3 つの未知数を解いて、さまざまな変数がモーション ビジョンにどのように影響するかを理解するプロセスと、計算を高速化するプロセスの並列化について説明します。

  • 00:00:00 このセクションでは、講師はノイズ ゲインについて説明します。ノイズ ゲインとは、測定誤差と環境に関連する量の推定誤差との関係を指します。彼は、Wi-Fi アクセス ポイントを使用する屋内 GPS システムの例を使用して、アイデアを説明しています。システムの精度は、電話機からアクセス ポイントまでの往復時間を高精度で測定することによって制限されます。講師は、一部のマシン ビジョン プロセスのノイズ ゲイン分析は方向によって異なり、単一の数値ではないことを強調しています。むしろ、どのように動き回るかによって、精度は一方向ではかなりうまく判断できますが、別の方向ではそうではありません。

  • 00:05:00 ビデオのこのセクションでは、講師がトランスポンダを使用して位置を特定する概念と、これが引き起こす可能性のある対応するエラーについて説明します。彼は、2 つのトランスポンダーを使用して一列に配置すると、距離のわずかな変化のために特定の方向の精度を判断することが難しくなると説明しています。ただし、トランスポンダを 90 度離して配置すると、精度が向上します。さらに講師は、同じ量の誤差で可能な位置の軌跡を決定することに関連する円の使用について説明します。

  • 00:10:00 このセクションでは、講師は、測定する必要がある環境内の量から、機器で観察できるものに私たちを連れて行く順変換の概念について説明します。彼は、測定が完全ではない可能性があるため、対象量のノイズは伝達関数の導関数による測定のノイズに関連していると説明しています。講師はノイズ ゲインの重要性についても強調し、x の f 素数の値が小さいと測定される量の不確実性が大きくなるため良くないことを強調します。

  • 00:15:00 このセクションでは、スピーカーはベクトルを測定する方法と、これらの測定におけるゲインを理解することの重要性について説明します。彼らは、ベクトルの測定にはスカラー量の測定よりも少し複雑さが必要であると説明していますが、それでも線形変換を適用することで実行できます。スピーカーは、ベクトル測定の重要な側面はゲインを理解することであると強調します。これには、異方性を考慮し、結果と測定値の変化の大きさを決定することが含まれます。行列式の逆数を決定することは、線形方程式を解く上で不可欠であり、計算における誤差の増幅を最小限に抑えるために、この値がゼロまたは小さすぎないようにすることが重要です。スピーカーは、逆行列を取得する方法を説明するために、2 行 2 列の行列の例を提供します。

  • 00:20:00 講義のこのセクションでは、ノイズ ゲインの概念を、運動と変数 u および v の解法を含む例に適用します。量が少ない場合、ノイズは大幅に増幅され、これは、2 つのピクセルでの明るさの勾配の方向が似ており、情報の違いがほとんどないためです。速度空間のダイアグラムを使用して、2 つの線がどのように交差するか、および 1 つの線の小さなシフトが交点に大きな変化を引き起こす可能性があることを示します。これは望ましくないケースです。ただし、すべての希望が失われるわけではありません。ノイズ ゲインがすべての方向で等しく高くない可能性があり、どのコンポーネントが信頼できるかを知ることは有用であることに注意してください。講義では、接触時間の概念に移る前に、一定の明るさの仮定と制約式を確認し続けます。

  • 00:25:00 より複雑な表記。このセクションでは、講師が光学式マウスの問題と、最小二乗法を使用してそれを処理する方法について説明します。目標は、ex、ey、および et の測定値を使用して正しい速度を見つけることですが、これらの測定値は通常ノイズによって損なわれるため、積分の最小値 (ゼロではない) が u と v の推定値になります。最小値を決定するための微積分と、この積分を最小化することの重要性について説明します。次に、展開の焦点の場合など、u と v が予測可能な単純なケースに移り、透視投影における世界座標と画像座標の関係を確認します。

  • 00:30:00 このセクションでは、スピーカーは、x 方向と y 方向の速度がゼロのモーションの速度、距離、および展開の焦点の間の関係について説明します。この講演では、z 方向の運動成分である az の量 w と、メートル/秒または秒単位で測定された速度の距離 (接触時間とも呼ばれます) について説明します。何も変わらない場合、オブジェクトに衝突するまでに長い時間がかかります。次にスピーカーは、簡単な例を使って、誰かが壁に向かって移動しているときに拡張の焦点がどのように機能するか、およびそのシナリオでモーション フィールドがどのように見えるかを示します。

  • 00:35:00 このセクションでは、拡張の焦点を見つける問題を解決するための最も簡単な方法はベクトルを見つけることだと考えるかもしれませんが、実際には明るさのパターンである画像しかないことを話者は説明します。それらの中にベクトルはありません。代わりに、この問題を解決するには、拡大または縮小する画像の画像データを使用する必要があります。講演者は、膨張ではなく圧縮を示すベクトルの図を示しますが、この実験では膨張に焦点を当てることが重要な要素であることを強調しています。スピーカーはまた、2 つのベクトルの内積である放射状勾配のアイデアを紹介します。これは、明るさの勾配のベクトルとカメラの光学中心へのベクトルです。画像の 1 点で明るさ微分を使用して接触します。ただし、これらの数値はノイズの影響を受けやすく、導関数を推定すると状況が悪化するため、この方法はあまり正確ではありません。

  • 00:40:00 このセクションでは、講師が放射状勾配を計算し、それらを使用して画像の接触時間を推定する方法を説明します。放射状グラデーションは、画像に正立した極座標系の放射状ベクトルと画像グラデーションの内積を取ることによって計算されます。次に講師は、最小二乗法を使用して、計算された放射状勾配と点光源の理論値ゼロとの差を最小限に抑える方法を示します。これは、光軸に沿った動きの単純なケースに適用されます。この場合、パラメーター c の推定によって接触時間が得られます。

  • 00:45:00 講義のこのセクションでは、直接モーション ビジョン法を使用して接触までの時間を推定するアプローチについて教授が説明します。彼は微積分を使用して、ノイズが存在する場合の平均二乗誤差を最小限に抑え、接触時間の逆数である c の式を導き出します。重要なのは、x 方向と y 方向の隣接ピクセルを使用して輝度勾配を推定し、次に放射状勾配を計算し、最後にすべてのピクセルの二重積分を計算して g と g の 2 乗を推定することです。これらにより、接触までの時間は、c の式を使用して簡単に見積もることができます。この方法はシンプルで効果的で、高度な処理や高度なオブジェクト認識技術を必要とせず、接触までの時間を直接計算します。

  • 00:50:00 このセクションでは、スピーカーは画像解析技術を使用したバスの位置の測定について説明します。バスの画像のピクセル数と、それが時間とともにどのように変化するかを測定することで、バスの位置を正確に特定できます。ただし、このプロセスには高レベルの精度が必要であり、より複雑なシナリオを扱う場合は困難になる可能性があります。これらのテクニックを実演するために、話し手はモンテビジョンと呼ばれるプログラムを使用します。このプログラムは、画像を処理して、さまざまなオブジェクトとの接触時間と拡大の焦点を推定します。このプログラムは、画像ベースの分析の精度を最適化するために 3 つの値を計算しますが、結果にノイズが多いため、有効にするには継続的な改善が必要です。

  • 00:55:00 このセクションでは、講師が接触までの時間を計算する方法と、フレームごとの計算を使用してそうする際の制限について説明します。これらの制限には、イメージ フォーカスの変更と、より近いオブジェクトでより大きな速度を調整する方法の失敗が含まれます。講師は、マルチスケールのスーパーピクセルを使用するか、ピクセルをグループ化して画像処理の速度と精度を向上させることにより、これらの制限を克服する方法を示します。最後に、講師がWebカメラを使って、カメラの動きから連絡までの時間を表示するライブデモンストレーションを行います。

  • 01:00:00 このセクションでは、講師が中間結果を表示できるツールのデモンストレーションを行います。これにより、x 導関数は赤を制御し、y 導関数は緑を制御し、地形の勾配の急速な変化に似た 3 次元効果を与えます。地図。さらに、動径導関数 g は外側に向かうことが実証されており、時間導関数 et を掛けると、動きを決定できます。ただし、このようなツールには計算可能な制限とエラーがあり、魔法のコードがないため、魅力的でわかりやすいツールになっていることが認められています。

  • 01:05:00 このセクションでは、講師が画像処理における任意のモーションの処理の問題について説明します。彼は、問題は、それぞれ x 方向と y 方向の動きを表す u と v が画像全体で異なる可能性があるという事実から生じると指摘しています。これにより、200 万の未知数で 100 万の方程式が生成される可能性があり、問題が解けないように見えます。講師は、問題を解決するために追加の仮定が必要になる可能性があることを示唆していますが、ほとんどの場合、画像内の隣接するポイントは同じまたは類似の速度で移動しているため、追加情報が得られることに注意してください。彼はまた、画像の放射状グラデーションがゼロの場合、ソリューションが失敗する可能性があることを警告し、それが何を意味するかを説明しています。

  • 01:10:00 このセクションでは、講師は、直視運動法を使用して接触時間を計算する成功に影響を与える可能性のあるパターンについて説明します。講師は、X 形状のようないくつかのパターンは、さまざまな方向に変化するグラデーションを持っているため、接触時間を計算するための貴重な情報を提供すると説明しています。ただし、円グラフなどの別のパターンでは、グラデーションの方向が一貫しているため、この情報を提供できません。講演者はまた、このアルゴリズムは、一枚の紙のような比較的一貫したパターンでも存在する小さな斑点や繊維からゼロ以外のエクセイを拾い上げることができると述べています。最後に、講義では 2 つの新しい変数、z の fu と z の fv を紹介します。これらは、式でより便利に接触する時間と敵を定義するのに役立ちます。

  • 01:15:00 このセクションでは、スピーカーは、2 つのパラメーター a と b に基づく展開の焦点を計算するための式と、どのように f が式に表示されないかについて説明します。多くの目的で、距離と速度の計算に f が必要ですが、接触時間の計算には f は必要ありません。次に、スピーカーは、有限数のパラメーター a、b、および c を使用した最小二乗問題として問題を定式化し、積分を微分して被積分関数の導関数を見つけます。

  • 01:20:00 講義のこのセクションでは、スピーカーは、3 つの線形方程式と 3 つの未知数を解き、さまざまな変数がモーション ビジョンにどのように影響するかを調べる方法を説明します。解は閉じた形をしており、さまざまなパラメーターで再計算する必要がなく、結論をすばやく導き出すことができるため、有益です。水平方向、垂直方向、および g 方向で区別される 3 つのアキュムレータがあり、これらはすべて係数に影響します。係数行列は対称であり、解の安定性を理解できます。

  • 01:25:00 講義のこのセクションでは、講演者は画像内の 6 つのアキュムレータを実行し、それらを追加するプロセスを並列化する方法について説明します。このプロセスはピクセル間の相互作用を必要としないため、GPU で実行すると速度が向上します。これらのアキュムレータは、画像内の明るさのパターンとテクスチャを蓄積しているだけなので、時間の変化には依存しません。残りの 3 つのアキュムレータは、時間の変化に依存します。すべてのアキュムレータを考慮したら、3 つの未知数の 3 つの方程式を解かなければなりません。
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 4: 固定オプティカル フロー、オプティカル マウス、一定の明るさの仮定、閉じた形式のソリューション



講義 4: 固定オプティカル フロー、オプティカル マウス、一定の明るさの仮定、閉じた形式のソリューション

自律視の講義4では、固定オプティカルフロー、オプティカルマウス、一定輝度仮定、閉形式解、接触時間などについて講義します。一定の明るさの仮定は、明るさの変化の制約方程式につながります。これは、画像内の動きを明るさの勾配と明るさの変化率に関連付けます。講師はまた、カメラまたは表面が傾いている状況をモデル化する方法を実演し、大きな動きを処理する際のマルチスケール平均化の利点について説明します。さらに、この講義では、さまざまな自律的な状況で接触する時間の使い方を探り、惑星探査機に着陸するためのさまざまな制御システムを比較します。最後に、講義では、線の投影と、透視投影を使用して線を定義する方法に触れます。

講演者は、消失点を使用してカメラ キャリブレーションの変換パラメーターを復元する方法や、既知の形状を持つキャリブレーション オブジェクトを使用してカメラ中心のシステム内の点の位置を決定する方法など、画像処理のアプリケーションについて説明します。この講義では、オプティカル フロー アルゴリズムのキャリブレーション オブジェクトとしてさまざまな形状 (球体や立方体など) を使用することの利点と欠点、および立方体と 3 つのベクトルを使用して未知の投影中心を見つける方法についても説明します。講義は、実際のロボティクス カメラのキャリブレーションで半径方向の歪みパラメーターを考慮することの重要性を強調して終了します。

  • 00:00:00 このセクションでは、講師がイメージ形成とモーション トラッキングについて説明します。彼らは、透視投影方程式と、動きが起こっているポイントである拡張の焦点について説明します。一定の明るさの仮定が導入されました。これは、多くの状況で、環境内のポイントの画像の明るさが時間とともに変化しないことを意味します。この仮定から、画像の動きと輝度勾配や輝度変化率を関連付ける輝度変化拘束式が導き出されることを講師が説明します。この講義では、速度を求めるには追加の制約が必要であり、すべてが同じ速度で移動することは制約の極端な形になる可能性があることについても説明します。

  • 00:05:00 講義のこのセクションでは、スピーカーは、オプティカル マウスの場合のように、画像全体に対して一定の u と v があるオプティカル フローの問題で u と v を推定する誤差を最小化する手法について説明します。 .このプロセスは過度に制約されていますが、対称的な 2 行 2 列の係数行列を使用して、未知数の線形方程式を得ることができます。スピーカーは、微分を計算する方法と、この方法が機能しない条件を示します。また、e_x と e_y がどこでも同じ比率である特定のタイプの画像についても説明しており、この条件は当てはまります。

  • 00:10:00 このセクションでは、講師は、c だけが異なる平行線を持つ直線である、exy が一定である等写真について話します。このタイプの画像は、一方向のスライドを測定できず、他の部分を決定することができないため、光学式マウス システムに問題を引き起こします。次に、絶対値ではなく小数部分の比率に依存する接触時間の概念を紹介し、システムがキャリブレーションなしで機能することを可能にします。講師は、方程式を微分する方法も実演し、オブジェクトのサイズが一定であることを示します。これにより、製品の導関数がゼロになります。

  • 00:15:00 このセクションでは、講師は、フレーム間のサイズの特定の割合の変化を距離の特定の割合の変化に変換する簡単な関係を説明します。これは、接触時間 (TTC) に直接変換されます。講師は、画像サイズ法を使用して TTC を推定する際に、画像サイズを正確に測定することの重要性を強調しています。これは、フレーム間の画像のわずかな変化が、高い TTC では比較的小さいためです。講師はまた、z が一定であるという仮定が依然として適用されることを指摘しながら、平面と比較して接触するまでの時間でなされた仮定についても説明します。

  • 00:20:00 このセクションでは、講師がカメラまたは表面が傾いている状況をモデル化する方法について説明します。傾斜した平面の場合、深度は画像内で一定ではなくなります。平面の方程式は、x と y の線形方程式であり、見るのがより複雑なモデルになる可能性があります。一般に、そこでは方程式が複雑になりすぎて、閉形式の解が存在しない可能性があります。ただし、閉じた形式のソリューションがある場合に最初に焦点を当てることをお勧めします。表面が平面でない場合は、多項式で近似して最小二乗問題を設定できます。残念ながら、閉形式の解は見つからないため、数値解が必要です。それにもかかわらず、より多くの変数を導入する場合は注意が必要です。これにより、ソリューションが別の方向に曲がりくねってしまい、表面が平面であるというモデリングよりも利点が失われるからです。

  • 00:25:00 このセクションでは、スピーカーはオプティカル フローでのマルチスケール実装の問題について説明します。実装が成功したにもかかわらず、彼は、画像内の動きが大きくなるにつれて結果の精度が低下すると述べています。この問題を処理する 1 つの方法は、フレームあたりの動きを減らす小さな画像で作業することです。講演者はまた、マルチスケール平均化の利点についても説明します。これには、大きな動きを処理するためにますます小さな画像セットを使用することが含まれます。必要な作業量はサブセットの数に応じて増加しますが、総計算量は削減されます。スピーカーは、マルチスケール最適化のプロセスが、前の講義で使用された単純な 2 x 2 ブロック平均化よりも複雑であることを強調しています。

  • 00:30:00 講義のこのセクションでは、スピーカーは、複数のスケールで作業することで、オプティカル フロー計算の結果を大幅に改善する方法について説明します。彼は、エイリアシングを防ぐためにローパス フィルター処理の後にサブサンプリングを行う必要があると説明しています。また、2 の平方根など、あまり積極的でない係数でサブサンプリングすることもできますが、単純な 2 x 2 ブロックを優先して無視されることがよくあります。平均化方法。講演者はまた、オプティカル フローのいくつかの興味深いアプリケーションについても言及しています。たとえば、接触時間を利用して飛行機の事故を防ぎ、木星の衛星エウロパへの宇宙船の着陸を改善するなどです。彼は、制御システムがどのように測定値に接続するまでの時間を使用して、ロケット エンジンの加速を変更し、宇宙船をより確実に降下させることができるかを説明しています。

  • 00:35:00 このセクションでは、車や宇宙船などのさまざまな自律的な状況で使用できる、降下中に一定の連絡時間を維持するための簡単なシステムについて説明します。基本的な考え方は、測定された接触時間が必要以上に短いか長いかに基づいて、エンジンにかかる力を調整し、それを一定に保つことです。この方法は、特定のテクスチャやキャリブレーションに依存するのではなく、単に高さと速度の比率に依存します。このシステムの方程式は、z に比例する解を持つ常微分方程式として解くことができます。

  • 00:40:00 このセクションでは、講師がコンスタント タイム トゥ コンタクト制御システムについて説明し、それを惑星宇宙船に着陸するための従来のアプローチと比較します。接触時間一定制御システムは、接触時間を常に一定に保ち、表面までの距離や速度に関する詳細な知識を必要としないため、エネルギー効率が高いという利点があります。講師は、一定の加速度の下で接触するまでの時間の計算を示し、接触するまでの時間は、一定の高さの戦略を使用して観察される時間の常に半分であることを強調します。

  • 00:45:00 このセクションでは、講師が定加速度制御の概念と、距離と速度を推定するための従来のアプローチとの比較について説明します。次に、固定フローと呼ばれるオプティカル フローの一般化を紹介し、画像のすべての部分の動きが同じであることを前提としていることを説明します。ただし、独立した運動または少数の未知数がある場合、システムは過剰決定される可能性があります。彼はまた、制約不足のシステムの設定不良の問題と、それを解決するために重い制約を使用する方法についても説明しています。

  • 00:50:00 このセクションでは、画像内の隣接するポイントが独立して移動するのではなく、同様の速度で移動する傾向があり、オプティカル フローの制約が生じることについて講師が説明します。ただし、この制約は単純な方程式ではなく、解決するにはより正確なツールが必要です。これらのツールが利用できない場合は、画像を小さな断片に分割して、その領域での速度が一定であるという前提があまり重要でないようにすることができます。しかし、この分割は、解像度とそれらの領域の明るさの均一性との間のトレードオフも生み出します。講義では、消失点の考え方と、消失点をカメラのキャリブレーションや 2 つの座標系の相対的な向きの決定に使用する方法についても触れます。

  • 00:55:00 講義のこのセクションでは、教授は線の射影と、代数的および幾何学的を含むさまざまな方法でそれを定義する方法について説明します。彼は、3D の線は単位ベクトルを使用して点と方向によって定義できること、線上の異なる点は異なる値の s を持つことを説明しています。教授は、透視投影を使用してこれを画像に投影する方法を説明し、変数 x、y、および z を使用した厄介な方程式を作成します。ただし、s を非常に大きくすることで、方程式を単純化し、カメラのキャリブレーションとイメージング システムの影響を調べることができます。

  • 01:00:00 このセクションでは、スピーカーは消失点について話します。消失点は、画像平面内の点に収束する線から生じます。これらの消失点を使用して、画像のジオメトリについて学習することができます。これは、対向車のために危険にさらされている可能性のある警察官、建設作業員、およびその他の人々に警告するなど、実際のシナリオに適用できます。カメラは、消失点を見つけることによって、道路に対するカメラ中心の座標系の回転を決定できます。平行線は同じ消失点を持ちます。つまり、長方形を形成する一連の平行線がある場合、3 つの消失点が予想されます。

  • 01:05:00 このセクションでは、講師が画像処理の 2 つのアプリケーションについて説明します。消失点を見つけてカメラ キャリブレーションの変換パラメーターを復元する方法と、既知の形状を持つキャリブレーション オブジェクトを使用してカメラ中心の点の位置を決定する方法です。システム。講師は、消失点を見つけることで、道路と水平線の方向に対するカメラのパンとチルトを復元できると説明しています。講義では、正確なカメラ キャリブレーションのために、像面上のレンズの位置と中央投影の高さを復元する必要性についても説明します。講師は、球などの既知の形状を持つキャリブレーション オブジェクトを使用して、カメラ中心のシステム内のポイントの位置を決定することを提案しています。

  • 01:10:00 このセクションでは、オプティカル フロー アルゴリズムのキャリブレーション オブジェクトとしてさまざまな形状を使用することの利点と欠点について講師が説明します。球は比較的簡単に作成および取得できますが、イメージ プレーンに投影するときにノイズが多く、正確ではない場合があります。一方、立方体には、消失点に対応する直角と平行線があるため、大きな利点があります。講師は、消失点を見つけることが、線に沿って 3D でポイントする 3 つのベクトルの画像投影を決定するのにどのように役立つかを説明します。この情報は、オプティカル フロー アルゴリズムをより正確に調整するために使用できます。

  • 01:15:00 このセクションでは、スピーカーは、立方体などのキャリブレーション オブジェクトと 3 つのベクトル (A、B、C) を使用して、未知の投影中心 P を見つけることについて話します。3 つのベクトルは、これは、P の 3 つの未知数を解く 3 つの方程式を作成するのに役立ちます。ただし、二次方程式の 2 次項により、複数の解を持つことが可能になります。これが、ズートの定理の出番です。定理を使用すると、スピーカーは、解の最大数が方程式の次数の積であることを示しています。方程式を単純化するために、話者はそれらをペアごとに減算し、未知数を見つけるために使用できる 3 つの線形方程式を導きます。

  • 01:20:00 このセクションでは、3 つの線形方程式がありますが、線形独立ではなく、解が 2 つしかないことを学びます。線形方程式は 3D 空間の平面を定義し、交差すると、追加情報を提供しない 3 番目の平面を含む線になります。この手法は、カメラのキャリブレーションや投影の中心の位置を見つけるのに役立ちます。ただし、実際のカメラには、実際のロボット カメラのキャリブレーションで考慮する必要がある放射状の歪みパラメーターがあります。
Lecture 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution
Lecture 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 5: TCC および FOR MontiVision のデモ、Vanishing Point、カメラ キャリブレーションにおける VP の使用



講義 5: TCC および FOR MontiVision のデモ、Vanishing Point、カメラ キャリブレーションにおける VP の使用

講義では、透視投影における消失点の使用、画像キャリブレーションにおける投影の中心と主点を見つけるための三角測量、正規直交行列で回転を表すための正規行列の概念など、カメラのキャリブレーションに関連するさまざまなトピックについて説明します。講師は、カメラの焦点距離を求める数学と、ワールド座標系に対するカメラの向きを決定するために消失点を使用する方法についても説明します。さらに、TCC と FOR MontiVision Demos の使用について説明し、問題を解決する際の方程式の背後にある幾何学を理解することの重要性についても説明します。

講義では、表面の明るさに対する照明の影響、2 つの異なる光源位置を使用してつや消し表面を測定する方法、単位ベクトルを解くためのアルベドの使用など、コンピューター ビジョンに関連するさまざまなトピックを取り上げます。また、カメラのキャリブレーションにおける消失点と、独立した 3 つの光源方向を使用して明るさを測定する簡単な方法についても説明します。最後に、話者は、透視投影の代替としての正射投影と、それを表面再構成に使用するために必要な条件について触れます。

  • 00:00:00 このセクションでは、スピーカーはキーボードに向けられた Web カメラで TCC と FOR MontiVision デモの使用を実演します。彼らは、連絡までの時間の計算の重要性と、それらの計算に影響を与える要因について説明します。また、スピーカーは、透視投影における消失点の概念と、それらをカメラのキャリブレーションに使用する方法についても説明します。彼らは、接触までの時間の計算式と、dzdt の符号が移動物体の画像にどのように影響するかを説明しています。

  • 00:05:00 このセクションでは、講師がカメラ キャリブレーションにおける消失点の概念について説明します。消失点とは、特殊な平行線が投影の中心を通過する画像平面上の点です。他の平行線にも消失点があり、遠ざかるにつれて画像への投影は特別な線の投影に近づきます。この概念により、座標系とカメラ キャリブレーションの間の関係を決定できます。これは、コンピューター ビジョン アプリケーションでのオブジェクト認識に役立ちます。講師は、キャリブレーションのために画像平面に投影できる座標系を定義する一連の平行線を含む、長方形のオブジェクトの世界の例を提供します。

  • 00:10:00 このセクションでは、スピーカーは消失点とカメラのキャリブレーションでの使用について話します。スピーカーは、平行線を延長することによって正確に決定できる 3 つの消失点があり、これらの点を使用して投影の中心を見つけることができると説明しています。投影の中心は、オブジェクトの座標系とイメージ プレーンの座標系の間の関係が確立される場所です。投影の中心を画像平面の消失点に接続することにより、3 つのベクトルを作成できます。これらのベクトルを使用して、消失点への方向が互いに直交する点を見つけることができます。スピーカーは、消失点が互いに直角になるすべての場所の軌跡が円であることに注意します。

  • 00:15:00 このセクションでは、講師が TCC の 3D バージョンとカメラのキャリブレーションについて説明します。彼は、投影の中心の位置に関する制約は、それが球上にあることであり、球を使用して投影の中心の可能性を絞り込む方法を説明しています。次に講師は、一次方程式と直線、およびシータとローによる直線のパラメータ化について説明します。パラメータ化は、特異点を回避し、ラインに 2 自由度の世界を提供するので便利です。

  • 00:20:00 このセクションでは、講師が 3 つの未知数を持つ線形方程式を使用して 3 次元での平面の表現について説明します。彼は、スケール係数のために、実際には自由度が 4 ではなく 3 しかないことを説明しています。この二重性は、2D の線と点の間のマッピングと同様に、3D の平面と点の間にマッピングがあることを意味します。次に講師はカメラのキャリブレーションの問題を紹介し、ロボット工学におけるマルチラテレーションの問題と比較します。

  • 00:25:00 このセクションでは、スピーカーは 3D 空間で 2 つの球体の交点を解決する方法を説明します。最初の球体は、二次項を含む方程式を持つものとして定義され、最大 8 つの解が得られる可能性があります。ただし、この方程式を 2 番目の球面から差し引くと、代わりに線形方程式が得られます。すべての球のペアに対してこのプロセスを繰り返すことで、3 つの線形方程式を作成し、3 つの未知数を解くことができます。これは完璧な解決策のように見えますが、この方法で作成された行列は多くの場合特異であり、したがってその解決策は一意ではないことに注意することが重要です。

  • 00:30:00 このセクションでは、スピーカーは方程式を操作し、その過程で重要な情報を失うという問題について説明します。彼は、新しい方程式を導出することはまったく問題ありませんが、問題を解決するために必要な重要な情報が含まれている可能性があるため、元の方程式を破棄しないように注意する必要があると説明しています。彼は、一次方程式と二次方程式の例を使用してこれを示し、必要な数の解を得るために、一部の方程式を破棄し、他の方程式を保持する必要がある方法を示しています。講演者はまた、方程式の背後にある幾何学を理解することの重要性を強調しています。これは、代数だけではすぐには明らかにならない貴重な洞察を提供できるからです。

  • 00:35:00 トランスクリプトのこのセクションでは、スピーカーは三角測量と、投影の中心と画像キャリブレーションの主点を見つける方法について説明します。彼らは、投影の中心は、3 つの平面を生成する 3 つの既知の点を使用して見つけることができ、中心はそれらの交点で見つけることができると説明しています。主点を見つけるために、彼らは投影の中心から画像平面に垂線を落とします。また、画像が変更またはトリミングされているかどうかを検出するために使用できる消失点についても説明しています。

  • 00:40:00 このセクションでは、講師が写真測量とカメラのキャリブレーションにおける消失点の使用について説明します。彼は、消失点を使用して画像の信憑性を判断する方法を説明し、探査に関連するさまざまなデマを探ります。次に、ベクトルの 3 番目のコンポーネントを見つけ、2 次方程式を解いて焦点距離を決定する数学について詳しく説明します。彼は、二次方程式を解く必要なく焦点距離を決定できる特別なケースを説明し続けます。このビデオは、コンピューター ビジョンの技術的側面に関するレクチャー シリーズの一部です。

  • 00:45:00 このセクションでは、スピーカーは、特に世界座標系に対するカメラの向きを決定するためのカメラ キャリブレーションにおける消失点の適用について説明します。話者は、縁石や道路標示など、平行であると思われる画像内の特徴を識別することで、画像内で認識できる消失点を生成できると説明しています。講演者はまた、3 つの消失点すべてが利用可能な理想的なケースでは、カメラによってキャプチャされた長方形のオブジェクトのエッジを使用して x 軸と y 軸を定義し、その後カメラ座標系と世界座標系。

  • 00:50:00 このセクションでは、スピーカーは、カメラ座標系で測定されたオブジェクト座標系で単位ベクトルを見つけるプロセスを説明します。単位ベクトルは互いに直角でなければならず、TCC および FOR MontiVision Demo の計算に使用されます。変換行列は、一方の座標系と他方の座標系との相対的な向きを表しており、講演者は、将来これをさらに行う予定であると述べています。

  • 00:55:00 このセクションでは、講師は行が互いに垂直で、各行の大きさが 1 である正規行列の概念について説明します。これの目的は、直交行列で回転を表すことです。オブジェクトの座標軸の方向を決定することにより、2 つの座標系の間を行き来することが比較的簡単になり、特にカメラのキャリブレーションに役立ちます。最後に、明るさの概念に触れます。観測される明るさは、物質の表面、光源、入射角と出射角、および方位角に依存します。

  • 01:00:00 ビデオのこのセクションでは、講演者が照明の概念と、照明が表面の見かけの明るさにどのように影響するかについて説明します。彼らは、表面が光源から得るパワーは、角度の余弦を使用して計算できる、光源の方向に対して表面が傾斜する角度の影響を受けると説明しています。次にスピーカーは、さまざまな方向に光を反射するマットな表面のアイデアを紹介しますが、どの方向から見ても同じように明るく見えるという特別な特性を持っています。彼らは、2 つの異なる光源位置でその明るさを測定することによって、そのような表面の向きを決定する方法について議論を続けています。

  • 01:05:00 このセクションでは、スピーカーは、単位ベクトルである n を解く際の非線形性について説明します。明るさの測定値を使用することにより、コサイン シータ i を推定することができ、表面法線の可能な方向の円錐を決定することができます。 2 つの別々の測定値が取得されると、方向の 2 つの円錐が作成され、可能な 2 つの方向から構成されるこれらの円錐の交点のみが法線方向になります。ただし、単位法線でなければならないという制約は、最終的な決定を行うために、これらの 2 つの可能な方向が単位球と交差する必要があることを意味します。講演者は、表面の反射率を定義するアルベドを使用することで、線形方程式の問題を作成して、画像平面内の物体の明るさを判断できると説明しています。アルベド値の範囲は 0 から 1 で、オブジェクトに入るエネルギーがどれだけ反射され、吸収されて失われるかを示します。

  • 01:10:00 このセクションでは、カメラのキャリブレーションにおける消失点 (VP) の使用について説明します。講義では、未知数をカプセル化した 3 つのベクトルを導入し、ベクトルと光源位置の行列乗算によってアルベドと単位ベクトルを解きます。ただし、この方法は、光源が同一平面上にある場合、つまり光源が同じ平面にある場合、またはマトリックスの 2 つの行が同じである場合に制限されます。この場合、マトリックスを反転することはできません。講義では、天文学者は光源が同じ平面にないことを確認する必要があるため、これらの制約が天文学者に与える影響についても言及しています。

  • 01:15:00 このセクションでは、3 つの独立した光源方向を使用して明るさを測定する簡単な方法について説明します。この方法は、事前に計算して効率的に実装することができます。カメラの 3 セットのセンサー (RGB) を利用すると、この目的に役立つことが示唆されています。ルックアップ テーブルを作成して、球の既知の形状に基づいて表面を調整し、その表面の向きを計算して 3 つの画像の明るさを測定できます。ただし、実際のサーフェスはこの単純な規則には従わず、ルックアップ テーブルを使用してサーフェスの向きの数値を逆にすることができます。最後に、話者は透視投影の代わりに正投影について触れます。

  • 01:20:00 このセクションでは、スピーカーは画像からサーフェスを再構成する際に正投影を使用するために必要な条件について説明します。彼は、この仮定は、深さ自体に比べて深さの範囲が非常に小さいことに基づいており、この投影に必要な一定の倍率を考慮していることを共有しています.正投影は、画像からサーフェスを再構成するプロセスを簡略化するために使用されます。
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 6: フォトメトリック ステレオ、ノイズ ゲイン、エラー増幅、固有値と固有ベクトルの復習



講義 6: フォトメトリック ステレオ、ノイズ ゲイン、エラー増幅、固有値と固有ベクトルの復習

講演では、フォトメトリック ステレオで連立一次方程式を解く際のノイズ ゲイン、固有値、および固有ベクトルの概念について説明します。講義では、特異行列の条件、誤差分析における固有値の関連性、および特異行列を回避するための線形独立性の重要性について説明します。講義は、ランベルトの法則と面の向きについての議論で締めくくられ、単位法線ベクトルまたは単位球上の点を使用して面を表現する必要性を強調します。全体として、この講義では、測光ステレオの基礎となる数学的原理についての洞察を提供し、地球の測定値から月の地形を正確に復元するという課題に焦点を当てています。

計算写真コースの講義 6 では、スピーカーは単位法線ベクトルと表面の勾配を使用して表面の向きを見つけ、表面の向きの関数として明るさをプロットする方法について説明します。彼らは、pq パラメーター化を使用して可能な表面の向きをマッピングする方法を説明し、傾斜面を使用してさまざまな角度の向きで明るさをプロットする方法を示しています。講演者はまた、光源の単位ベクトルと単位法線ベクトルの内積を勾配に関して書き直して、その量が一定である pq 空間の曲線を見つける方法についても説明します。講義は、光源に線を回転させて作成された円錐を使用して、さまざまな形状の円錐曲線を見つける方法の説明で終わります。

  • 00:00:00 ビデオのこのセクションでは、講師が 1D の場合のノイズ ゲインについて説明します。ここでは、1 つの未知数と 1 つの測定値があり、曲線の傾きが小さい場合、小さなエラーが大きなエラーに増幅される可能性があることを説明します。エリア。 2D のケースに移ると、議論は固有ベクトルと固有値に移ります。これらは行列の特性であり、行列の乗算から得られたベクトルが行列の乗算に使用されたベクトルと同じ方向を指しているかどうかを示します。講師は、これらのベクトルを見つける方法とその数について詳しく説明し、ベクトルのサイズとスケールは問題ではなく、複数の固有ベクトルが存在する可能性があると述べています。

  • 00:05:00 このセクションでは、スピーカーは特異行列の概念と、線形方程式系を解く際のその関連性について説明します。特異行列とは、行列式がゼロの行列です。 n 行 n 列の実対称行列の場合、行列式は n 根を持つラムダの n 次多項式です。これは、同次方程式のセットの場合、行列式がゼロの場合、一意の解ではなく、複数の解が存在することを意味します。これは、特定の方向のエラーが他の方向とは異なる場合がある、光学式マウスの回復などの多次元の問題を扱う場合に重要です。したがって、小さな決定要因を問題として特定するだけでなく、より微妙な全体像が必要です。

  • 00:10:00 講義のこのセクションでは、スピーカーは同次方程式とその興味深い特性について説明します。これには、一組の同次方程式が自明でない解を持つための条件が含まれます。マトリックスの行列式、および固有値と固有ベクトルについても説明します。固有ベクトルは、固有値のプロパティが保持される特別な方向になり、それらは直交します。固有値は、誤差がどの程度増幅されるかを決定します。これは、実際に誤差を測定するために重要です。大きな行列の固有値と固有ベクトルを見つけることは、多くの場合ソフトウェアを使用して行われますが、基本的なレベルでプロセスを理解することは役に立ちます。

  • 00:15:00 このセクションでは、スピーカーは、2x2 の場合の同次方程式を解く際の固有ベクトルと固有値について説明します。固有ベクトルを見つけるために、スピーカーは、解が行列の行に対して垂直でなければならないことを示します。結果は、ラムダの異なる値に対して同じ方向を指す 4 つの固有ベクトルを与え、それらを正規化して単位固有ベクトルを得ることができます。この手法は n 行 n 列の行列に拡張できます。この行列は、n 個の固有ベクトルと対応する固有値を提供し、誤差増幅について説明します。

  • 00:20:00 このセクションでは、講師が内積表記を行列に拡張する方法を説明し、固有値がすべて異なる場合、すべての固有ベクトルが直交することを示します。彼はまた、ルートのいくつかが同じである場合、固有ベクトルが直交することを強制するわけではなく、互いに直交するすべての可能な固有ベクトルから 2 つを選択できることにも言及しています。これは、ベクトル空間の基礎を構築するのに役立ちます。講師は、ベクトルを列ベクトルまたはスキニー マトリックスとして考える方法についても説明し、ドット積が両方の方法でどのように記述できるかを示します。

  • 00:25:00 このセクションでは、講師が固有ベクトルと、それらを使用して任意のベクトルを再表現する方法について説明します。任意のベクトル測定値を取得し、行列にその測定値を掛けて未知の変数を取得することにより、固有ベクトルの特別な方向に沿って、さまざまな成分をさまざまな量だけ拡大することができます。これはエラーゲインとして知られています。しかし、逆行列を使った逆問題も扱っているので、それを応用するためにnベクトルの二乗積を講師が紹介します。

  • 00:30:00 このセクションでは、スピーカーは固有ベクトルと固有値、およびそれらを使用してさまざまな方法で行列を書き換える方法について話します。彼らは、これらの項はすべて従属関係にあると説明していますが、固有ベクトル自体はそうではないため、因数分解することができます。彼らは、このアプローチを使用して固有値の特性を確認する方法と、視覚の問題を解決する上でこれが重要である理由について議論を続けています。具体的には、この問題を解決するために使用される行列は、多くの場合、ラムダ i に対して信号の成分を 1 倍するため、ラムダ i が小さい場合、不安定な不適切な設定の問題が生じる可能性があると説明しています。

  • 00:35:00 このセクションでは、講師がエラー分析のコンテキストで固有ベクトルと固有値について説明します。彼は、固有ベクトルの 1 つが小さな固有値を持つ場合、測定のわずかな誤差でも結果に大きな変化が生じる可能性があると説明しています。等光線の方向は、固有値が小さい固有ベクトルに対応するため、正確な動きを検出することが難しくなりますが、勾配方向はより寛容です。次に、講師はフォトメトリック ステレオについて説明します。これは、異なる照明条件下でオブジェクトの複数の写真を撮ることによって表面の向きを復元する技術です。アルベド パラメーターは、表面が反射する光の量を表すために使用され、表面の向きを制限するのに役立つと彼は説明しています。

  • 00:40:00 このセクションでは、講師が異なる光源を使用して 3 つの測定値を取得するプロセスを説明し、3 つの未知数と 3 つの測定値の問題を紹介します。これにより、線形方程式の解法を使用して画像の向きを明確にすることができます。これにより、解を計算するためのシンプルで安価な方法が得られます。講師は、2 つの解を見つけることは 2 次式から生じることに注意します。これは、内積表記法を使用して単位ベクトルを任意の 3-ベクトルに変換することで回避できます。さらに、このビデオでは、特異行列を回避するための線形独立行の重要性についても言及しています。

  • 00:45:00 講義のこのセクションでは、フォトメトリック ステレオ、誤差増幅、および固有値と固有ベクトルについて説明します。光源の合計がゼロの場合の測定の冗長性が調査され、3 次元空間の 3 つのベクトルが同一平面上にある場合、この方法は失敗することが示されています。ただし、それらが同一平面上になく、互いに直角に配置されている場合は、結果の信頼性が高くなります。講義では、フォトメトリック ステレオを使用して、太陽からのさまざまな照明に基づいて月の地形図を作成する方法についても言及しています。

  • 00:50:00 講義のこのセクションでは、教授は地球の測定値から月の地形を取得しようとする課題について説明します。月の軌道の異なる位置で測定することは可能ですが、ベクトルがほぼ同一平面上にあるため、この方法は機能しません。教授はまた、物体が完全に拡散して均一な反射率を持っていると仮定するランベルトの仮定について話しますが、月の表面には当てはまらないことに注意してください。ただし、この仮定は 2 つの照明強度を比較するのに役立ちます。これは、一方の側を 1 つの光源で照らし、もう一方の側を別の光源で照らし、同じ角度から見たときに 2 つの側面が等しく明るく見えるようにバランスを取ることによって達成できます。

  • 00:55:00 講義のこのセクションでは、ランバートの法則の発見につながったランバートが行った実験について教授が説明します。ランバートの法則は、さまざまな角度から照らされたときに表面がどのように光を反射するかを説明します。法則によると、明るさは入射角の余弦に比例します。この議論では、表面の向きと、それを単位法線ベクトルまたは単位球上の点を使用してどのように表現できるかについても説明する必要があることを強調しています。教授は、この現象学的モデルは想定された動作であり、実際の表面の正確な表現ではないと述べています.このセクションは、テイラー級数展開を導入して終了します。
  • 01:00:00 ビデオのこのセクションでは、スピーカーは計算問題における単位法線表記と勾配表記の関係について説明します。 2 つの表記法を切り替える方法を説明し、デカルト座標や極座標など、さまざまな領域の問題を解決するのにこれがどのように役立つかの例を示します。講演者はまた、表面の接線を見つける方法を示し、それらの接線の方向を使用して、表面の勾配を表す単位法線と p および q との関係を見つける方法を説明します。

  • 01:05:00 このセクションでは、講師が表面の単位法線ベクトルを使用して考えられるすべての表面の向きをマッピングする方法と、この情報がマシン ビジョンにどのように役立つかについて説明します。サーフェスにある 2 つの接線ベクトルの外積は、単位法線ベクトルの方向を示します。これを正規化して、サーフェスの方向を得ることができます。 pq パラメーター化を使用して表面の向きを 2D 平面に投影することにより、考えられるすべての表面の向きを視覚化できます。この平面上の点は、異なる p 値と q 値に対応しているため、床と床の上の同じ方向の表面を含む、異なる表面方向に対応しています。講師は、マシン ビジョンは表面の向きを復元できますが、これらの向きをつなぎ合わせて完全な表面を作成することは別の問題ですが、過度に決定された問題であると述べています。

  • 01:10:00 ビデオのこのセクションでは、マシン ビジョンで表面の向きの関数として明るさをプロットするツールとして傾斜面を使用する方法について説明しています。平面上の各点は特定の表面の向きに対応し、明るさの値はさまざまな角度の材料のパッチから実験的に決定できます。ただし、明るさの 1 回の測定では 2 つの未知数を回復することはできず、表面要素の方向を突き止めるには複数回の測定が必要です。次に、この概念は測光ステレオとランバート面に関連し、明るさは入射角のコサインに比例し、傾斜面で等光線が検索されます。

  • 01:15:00 ここで彼は、光源の方向を別の方法で書き換えて、単位ベクトルに対して n と同じ変換を完全に実行することについて議論しています。これにより、入射光線が psqs と呼ばれる表面法線に平行になる点が導入されます。これは平面内にあり、ランボルギーニに最も明るい表面を提供します。 n dot を特定の形式に書き換えることで、その量が一定である pq 空間の曲線を決定できます。それをすべて乗算した後、円錐曲線に対応する p と q の 2 次方程式が残ります。与えられた例は、放物線と楕円です。

  • 01:20:00 このセクションでは、放物線、楕円、円、線など、さまざまなタイプのサーフェスの等値面のセットを含む図とともにサーフェスがプロットされる、グラフィックに使用できる図についてスピーカーが説明します。 、ポイント、および双曲線。表面の明るさはダイアグラムから読み取られ、プロットされたイメージのグレー レベルまたは色として使用されます。単位法線はサーフェスから取得でき、等値面上のポイントを決定するために使用できます。光源が移動すると図が変化するため、固有の解を得るには、2 組のアイソロードの交点を決定することが重要です。 2 つではなく 3 つの光源が使用されます。これは、2 つの光源を使用すると、単一のソリューションではなく有限のソリューションになる可能性があるためです。

  • 01:25:00 このセクションでは、スピーカーは、光源への線を回転させてコーンとさまざまな角度を作成し、ネストされたコーンを作成する方法を説明します。これらの円錐は平面で切り取ることができ、常に楕円であるとは限らず、双曲線や放物線でさえある円錐曲線になります。講演者はまた、コサイン シータが実際には負になることはあり得ないことを明確にし、曲線がどこで閉じた曲線から開いた曲線に変わるかという問題は、将来の宿題の問題のパズルとして残します。講義は、宿題と発表の更新のために Piazza にサインアップするようリマインダーで締めくくられます。
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 7: 勾配空間、反射率マップ、画像放射照度方程式、Gnomonic Projection



講義 7: 勾配空間、反射率マップ、画像放射照度方程式、Gnomonic Projection

この講義では、勾配空間、反射率マップ、および画像放射照度方程式について説明します。講師は、反射率マップを使用してグラフィックス アプリケーションの表面の向きと明るさを決定する方法、および異なる照明条件で撮影した 3 枚の写真を使用して表面の向きから明るさへの数値マッピングを作成する方法を説明します。また、放射照度の概念と強度および放射輝度との関係、および明るさを測定する際に有限アパーチャを使用することの重要性についても紹介します。さらに、講義では、レンズを通過した後の光の振る舞いの 3 つの規則、短縮の概念、レンズがどのように光線を集束させて、表面上のパッチからの光がどれだけ画像に集中するかを判断する方法についても触れます。

この講義では、講演者は、立体角とコサイン シータを考慮して、画像内の小さな領域に供給される総電力を決定する式を説明します。彼らは、この方程式をカメラの f ストップと関連付け、開口サイズが受け取る光の量をどのように制御するかを説明します。講演者はまた、実世界の物体の放射輝度に比例する画像放射照度と、軸から外れると明るさがどのように低下するかについても説明します。次に、入射方向と放射方向に応じて表面がどの程度明るく見えるかを決定する双方向反射率分布関数について説明します。講師は、ゴニオメーターを使用して反射率を測定することができ、オブジェクトがどのように光を反射するかをリアルにモデル化することが重要であることを説明します。また、双方向反射率分布関数のヘルムホルツ相反性の概念についても説明しています。その後、講義は表面材料モデルへの勾配空間の適用について議論し、学生に宿題の情報を常に更新するように促します。

  • 00:00:00 このセクションでは、勾配空間の概念を紹介して、画像の明るさを決定するものを探ります。明るさは通常、表面の向きと同様に照明とジオメトリに依存するため、明るさを決定するために表面パッチの向きに言及する必要があります。単位法線、および p と q についても言及されています。これらは、画像の勾配の便利な省略形です。ランバート サーフェスの明るさは、問題のサーフェスの方向に応じて議論の余地があります。多くのつや消しサーフェスはランバート サーフェスの近似であり、そのような近似は便利に思えます。ただし、ほとんどの宇宙的および微視的な状況は、このような近似には適していません。

  • 00:05:00 講義のこのセクションでは、スピーカーは反射率マップの概念について説明します。これは、表面がその方向に基づいてどれだけ明るく見えるかを示す図です。この図は、グラフィックス アプリケーションの表面の向きと明るさを決定するために使用できます。次にスピーカーは、この概念を非ランバート サーフェスに拡張する方法と、サーフェスの向きに基づいて明るさを決定するためのルックアップ テーブルを作成する方法について説明します。追加の情報と制約を使用して、表面の向きの推定をさらに改善できます。

  • 00:10:00 このセクションでは、講師が球体などのキャリブレーション オブジェクトを使用して画像のキャリブレーションを行う方法について説明します。ライトアップされた球体の画像をすべての側面から撮影し、それに円を当てはめることで、画像の中心と半径を推定できます。球の場合、面に対する点と単位ベクトルが平行になる便利な関係があり、面の向きを簡単に決定できます。この方法は、緯度の定義にいくつかの変更を加えることで、地球にも使用できます。前の講義の式を使用して p と q を計算することにより、画像内の各点の n と表面の向きを決定できます。

  • 00:15:00 このセクションでは、異なる照明条件で撮影された 3 つの写真で、表面の向きから明るさへの数値マッピングを作成するプロセスについて説明します。目標は、後で同じ照明条件下でオブジェクトの 3 つの画像を撮影するときに、この情報を使用して表面の向きを計算することです。講師は、各ボックスが p 値と q 値を持つコンピューターで 3 次元配列を作成することを含む、このプロセスの実装について説明します。次に、画像は離散間隔に量子化され、情報を配列に入れるために使用されます。講義では、量子化効果や、決して埋められない空のセルなどの問題も扱います。

  • 00:20:00 このセクションでは、スピーカーはグラデーション スペースについて説明します。これは、2D スペースが実際にそのスペースを埋めることなく 3D スペースにマッピングされます。代わりに、その空間に面が形成され、p と q を使用してその面上の点を指定できます。 2 つの画像から 3 つの画像に移行する場合、e1 e2 e3 に比例してスケーリングするアルベド ファクターを導入します。キャリブレーション オブジェクトは白く塗られ、測定が行われ、rho が 1 に等しい表面の定義が生成されます。ただし、他の行については、立方体を埋めて他の面を生成できます。エントリが配置されるルックアップ テーブルには、3D から 3D へのルックアップ テーブルである p qand 行が含まれます。何か問題が発生した場合、アルベド ロー以外の値として反映され、3 つの光源のいずれかがエラーまたは予期せず遮断されたことを示します。この方法は、影のキャスティングを認識するのに役立ちます。または、反射面が近すぎるか、重なり合うドーナツ形状のように配置されている場合は、画像を分割してパーツに分解します。

  • 00:25:00 講義のこのセクションでは、勾配空間と反射率マップを使用してキャスト シャドウと高反射領域をセグメント化する方法について説明します。テーブル値に対応するボクセル値を入力する系統的な方法があります。スピーカーは、表面に当たる光源の単位面積あたりの電力である放射照度の概念も導入しています。この概念は、センサーを直接照明にさらしていないため、画像処理のコンテキストではあまり役に立ちません。スピーカーは、放射電力量を面積で割った用語があるが、画像処理には役に立たないと説明しています。

  • 00:30:00 このセクションでは、スピーカーは強度の概念と、点源を使用して特定の方向にどれだけの放射が進行しているかを測定するという意味での意味を説明します。立体角は測定値を正規化するために定義され、その単位はステラジアンで測定されます。これは 2D のラジアンに似ていますが、3 空間に射影されます。立体角は、スピーカーの周囲の可能な方向が 4 パイ ステラジアンに等しい、任意の形状の一連の方向の測定を可能にします。さらにスピーカーは、カメラのレンズが中心から外れた被写体に対して傾いている場合など、物体の短縮現象によって球の中心に対して表面積が傾いている場合を考慮することの重要性についても触れています。

  • 00:35:00 ビデオのこのセクションでは、強度と輝きの概念が説明されています。強度は立体角のパワーとして定義され、放射輝度は単位立体角あたりの単位面積あたりのパワーです。表面から観測者またはカメラに到達するものを測定する場合、放射輝度はより有用な量です。イメージ プレーンでは、明るさは放射照度として測定されます。これは、表面の放射輝度で測定される明るさです。

  • 00:40:00 このセクションでは、講師が測定エネルギーと電力の関係、およびそれらが互いにどのように比例しているかについて説明します。彼はまた、明るさを測定する際に有限アパーチャを使用することの重要性と、ピンホール モデルを使用するときに発生する問題についても話します。講師は、理想的な薄いレンズと、中心光線が無偏向であること、焦点中心からの光線が光軸に平行に出てくることなど、その 3 つのルールを紹介します。彼は、レンズが有限数の光子を与えながらピンホールと同じ投影を提供する方法と、特定の焦点距離と距離でそれらを使用することのペナルティについて説明しています。

  • 00:45:00 このセクションでは、レンズを通過した後の光の振る舞いの 3 つのルールをビデオで説明します。ルール 1 は、焦点中心からの光線は、レンズを通過した後、光軸に平行になるというものです。ルール 2 は、右からの並列アレイが焦点の中心を通過することを示しています。最後に、ルール 3 は最初の 2 つのルールを組み合わせたものです。このビデオでは、同様の三角形を使用してレンズの式を導出しています。これにより、レンズの焦点と長さを決定できます。レンズは、光線の方向を変えることができる印象的なアナログ コンピューターですが、レンズの物理的な制限により、完全な方向転換を実現することはできません。

  • 00:50:00 このセクションでは、レンズがさまざまな方向から来る光線を処理する方法と、放射状の歪みなどのさまざまな種類の欠陥の間にトレードオフが存在する方法について説明します。このビデオでは、放射照度とオブジェクトの放射輝度の概念についても説明しています。また、単純なイメージング システムの図を使用して、オブジェクト パッチから出力される電力と、照明によって画像パッチに到達する電力を決定する方法についても説明しています。さらに、このビデオでは、フラットなイメージ プレーンとレンズがカメラで使用されているという前提に言及しています。

  • 00:55:00 講義のこのセクションでは、スピーカーは、オブジェクトの表面に対する単位ベクトルの短縮効果をイメージ センサーへの入射光に関連付ける方法について説明します。彼は立体角の式を書き留め、コサイン アルファを掛けて f セカント アルファの 2 乗で割ることによって短縮効果を考慮に入れます。次に、画像の放射照度を、そのパッチから放出される総エネルギーと面積デルタ i に関連付けます。最後に、レンズが光線を集束させる方法と、物体から見たときにレンズが占める立体角によって、表面上のそのパッチからの光が画像に集中する量がどのように決まるかについて話します。
  • 01:00:00 レクチャーのこのセクションでは、立体角とコサイン シータを考慮した、画像内の小さな領域に供給される総電力の式についてスピーカーが説明します。単位面積あたりの電力は、総電力を実際に測定された面積で割ることによって求められます。スピーカーはまた、この方程式をカメラの F ストップに関連付けます。F ストップは、開口部がどの程度開いているかを決定し、それによって受光量を制御します。開口部のサイズは通常、2 の平方根の単位で測定され、画像の放射照度は F ストップの 2 乗に反比例します。

  • 01:05:00 このセクションでは、スピーカーは、画像の明るさである画像放射照度が、現実世界のオブジェクトの放射輝度にどのように比例するかについて説明します。表面放射輝度の明るさは、画像放射照度の明るさに比例するため、画像の明るさを簡単に測定できます。ただし、広角レンズを使用する場合は考慮しなければならない 4 番目のアルファのコサインで表される、軸から外れるにつれて明るさが低下します。この影響はあまり目立ちませんが、画像処理チェーンで補正できます。この式は、画像のグレー レベルを使用して明るさを測定するという考えを正当化し、それが現実の世界と関係があることを示しています。

  • 01:10:00 このセクションでは、講師が、入射方向と放射方向によって表面がどの程度明るく見えるかを決定する双方向反射率分布関数の概念について説明します。講師は、反射率は、白は入ってくるすべての光を反射し、黒はまったく反射しないと言うほど単純ではないことを明らかにしました.講師はまた、入射光または出射光の方向を指定するための極角と方位角の慣習的な使用法についても説明しました。双方向反射率分布関数は、反射率を決定する上で不可欠であり、出射するパワーを入射するパワーで割った値を測定します。

  • 01:15:00 講義のこのセクションでは、スピーカーは反射率について説明します。これは、特定の位置から見たときにオブジェクトがどのくらい明るく見えるかを、光源の方向から投入されたエネルギーの量で割ったものとして定義されます。講演者は、ゴニオメーターを使用して反射率を測定できると説明しています。ゴニオメーターは、4 次元空間の探索に役立つ角度測定装置です。講演者は、多くの表面では反射率を正確に測定するために 2 つの角度の差のみが必要であり、特定のオブジェクトではプロセスが簡単になることに注意しています。オブジェクトがどのように光を反射するかを現実的にモデル化することは重要であり、反射率を測定することで、よく知られたモデルで近似するだけでなく、この現実的なモデル化が可能になります。

  • 01:20:00 このセクションでは、教授は、干渉によって色を生成する微細構造を持つ虹色のアイテムや、タイガーアイのような半貴石など、外観を計算するために完全な 4 次元モデルを必要とする材料について説明します。光の波長のスケールで詰め込まれた微細構造。教授はまた、双方向反射率分布関数のヘルムホルツ相反性の概念を紹介します。これは、入射光と放射光を交換すると同じ値が得られ、データ収集が容易になることを示しています。

  • 01:25:00 このセクションでは、講演者は討論中に教授が使用したテクニックについて説明します。スピーカーは当初、教授がドイツ語の本を参照することで自分の知識不足を強調していると思っていましたが、後でそれが単なるディベート テクニックであることに気付きました。次に、勾配空間を表面材料モデルに適用して、太陽系の月や岩石惑星などの物体の表面陰影を決定する方法について説明します。スピーカーはまた、Piazza を通じて、延長や宿題に関する重要な情報を最新の状態に保つように学生に通知します。
Lecture 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection
Lecture 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 8: シェーディング、特殊なケース、月面、走査型電子顕微鏡、グリーンの定理




講義 8: シェーディング、特殊なケース、月面、走査型電子顕微鏡、グリーンの定理

この講義では、教授は測光とシェーディングに関連するいくつかのトピックを扱います。彼は、放射照度、強度、および放射輝度の関係と、それらがどのように測定され、関連付けられているかを説明しています。講義では、双方向反射率分布関数 (BRDF) も紹介して、照明が表面の向きと材質にどのように影響するかを説明します。講師はさらに、理想的なランベルト面の特性と、入射光を測定し、ヘルムホッツの相反性を扱う際の混乱を避けるための意味について説明します。講義では、勾配から単位ベクトルへの変換プロセスと、光源の位置との関係についても説明します。最後に、明るさを測定することで表面の勾配や斜面の方向を判断する方法について説明します。

講義では、光学とコンピューター ビジョンに関連するさまざまなトピックを扱います。教授は、シェーディング技術から形状を使用してオブジェクトの表面のプロファイルを取得し、その形状を決定する方法について説明します。その後、彼はレンズの議論に切り替え、正投影の使用を正当化します。講師はまた、テレセントリック レンズを構築することによってマシン ビジョンの透視投影を取り除くことについても話し、波長によるガラスの屈折率の変化による収差を補正するためのさまざまなトリックを実演します。最後に、スピーカーは正投影の概念を紹介します。これにより、透視投影に関連する問題の一部が単純化されます。

  • 00:00:00 このセクションでは、講師が測光に関する前回の講義の重要な概念を復習します。彼は放射照度、強度、および放射輝度を定義し、それらがどのように測定され、関連付けられているかを説明します。次に、表面の放射照度と画像の対応する部分の放射照度との関係を紹介します。これを使用して、世界の外とカメラ内の両方の明るさについて話すことができます。講師は、この関係が、像の立体角と面積を制限するレンズの絞りによってどのように影響を受けるかを説明します。

  • 00:05:00 このセクションでは、照度、ジオメトリ、およびマテリアルの量に関連してサーフェスの放射輝度を決定することに焦点を当てています。双方向反射率分布関数 (BRDF) を導入して、照度がサーフェスの方向とマテリアルにどのように影響するかを説明します。 BRDF は、光の入射方向と放射方向の関数であり、総出力パワーを総入力パワーで割った値を計算することで計算できます。さらに、BRDF は、ソースとビューアーへの方向が入れ替わっても同じ結果になるという制約を満たさなければなりません。表面反射率の一部のモデルはこの制約に違反しますが、人間やマシン ビジョンにとって重要ではないため、必要な測定数を減らす近道になります。

  • 00:10:00 講義のこのセクションでは、教授が理想的なランバート サーフェスの特性について説明します。それは、どの方向から見ても等しく明るく見えます。理想的なランバート サーフェスの場合、すべての入射光も反射します。教授は、4 つのパラメーターのうち 2 つに依存しないため、式が単純化されると説明しています。次に、部屋の照明などの分散光源を処理する方法や、入射方向の半球全体を統合する方法について説明します。教授は、すべての放射方向を統合する必要があること、および極角と方位角を使用してパッチの面積を計算する方法を説明しています。最後に、彼は f 項が一定であると述べています。

  • 00:15:00 このセクションでは、シェーディングの概念と表面での光の反射について説明します。講義では、表面に当たる光が入射する放射と入射角に依存することを強調しています。すべての光が反射されると言われ、表面に蓄積されるパワーは、表面の面積の e cosine theta i 倍になります。したがって、反射光を積分すると入射光と等しくなります。講義では、反転曲面の f の定数値を計算し、f はランバート曲面の pi で 1 であると結論付けます。反射エネルギーがすべての方向に均等に放射されるわけではないことに注意してください。短縮が表面から放射されるパワーにどのように影響するかが説明されています。

  • 00:20:00 講義のこのセクションでは、教授はランバート面の概念について説明します。これは、すべての方向に均等に光を放射する面です。しかし、大きな面を光源から斜めに扱う場合、面要素の面積は縮小し、結果として単位面積あたりのパワーは無限大になります。網膜の損傷を避けるために、表面は特定の方向への放射を減らしますが、単位面積あたりの電力は一定のままです。この条件は、表面が実際に特定の領域でより多く放射し、他の領域ではより放射が少ないことを意味し、その結果、2 pi に対して 1 ではなく、pi に対して 1 の比率になります。次に、この知識を使用して入射光を測定し、ヘルムホッツ相反性を扱う際の混乱を避ける方法を説明します。

  • 00:25:00 このセクションでは、講師は、ランバート サーフェスとは異なり、多くのアプリケーションで非常に重要なタイプのサーフェスを紹介します。このタイプの曲面は、コサイン シータ i とコサイン シータ e の平方根を掛けたものであり、ヘルムホルツの相互関係を満たします。このタイプの表面の放射輝度は、縮み率の影響を受け、月や岩石惑星、小惑星の表面をモデル化するために使用されます。講義では、3D 空間では入れ子になった円ですが、画像平面では楕円として投影されるこの表面の等照線を決定する方法を説明し、輝度等高線マップに関する洞察を提供します。

  • 00:30:00 このセクションでは、スピーカーは、3D 空間で特定のマテリアルをシェーディングする方法を見つけることの難しさについて説明します。彼らは、ラボで使用されていた以前の方法はこの材料には機能しないため、新しいアプローチが必要であると説明しています。次にスピーカーは、単位法線を使用して、表面上のすべての点の定数値を見つける方法を実演します。これは、固定ベクトルに対して垂直でなければなりません。次に、同じ明るさを持つ表面上のすべての単位ベクトルが平面内にある必要があることを意味することを示し、材料に関する有用な情報を明らかにします。最後に、話し手は球座標を使用して、理解を深めようとします。

  • 00:35:00 このセクションでは、講師が月面のシェーディングを処理する際に座標系を選択する方法について説明します。適切なシステムを配置すると、代数的な混乱を防ぐことができるからです。彼らは、太陽と地球が z=0 にある座標系を使用することを推奨しており、計算を 1 つの未知数に単純化しています。講義では、円盤が均一に明るいはずの満月の外観についても簡単に触れていますが、非ランベルトの微細構造のため、完全な球形には見えません。 Hakka モデルは、この種の行動を予測するのに適しています。最後に、講義は n ドット v 上の n ドット s の式に飛び込み、最終的に球面座標ベクトルを使用した単純化されたバージョンに到達します。

  • 00:40:00 このセクションでは、講師が月面の明るさと方位角の関係について説明します。彼らは、同じ明るさの表面上のすべての点は同じ方位角を持ち、一定の経度の線は等値線であると説明しています。これは、ランバート サーフェスとは大きく異なります。月のアルベドは石炭と同じですが、反射率を測定するための比較対象がないため、空では非常に明るく見えます。ただし、測光ステレオを使用して、さまざまな照明条件下で表面の複数の写真を撮ることにより、月の表面の向きや、場合によってはその形状さえも決定できます。ホプキン モデルは、勾配の観点から表面の向きを記述するために使用されます。

  • 00:45:00 このセクションでは、講師が勾配から単位ベクトルへの変換プロセスと、光源の位置との関係について説明します。彼らは、ヘルムホルツを満足させるには平方根が必要であり、特定の内積の比を取ると、pq 空間にプロットできる等光線の線形方程式が得られると説明しています。講師は、これらの線は平方根のために等間隔ではありませんが、それらは平行であり、輝度がゼロの線が 1 つあることに注意してください。これは、入ってくる放射線から 90 度回転していることを示しています。全体として、このセクションでは、等照線の計算の基礎となる数学的概念と、特定の空間内の光源の位置と明るさの関係について説明します。

  • 00:50:00 このセクションでは、さまざまな問題を簡単に解決できるフォトメトリック ステレオのリニア シェーディングの利点について講師が説明します。 2 つの異なる照明条件では、2 つの線形方程式が交差し、その交点が面の向きになります。講師は、最大 4 つの解があった以前の方法の問題である、ランバート シェーディングにはあいまいさがないと述べています。講師はまた、最初の空間導関数が座標系と同じように回転することを示します。これは、表面の全体的な向きを知らなくても、特定の方向の表面の向きを決定するのに役立ちます。

  • 00:55:00 このセクションでは、講師は、明るさを測定することで表面の急勾配または傾斜方向を決定する方法を説明します。研究者は、点の明るさまたは反射率を垂直方向および水平方向に測定することにより、表面のプロファイルを収集できます。このプロセスを開始するには、表面の明るさを測定し、段階的に z を見つけるという初期条件が必要です。ただし、測定の精度は、反射率の変動や明るさの測定の不正確さの影響を受ける可能性があります。

  • 01:00:00 このセクションでは、教授は、オブジェクトの表面のプロファイルを取得して、シェーディング技術からの形状を使用してその形状を決定する方法について説明します。彼は、オブジェクト全体にプロファイルを実行することで、初期値を知っている限り、プロファイルの形状を取得する方法を説明しています。ただし、初期値がわからないと、プロファイルの絶対垂直位置を取得できません。次に、この手法を月に適用して、表面のさまざまなプロファイルを取得し、オブジェクトの形状を調べます。教授は、プロファイルから 3D サーフェスをつなぎ合わせるヒューリスティックについても話します。その後、彼はトピックをレンズについての話題に切り替え、正投影の使用を正当化します。

  • 01:05:00 このセクションでは、講師は、複数の要素で構成される複合レンズが、慎重に設計された配置によってどのように収差を補正するかについて説明します。彼は、ガラスの屈折率は波長によって変化し、色収差を引き起こすと述べていますが、異なる材料の複合レンズはこれを補償することができます.講師は、節点と主平面を使用して厚いレンズを近似する方法と、t (節点間の厚さ) を負にする巧妙なトリックによって短い望遠レンズが得られる方法について説明します。この技術により、望遠レンズの長さを大幅に短縮しながら、長い焦点距離と小さな視野を維持できます。

  • 01:10:00 このセクションでは、講師がマシン ビジョンで透視投影を削除する 2 つのトリックを実演します。最初のトリックは、ノードの 1 つを無限に移動することです。これにより、距離に応じて倍率が変化する効果が減少します。遠く離れた投影中心を持つテレセントリック レンズを構築することにより、方向の円錐がより平行になり、倍率は距離に関係なく一定に保たれます。 2 番目のトリックは、他のノードを移動することです。これにより、イメージ プレーンが正確な場所にない場合に倍率が変更されます。鮮明な画像を実現するには、ガラスの焦点距離を変更するか、レンズを像面に対して移動させて、レンズの焦点を合わせる必要があります。

  • 01:15:00 講義のこのセクションでは、スピーカーは、投影の中心がプラス無限大にない場合のコサインの第 4 法則と倍率の変更に関する問題について説明します。彼は、節点を外側に移動し、ダブル テレセントリック レンズを使用することで、放射線がセンサーに垂直に特定のセンサーに到達するため、これらの問題を解消する方法を説明しています。さらに、スピーカーは、入射光をより小さな領域に集中させ、信号に高周波成分がある場合に発生する可能性があるエイリアシングを回避するために、小さなレンズ蓋の必要性について説明しています。最後に、スピーカーは、ローパス フィルタリングの関連性と、信号を完全に再構築するために信号の帯域幅の 2 倍の信号のみをサンプリングすることの重要性について言及しています。

  • 01:20:00 このセクションでは、レンズレット アレイを使用して広い領域からの光を測定する際に、ブロック平均化によるローパス フィルタリングがエイリアシングの問題をどのように軽減できるかについて講師が説明します。この方法は、光がセンサーに対して垂直に入射する場合にうまく機能します。これは、テレセントリック レンズを使用することによって実現されます。ただし、シーンの深度の変化が深度自体よりも小さい場合など、特定のケースでは正投影を使用する方が便利であることを説明します。これにより、世界の x と y と画像の x と y の間の線形関係が可能になり、距離に関係なくオブジェクトの距離とサイズを測定できます。

  • 01:25:00 このセクションでは、講演者は正投影の概念を紹介します。これは、テレセントリック レンズを使用した実用的なアプリケーションに役立ち、議論される問題のいくつかを単純化します。彼らは、この方法はランボルギーニでのみ機能すると考える人もいるかもしれませんが、実際にはすべてに機能しますが、他のバージョンでは方程式が乱雑になります.話者は、彼らが次に取り組む再構成の種類は透視投影で行うことができると説明しますが、それは複雑であまり洞察に富むものではありません.しかし、正投影に変更することで、これらの問題の多くが明確になります。
Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 9: シェーディングからの形状、一般的なケース - 1 次非線形 PDE から 5 つの ODE まで



講義 9: シェーディングからの形状、一般的なケース - 1 次非線形 PDE から 5 つの ODE まで

この講義では、画像の明るさの変化を使用してオブジェクトの形状を解釈する方法である、シェーディングからの形状のトピックについて説明します。講師は、二次電子コレクターを使用して入射電子ビームの一部を測定し、表面の傾斜を推定できるようにする走査型電子顕微鏡のプロセスについて説明します。講義では、等高線積分、モーメント、最小二乗法を使用して曲面導関数を推定し、測定ノイズを考慮して最小の曲面を見つける方法についても説明します。講演者は、シェーディング問題から形状の 5 つの常微分方程式を導出し、画像処理操作で使用されるラプラシアン演算子の概念についても説明します。

「Shape from Shading」に関するこの講義では、スピーカーは、シェーディングから形状への最小二乗解の方程式を解くためのさまざまなアプローチについて説明します。講師は、ラプラシアン条件を満たし、ピクセル値を調整し、さまざまなポイントからの画像測定と勾配計算を使用してサーフェスを再構築するためのさまざまな手法について説明します。講義では、初期値、回転の変換、マイナス シータによる逆変換について説明します。講師は、任意の反射率マップに対するこれらの方程式の一般化と、シェーディング解釈の具体例を提供するために走査型電子顕微鏡画像を調べることの重要性についての議論で締めくくります。

  • 00:00:00 講義のこのセクションでは、シェーディングから形状を紹介します。これは、画像の明るさの測定値を使用してオブジェクトの形状を復元する方法です。彼は、この方法が、複数回の露出を必要とするフォトメトリック ステレオとどのように異なるかを説明しています。教授はまた、ハプケ、岩石惑星からの反射のモデル、顕微鏡の 3 番目のモデルなど、さまざまな種類の表面材料とその反射特性についても説明します。彼は電子顕微鏡法の比較を提示し、走査型電子顕微鏡が生成する画像が、エッジに近づくにつれて明るくなる特定の明るさの変化のために、人間が解釈しやすいと感じる理由を説明します。

  • 00:05:00 このセクションでは、講師が画像のシェーディングの重要性について説明します。シェーディングは、オブジェクトの形状を解釈する上で重要な役割を果たします。講師は、面の向きによって明るさが変化する蛾の頭と卵形のフットボールのような形の画像を提示し、その形を簡単に解釈できるようにします。興味深いことに、フットボールのような物体の非ランバート表面にもかかわらず、人間は依然としてその形状を正確に解釈することができます。次に、加速された電子ビームを使用して物体の表面の画像を作成する走査型電子顕微鏡の仕組みについて詳しく説明します。

  • 00:10:00 このセクションでは、走査型電子顕微鏡を使用して陰影画像を作成するプロセスについて説明します。数キロ電子ボルトの電子が物体に衝突し、一部は後方散乱として跳ね返りますが、ほとんどの電子は、エネルギーを失い、電離物に電子を衝突させることにより、透過して二次電子を生成します。二次電子の一部は対象物から出てきて、電極によって収集され、ラスターのような方法で対象物をスキャンします。ここで測定された電流は、ディスプレイ内の光ビームを変調するために使用されます。これは、偏向によって拡大され、数千から数万の倍率を得ることができ、光学顕微鏡よりも強力になります。

  • 00:15:00 講義のこのセクションでは、スピーカーは、二次電子コレクタを使用して表面の向きを測定するプロセスを説明します。コレクターは、入射ビームの一部を測定して元に戻します。高度に傾斜した表面では、より多くの二次電子が逃げるため、より多くの電流が発生します。反射率マップ、明るさ対方向をプロットすることにより、表面の勾配は決定できますが、勾配は決定できないため、2 つの未知数と 1 つの制約が残ります。この問題はシェーディング問題からの形状の例で、目標は明るさのパターンから表面形状を推定することです。

  • 00:20:00 講義のこのセクションでは、スピーカーは反射率マップを使用して表面の傾斜または勾配を決定する方法について説明します。彼らは、この方法は特定のタイプだけでなく、さまざまな表面に使用できると説明しています。ディスカッションでは、針の図と、それらを使用して表面の向きと形状を決定する方法についても説明します。話者は、これは単純な問題ですが、未知数よりも多くの制約があるため過剰決定されていると説明しています。これにより、ノイズが減少し、より良い結果が得られます。講義は、原点からの高さの変化を決定するために p を積分するデモンストレーションで終わります。

  • 00:25:00 このセクションでは、スピーカーは既知のデータを統合して、x 軸または y 軸に沿った任意の高さを推定する方法について説明します。これらを組み合わせて、領域全体を埋めることができます。ただし、使用される p 値と q 値は測定ノイズの影響を受けやすいため、異なる方法で p と q を測定しても同じ答えが得られるという保証はありません。この問題を解決するには、p と q に対する制約を設定する必要があります。 p と q は、すべてのループでこの制約を満たさなければなりません。また、大きなループを小さなループに分解して互いに打ち消し合い、大きなループでも制約が確実に満たされるようにすることができます。

  • 00:30:00 このセクションでは、講師は測光外部法または他の視覚法を使用して表面の導関数を測定するという文脈で、輪郭積分と面積積分の間の関係について説明します。講義では、勾配がほぼ一定であるストレッチの中心に基づいて勾配を推定する方法を示し、テイラー級数展開を使用して x y の表面 z の導関数を関連付ける方程式を導き出します。測定された p と q を与える xy の正確な z を見つけることは不可能であると言われていますが、最小二乗近似を見つけるためのより洗練された方法が提示されています。

  • 00:35:00 講演のこのセクションでは、講演者は、計算をすべてのピクセルからマシン ビジョンの領域の境界だけに減らすことの利点について説明します。話者は、ピクセルを数える代わりにアウトラインをトレースすることによって効率的に計算できる、輪郭の積分とモーメントを介してブロブの面積と位置を計算する例を使用します。講義は、グリーンの定理を適用して、等高線積分をモーメントの計算に適合させることへと続きます。

  • 00:40:00 このセクションでは、講師が私たちの測定値から可能な限り最小の表面を見つける方法について説明します。理想的には、その x 導関数と y 導関数が、それぞれ画像から取得した p と q に一致するサーフェスを見つけることです。ただし、測定ノイズのためにこれは不可能であるため、代わりに、最小二乗問題を解くことによって可能な限り小さくしようとします。 Z は無限の自由度を持つ関数なので、通常の計算は使えません。代わりに、グリッド上の有限数の未知数のそれぞれについて微分し、結果をゼロに設定して多くの方程式を得ることができます。

  • 00:45:00 講義のこのセクションでは、スピーカーは、x 方向と y 方向の両方で観測値と推定された導関数の間の誤差を最小限に抑えるために、すべてのグリッド ポイントの z の値を見つけるプロセスについて説明します。これを行うには、スピーカーは、i と j のすべての可能な値を微分して結果をゼロに設定する必要があると説明します。これにより、最小二乗法を使用して解ける一連の線形方程式が得られます。ただし、スピーカーは、識別子名 i および j が他の名前に置き換えられない場合、間違った答えが得られる可能性があるという潜在的な問題について警告します。方程式の数が多いにもかかわらず、方程式がまばらであるため、解くのが容易になります。

  • 00:50:00 このセクションでは、シェーディング問題から形状の 5 つの常微分方程式を導出するために、1 次非線形偏微分方程式を使用するプロセスについて説明します。彼らは、正方形内の項の微分、項の一致、および k と l のさまざまな値の考慮の手順を説明しています。講師は最終的な方程式を単純化し、項を分離して、それぞれ p と q の x 導関数と y 導関数を識別します。目標は、最終的に画像内のすべての点の解を見つけることです。

  • 00:55:00 このセクションでは、スピーカーは計算分子図について説明します。これは、マシン ビジョンで導関数を推定するグラフィカルな方法です。彼はこれを使用して、画像処理操作で頻繁に使用されるラプラシアン演算子を導出する方法を示します。彼は、ラプラシアンは回転対称であり、回転対称でもあるエッジ検出に非常に役立つ微分演算子があると説明しています。

  • 01:00:00 このセクションでは、変分法を使用するのではなく、シェーディングから形状への最小二乗解の方程式を解くための離散アプローチについて説明します。結果として得られる方程式は、多くの変数を持ちますが、疎であるため、反復解が可能になります。講演者は、近隣ピクセルの局所平均を計算し、画像情報に基づいて補正を追加することを含む反復アプローチを使用して、これらの方程式を解く方法を説明します。講演者は、反復解を提案するのは簡単ですが、収束することを示すのは難しいが、教科書では収束することが示唆されていると述べています。

  • 01:05:00 このセクションでは、講師は、まばらな項を持つ単純な方程式を使用してピクセル値を調整することにより、ラプラシアン条件を満たすアプローチについて説明します。このアプローチは、熱方程式を解くことに関連しており、並列で効率的に実行できるため、測定ノイズがあっても安定します。この手法をフォトメトリック ステレオ データに適用して、最小二乗法で表面を再構築し、実験データと一致する合理的なソリューションを提供できます。ただし、講師は、このアプローチが測光ステレオを超えて直接的に役立つわけではなく、単一の画像再構成など、解決すべきより困難な問題があることを認めています。

  • 01:10:00 このセクションでは、講師は平行直線を等光面として使用した反射率マップの単純なケースについて説明します。平行線により、より有用な座標系に回転し、ある方向の情報を最大化し、別の方向の情報を最小化することができます。講義では、p、q、p 素数、および q 素数、三角形によって与えられる角度シータ、およびマイナス シータを通る回転の逆変換の関係が提供されます。最後に、この講義では、波線の一般的なケースを分析し、シェーディングからの形状の概念について説明します。

  • 01:15:00 このセクションでは、講師がさまざまなポイントからの画像測定と勾配計算を使用してサーフェスを再構築する方法について説明します。この講義では、z の高さに定数を追加して変化を見つけるというアプローチは、z のラプラシアンをまったく調整しなかったという考えについても説明します。これは、高さの違いは多くの情報を提供せず、相対的な深さのみを提供することを意味します。ただし、講師は、再構成を取得するには z の初期値が必要であると述べています。

  • 01:20:00 このセクションでは、シェーディングからのシェイプを使用してサーフェスの形状の解を計算する際に、行ごとに異なる初期値を持つ可能性があるという課題についてスピーカーが説明します。高さの全体的な変化に対処するのは簡単ですが、行ごとに異なる初期値を設定するには、元の回転していないワールドにマッピングできる異なる初期曲線が必要です。スピーカーは、イータの関数である初期曲線を使用して、これらの曲線に沿って移動し、それらを個別に計算してから、解を探索する速度を変更して表面を探索することを提案しています。

  • 01:25:00 このセクションでは、スピーカーは、定数を掛けることで方程式がより単純になり、x 方向と y 方向の動きはそれぞれ q s と p s に比例し、z 方向にはストレートな公式。講義は、任意の反射率マップに対するこれらの方程式の一般化と、シェーディング解釈の具体例を提供するために走査型電子顕微鏡画像を調べることの重要性についての議論で締めくくられます。
Lecture 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs
Lecture 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 10: 特性ストリップ拡張、シェーディングからのシェイプ、反復ソリューション



講義 10: 特性ストリップ拡張、シェーディングからのシェイプ、反復ソリューション

この講義では、インストラクターは画像形成の概念で明るさの測定を使用してシェーディングから形状のトピックを扱います。これには、明るさを表面の向き、照度、表面の材質、形状に関連付ける画像放射照度の式を理解することが含まれます。彼らは、互いにフィードする2つの別々の方程式系を使用してp変数とq変数を更新し、輝度勾配を使用してストリップ全体をトレースする方法を説明しています。この講義では、一次非線形偏微分方程式を解く際の課題や、サーフェスを探索する際に 1 つの等高線から別の等高線に移動するさまざまな方法についても説明します。最後に、インストラクターは、特徴的なストリップ展開の実装と、並列化の推奨とステップ サイズの制御について、逐次アプローチが最適な方法ではない理由について説明します。

講義 10 では、教授はシェーディングからの形状の問題を解決するためのさまざまな方法について説明します。これには、表面上の静止点を使用し、その周りに小さなキャップ形状を構築して局所的な形状を推定する方法が含まれます。講師はまた、解の開始条件を提供できる閉塞境界の概念を紹介し、高度な数値解析手法を使用して三体問題の解を計算する最近の進歩について説明します。さらに、この講義では、次の講義で説明する産業用マシン ビジョン手法と関連するパターンのトピックに触れます。

  • 00:00:00 このセクションでは、講師が学期プロジェクトの最初の小テストと提案提出に関するアナウンスを提供します。用語プロジェクトには、マシン ビジョンの問題に対するソリューションの実装が含まれ、学生は 22 日までに短い提案を提出する必要があります。次に、インストラクタは、産業用マシン ビジョンを取り上げるペースの変化について話し、出版された論文や教科書の代わりに特許を調べます。その過程で学生は、スタートアップに携わる起業家にとって不可欠な特許用語について学びます。最後に、インストラクターは、エッジ検出のためのサブピクセル手法の実装や Android フォンでの接触時間など、学生プロジェクトの例を提供します。

  • 00:05:00 このセクションでは、講師が画像形成のさまざまな側面について説明します。特に、明るさの測定を使用したシェーディングからの形状の概念に焦点を当てています。これには、明るさを表面の向き、照度、表面の材質、形状に関連付ける画像放射照度の式を理解する必要があります。反射率マップは、この方程式を単純化するために使用され、詳細な反射特性を要約する方法として機能しますが、双方向反射率分布関数 (BRDF) から導出されます。講義では、この概念が月や他の岩石惑星の反射特性にどのように適用され、特定の方向での表面の向きを決定できる一連の方程式が得られたかを説明します。

  • 00:10:00 このセクションでは、スピーカーは、正投影を使用して高さの小さなステップに対応するために、画像内の小さなステップを取るための規則について説明します。彼は、これにより数学が簡素化され、テレセントリック レンズと遠方の光源の仮定に結びつき、ランベルトの仮定が可能になると説明しています。全体的なプロセスには、前進オイラー法で 3 つの常微分方程式を数値的に解き、Hapka 型サーフェスを介して明るさを入力することが含まれます。スピーカーは、これを p と q で表現する方法を示し、次に放射輝度のイメージの式を導き出します。

  • 00:15:00 このセクションでは、スピーカーは、表面の明るさの測定量と特定の表面に必要なソリューションとの直接的な関係について説明します。彼は、ソースの位置に依存する rs と呼ばれる定数があり、解を単純化するために使用されると説明しています。この手法では、輝度を取得して 2 乗し、rs を掛けて、z 方向の導関数で 1 を減算します。スピーカーは、微分方程式の初期条件を取得する方法と、パラメーターを使用して曲線を定義する方法についても説明します。次に、この方法を一般化して、勾配を局所的に決定できない一般的なケースに取り組みます。

  • 00:20:00 このセクションでは、講師が特徴的なストリップ展開を使用したソリューションの構築について説明します。そのためには、高さの変化を計算して、z がどのように変化するかを知る必要があります。彼らは、表面の向き p と q と共に x、y、z から開始し、x、y、z の規則を更新し、z の高さの変化が方程式で与えられると仮定しています。必要に応じて p と q を更新する必要があり、その結果、表面の向きを保持する特徴的なストリップが得られます。これは、単なる曲線よりも多くの情報です。講師は、2 行 2 列の行列と、曲率に対応する高さの 2 次偏導関数を使用して、p と q を更新する方法を説明します。

  • 00:25:00 このセクションでは、講師が 3D サーフェスの曲率行列を計算する方法について説明します。これは、平面内の曲線よりも複雑です。曲率行列には、ヘッセ行列と呼ばれる二次導関数の行列全体が必要です。ただし、高次導関数を使用して解を続けると、未知数が増えることになります。したがって、表面の向きの変化は画像の明るさに影響する曲率に対応するため、画像放射照度の式、特に明るさの勾配が必要です。曲率方程式と輝度勾配方程式の両方で共通の行列 H を調べることにより、H を計算すると、x、y、z、p、q の更新が可能になり、メソッドが完成します。

  • 00:30:00 このセクションでは、講師が 2 つの線形方程式を使用して h を解く概念について説明します。 H はこれらの方程式の両方に現れますが、2 つの方程式と 3 つの未知数があるため、h について解くことはできません。ただし、特定のデルタ x とデルタ y を使用することで、ステップ サイズを制御し、特定の方向を選択してデルタ p とデルタ q を計算できます。講師はまた、表面を探索すると方向が変わる可能性があると説明しています。これを方程式に当てはめることで、問題を解決するために p と q を変更する方法を見つけることができます。

  • 00:35:00 このセクションでは、講師が画像放射照度方程式の z 変数を解くために必要な 5 つの常微分方程式について説明し、輝度勾配を使用してストリップを生成して p および q 変数を更新する方法を紹介します。講師は、互いに影響し合う 2 つの連立方程式を含むソリューションの興味深い部分と、それらがどのように勾配の方向を決定し、ストリップ全体をトレースするために使用できるかを説明します。最終的に、偏微分方程式は、p と q を使用して単純な常微分方程式に縮小され、方程式がより威圧的に見えるようになります。

  • 00:40:00 このセクションでは、スピーカーはシェーディングから形状のコンテキストで明るさを解決する際の 1 次非線形 PDE の課題について説明します。これは、物理学で見られる一般的な 2 次および線形偏微分方程式からの逸脱であり、これらのタイプの偏微分方程式を解くには特別な方法が必要であることを意味します。 P と Q の任意の R の一般的なケースについて説明し、次に 2 つの特定の表面特性に適用します。ハプケと走査型電子顕微鏡です。 X と Y の更新規則は、それぞれ PS と QS に比例することが示されています。

  • 00:45:00 このセクションでは、反復解によるシェーディングから特徴的なストリップの拡張と形状を使用して、x、y、および高さ軸を更新する方法について講師が説明します。この方法では、p と q について微分して x と y の更新を計算し、prp と qrq を使用して高さ軸を更新します。講義では、この方法が走査型電子顕微鏡画像に使用できることを指摘し、基本特性の概念にも触れます。これには、特徴ストリップを画像平面に投影して、可能な限り多くの画像を探索することが含まれます。

  • 00:50:00 このセクションでは、スピーカーは特徴的なストリップ拡張の実装と、シーケンシャル アプローチが最適な方法ではない理由について説明します。各曲線に沿って独立した解が見つかるため、各曲線に沿ってプロセスを実行でき、計算を並列化できます。合理的なステップ サイズを持つ必要がある計算の速度について説明し、ステップ サイズが定数 z によって制御される単純なケースを調べます。 z の方程式で PRP と QRQ で除算することにより、変化率は 1 になり、z の値が増加するときの等高線を含む各曲線に沿って一定の解が得られます。

  • 00:55:00 講義のこのセクションでは、スピーカーは、サーフェスを探索しながら、ある輪郭から別の輪郭にステップするさまざまな方法について説明します。彼らは、z方向に一定のサイズの増分でステップするオプション、または画像内で一定のステップサイズを持つオプションについて言及しています。これには、すべての方程式を一定の係数で除算する必要があります。もう 1 つのオプションは、3D で一定サイズの増分でステッピングすることです。この場合、増分の 2 乗の合計は 1 です。最後に、コントラストまたは明るさの画像の等高線で等値線でステッピングする可能性があります。ただし、これらの方法の中には、さまざまな速度で異なる曲線が実行されたり、ゼロで割ったりするなどの問題がある場合があるため、これらの制限に注意することが不可欠です。

  • 01:00:00 講義のこのセクションでは、教授は画像と屈折率マップの 2 つのグラデーションの内積について説明しますが、詳細には触れません。画像内の輪郭から輪郭へと移動すると、隣接する解を簡単に結び付けることができ、大まかな数値解析方法で十分な結果が得られます。次に、教授は、三体問題の計算ソリューションの最近の進歩と、解析的に解くことが不可能ではないにしても困難な方程式を解くために、高度な数値解析手法がどのように使用されているかについて説明します。

  • 01:05:00 このセクションでは、講師が、光学マシン ビジョン法を使用して、表面をその向きとともに探索するために必要な初期曲線の課題について説明します。幸いなことに、曲線の方向に 1 つの制約を与える画像放射照度方程式があり、曲線が表面にあることがわかっているため、導関数を計算して線形方程式を解くことができます。これは、形状や方向などがわかっているオブジェクト上の特別なポイントを見つけることができれば、方向を見つけて、オブジェクトの最初のストリップの必要性を取り除くことができることを意味します。

  • 01:10:00 このセクションでは、スピーカーはオクルージョン境界の概念について説明します。これは、一方の側の部分が見え、もう一方の側が見えないように、オブジェクトがカールする場所です。その点で表面法線を構築すると、それは閉塞境界に沿って構築されたベクトルに平行になり、ソリューションを開始するための開始条件が得られます。ただし、勾配が無限であるため、遮蔽境界からの比率を使用して方程式を解くことはできません。講演者は、静止点の概念も紹介します。静止点は、一意でグローバルな孤立した極値であり、オブジェクトが照らされたときにオブジェクトの表面の最も明るい点から生じます。これらのポイントは、そのスポットでのサーフェスの向きを提供します。これは、シェーディングの問題から形状を解決するための貴重な情報です。

  • 01:15:00 このセクションでは、講師が反射率マップと画像上の静止点について説明します。静止点は、使用する画像技術に応じて極値または最小値に対応します。ただし、従属変数に変化がないため、定常点では解を直接開始することはできません。解は、解を開始するために表面の近似を構築しようとするときにのみ、静止点から移動できます。アイデアは、静止点の向きを使用して小さな平面を構築し、半径を作成して解を開始することです。そうすることで、解は静止点から離れ、より良い解に向かって反復を開始できます。

  • 01:20:00 講義のこのセクションでは、シェーディングからの形状に関連して曲面上の静止点の概念について説明します。アイデアは、静止点を持つサーフェスの曲率の一意のソリューションを見つけることです。スピーカーは、これらの点が人間の知覚において重要であり、解決策の独自性に影響を与える可能性があることを説明します。次に、曲面が sem 型の反射率マップを持ち、原点に静止点があると仮定した例を使用して、曲面の曲率を求めるプロセスを説明します。画像の勾配は原点でゼロであることがわかり、その点に極値が存在することが確認されます。ただし、勾配は原点でゼロであるため、局所的な形状の推定には使用できず、二次導関数が必要になります。

  • 01:25:00 このセクションでは、静止点から局所的な形状を推定し、その周りに小さなキャップ形状を構築することにより、明るさの 2 次偏導関数を取得することで、形状に関する情報とそれを復元する方法を説明します。さらに、講演者は産業用マシン ビジョン手法のトピックと、後続の講義で説明する関連パターンを紹介します。
Lecture 10: Characteristic Strip Expansion, Shape from Shading, Iterative Solutions
Lecture 10: Characteristic Strip Expansion, Shape from Shading, Iterative Solutions
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...