機械学習とニューラルネットワーク - ページ 13

 

講義 11: エッジ検出、サブピクセル位置、CORDIC、ライン検出 (米国特許 6408109)



講義 11: エッジ検出、サブピクセル位置、CORDIC、ライン検出 (米国特許 6408109)

「レクチャー 11: エッジ検出、サブピクセル位置、CORDIC、ライン検出 (US 6,408,109)」というタイトルのこの YouTube ビデオでは、マシン ビジョン システムにおけるエッジ検出とサブピクセル位置に関連するいくつかのトピックについて説明しています。講演者は、発明プロセスにおける特許の重要性と、それらが特許戦争でどのように使用されるかについて説明します。また、さまざまなエッジ検出演算子とその利点と制限についても説明します。ビデオには、デカルト座標を極座標に変換し、エッジ位置を決定するために使用される数式の詳細な説明が含まれています。このビデオは、特許の広範なクレームと狭いクレームを記述することの重要性と、時間の経過に伴う特許法の進化について議論することで締めくくられています。

講義 11 では、スピーカーはエッジ検出と導関数推定のためのさまざまな計算分子に焦点を当て、効率に重点を置きます。勾配の二乗和を計算するための Sobel および Roberts Cross 演算子が提示され、式と手法のバリエーションが説明されています。サブピクセル精度を達成するために、複数の演算子が使用され、放物線のフィッティングや三角形モデルの使用などの手法が提示され、曲線のピークが決定されます。さらに、レクチャーでは、量子化の代替案と、正方形グリッド上の勾配方向に関する問題について説明します。全体として、講義では、エッジ検出の優れたパフォーマンスを達成するために多くの詳細を考慮することの重要性が強調されています。

  • 00:00:00 このセクションでは、講師が産業用マシン ビジョンのトピックと製造プロセスにおけるその重要性を紹介します。これには、集積回路製造における位置合わせと検査のためのマシン ビジョンの使用、および医薬品ラベルの読みやすさが含まれます。講師は、発明が社会に長期的に利益をもたらす仕組みを説明することと引き換えに、発明を使用する際に限定的な独占権を獲得する方法としての特許の目的を説明します。特許の構造とメタデータについても説明します。これには、特許番号とタイトル、特許の日付、企業間の特許戦争での弾薬としての特許の使用が含まれます。次に、マシン ビジョンの大手企業である Cognex の Bill Silver による、検出とサブピクセル位置に関する特許について簡単に説明します。

  • 00:05:00 このセクションでは、講師がデジタル画像のエッジ検出のプロセスについて説明します。ここでは、異なる輝度レベル間の遷移に焦点が当てられます。講師は、何かを記述するために必要なビット数を大幅に削減するため、サブピクセルの精度でエッジを見つけることはコンベヤー ベルトや集積回路の世界では非常に重要であると述べています。この処理は高画素のカメラで実現できるが、コストがかかるため、低コストで実行できるソフトウェアが有益であると説明されています。講師は、1 ピクセルの 40 分の 1 を達成できることも説明しています。これは大きな利点ですが、課題も伴います。講義の締めくくりは、特許出願についての議論と、文書で使用されている難解な言葉や特許出願の提出に経験した遅延など、プロセスが時間の経過とともにどのように変化したかについてです。

  • 00:10:00 ビデオのこのセクションでは、スピーカーは、1950 年代にさかのぼるマシン ビジョンのエッジ検出に関連するさまざまな技術論文と特許について説明します。このトピックに関する最初の有名な論文は、1965 年の Roberts によるもので、シンプルだが誤解を招くエッジ検出器を使用していました。スピーカーは、エッジ検出に関連する他の論文や特許についても言及し、Sobel の演算子、Roberts 交差エッジ検出器、Bill Silva の六角形グリッドの代替演算子など、さまざまなエッジ検出演算子の長所と短所について説明します。スピーカーは、さまざまなアプリケーションにおけるエッジ検出の重要性と、エッジ検出アルゴリズムを改善するためのエンジニアと研究者の継続的な取り組みを強調しています。

  • 00:15:00 このセクションでは、解像度と回転対称性の観点から六角形グリッド カメラを使用することの長所と短所を説明しますが、六角形グリッドを使用することの余分な問題はエンジニアが処理するには多すぎることに注意してください。次に、平方根と逆正接を計算する費用はかかりますが、明るさの勾配自体ではなく、勾配の大きさとその方向の式を使用して、デカルト座標から極座標に変換する方法について説明します。次に、ルックアップ テーブルや CORDIC 法を使用するなどの代替ソリューションを検討します。CORDIC 法は、反復ステップを使用してベクトルの大きさと方向を推定し、必要な最小限の算術演算で差を縮小する方法です。

  • 00:20:00 講義のこのセクションでは、スピーカーはエッジ検出とサブピクセル位置アルゴリズムについて説明します。勾配が大きい場所を特定し、非最大抑制を使用して勾配の最大方向を見つける方法を説明しています。講演者は、グラデーションの方向を量子化することについても話し、さらに遠くを見ると方向の範囲が広がる可能性があることに注意します。勾配の実際のピークを見つけるには、放物線をデータに当てはめ、微分してピークを見つけます。最後に、講義では、モンドリアンに基づいた世界のモデルを操作するときに予想される明るさの動作について説明します。

  • 00:25:00 このセクションのビデオでは、エッジ検出でサブピクセル精度を実現する手法について説明しています。 1 つのアプローチでは、方向を量子化し、ピークを見つける必要がありますが、エッジに沿ってどのポイントを選択するかについてあいまいな場合があります。もう 1 つの方法は、垂直補間を実行して、中心ピクセルに最も近いエッジ ポイントを見つけることです。ただし、実際のエッジ位置は想定モデルに適合しない場合があり、バイアスが生じる可能性があります。このビデオでは、バイアスを調整して精度を向上させるための簡単な修正を提案しています。

  • 00:30:00 このセクションでは、講師がマシン ビジョン システムのエッジ検出精度を向上させる方法について説明します。彼が検討している特許は、使用されている特定のシステムに基づいて偏りを取り除き、精度を上げるために「s」のさまざまな累乗を使用することを提案しています。勾配の方向もバイアスに影響を与えるため、さらに高い精度を得るには補正が必要です。システムの全体図には、輝度勾配の推定、大きさと方向の検出、非最大抑制、および位置を補間し、エッジの最大値に最も近い点を使用してバイアスを補正するためのピーク検出が含まれます。本発明は、デジタル画像のサブピクセル検出のための装置と方法を提供し、特許の最後に短いバージョンで要約されています。

  • 00:35:00 このセクションでは、講演者が発明の特許取得のプロセスと、それが特許訴訟とどのように関係しているかについて説明します。彼らは、発明者がすべての根拠をカバーするために装置と方法の両方を作成する方法と、これが不要なクレームにつながる方法を説明しています。講演者は、カナダの企業 Matrox が、特許に含まれていたもののソフトウェア実装によって特許を侵害したとして告発された事例について説明します。コードを分析するために専門家の証人が連れてこられ、最終的に、それはすべてソフトウェアであり、特許を受けることができないという結論に達しました。また、このセクションでは、特許を可能な限り幅広く作成し、可能な限りすべての変更を検討することの重要性についても説明します。これにより、弁護士によって書かれた特許が読みにくくなる可能性があります。

  • 00:40:00 ビデオのこのセクションでは、講演者は公式とデカルト座標を極座標に変換する方法について詳しく説明します。また、放物線や三角波のピークを見つけるために使用されるさまざまな式についても説明します。次に、ビデオは特許と、それを保護するために思いついたと思うものを主張するプロセスに入ります.話者は、デジタル画像内のエッジの検出とサブピクセル位置を検出するための装置である最初の請求項を読み上げ、勾配推定器、ピーク検出器、サブピクセル補間器など、請求項を構成するさまざまなコンポーネントを分解します。将来のクレームや侵害から保護するため、複数のクレームを持つことの重要性についても説明します。

  • 00:45:00 講義のこのセクションでは、講演者は特許のクレームの書き方と構造について説明します。彼は、特許の最初のクレームは通常、広いクレームであり、その後に、広いクレームが無効になったとしても狭いクレームがまだ有効であることを保証するために、より具体的な狭いクレームが続くと説明しています。次に、スピーカーは、勾配推定のために特許のクレームを調べ、各クレームが有効であるために満たす必要があるいくつかの条件を強調します。最後に、特許の有効期間と優先権の主張を取り巻く規則に関して、特許法が時間の経過とともにどのように進化してきたかを説明します。

  • 00:50:00 このセクションのビデオでは、マシン ビジョンにおけるエッジ検出について説明しています。世界のモンドリアン モデルが導入されました。このモデルでは、画像をエッジについて話し合うだけでコンベヤー ベルト上のどこにあるかを見つけたり、集積回路マスクのさまざまな層を並べたりすることができます。エッジ検出は、輝度が異なり、ほぼ均一な画像領域間の境界の位置を決定するプロセスとして定義されます。エッジは、画像勾配の大きさが画像勾配方向で極大値に達するか、または輝度の 2 次導関数が画像勾配方向でゼロと交差する画像内のポイントとして定義されます。このビデオでは、マルチスケールのエッジ検出についても触れており、画像の解像度が無限であることのマイナス面について説明しています。

  • 00:55:00 レクチャーのこのセクションでは、スピーカーはエッジ検出と、ピクセルと完全に一致するエッジを測定する際の問題について説明します。これに対処するために、講演者はラプラシアン エッジ検出器の使用について説明します。これは、ゼロクロッシングを探して等高線を描画し、エッジを見つけやすくします。ただし、この方法では、ノイズがあるとパフォーマンスが低下する可能性があります。また、スピーカーは、変曲点の概念と、エッジを定義するために使用できる導関数の最大値との関係についても説明します。講義では、明るさの勾配の推定と、同じ点を参照するための 45 度の角度での演算子の使用についても説明します。

  • 01:00:00 講義のこのセクションでは、スピーカーはエッジ検出と、さまざまな計算分子を使用した導関数の推定について説明します。 Roberts が使用した 2 つの演算子が導入されています。これらは、元の座標系で勾配の二乗和を計算する際に使用できます。ソーベル演算子の概念についても言及し、平均化手法を使用した導関数の推定について説明します。推定の最低次誤差項は 2 次であることが示されているため、曲線の信頼性はあまり高くありません。精度を向上させるために、高次項も導入されています。

  • 01:05:00 このセクションでは、講師は、演算子を使用してエッジ検出の導関数を近似する方法について説明します。これにより、3 次導関数が大きすぎない限り、曲線で機能する高次の誤差項が可能になります。 2 つの値を平均して導関数の推定値を求めることにより、ピクセルの半分だけオフセットされた導関数を使用することもできます。同じ最小次数誤差項を持つ 2 つの演算子を比較すると、乗数が小さい方が有利であることがわかります。ただし、演算子を適用して x 導関数と y 導関数の両方を推定すると矛盾が生じますが、これは 2 次元演算子を使用して対処できます。このアプローチは、固定オプティカル フローのデータ キューブ全体の y 方向の微分を計算する場合にも役立ちます。

  • 01:10:00 このセクションでは、何百万ものピクセルでエッジ検出を実行する際のオペレーターの効率の重要性をスピーカーが強調しています。計算を巧みに配置することで、オペレーターの操作を 6 つから 4 つに減らすことができます。講演者は、Roberts Cross オペレーターと Urbain Sobel について言及しています。彼は、ノイズを減らすだけでなく画像をぼかすために、2x2 ブロックの平均を実行するという特定の方法でオペレーターを複製しました。

  • 01:15:00 ビデオのこのセクションでは、講師が複数の演算子を使用してエッジ検出でハーフ ピクセル オフセットの問題を回避する方法について説明します。議論には、式のバリエーションと実装の好みが含まれます。講義では、輝度勾配の直交座標から極座標への変換、勾配の大きさ方向の量子化、最大値のスキャンなど、次の手順についても説明します。ピクセル量子化の問題により、サブピクセル精度は達成できません。講師は、画像内の非最大値を無視して最大値のみを保持する方法を説明します。

  • 01:20:00 このセクションでは、エッジ検出における非対称条件の必要性と、g ゼロが g プラスまたは g マイナスに等しい状況のタイ ブレーカーについて説明します。曲線のピークを見つけるために、ビデオではタイブレーカーを使用して放物線をエッジにフィッティングする方法が説明されており、この方法で計算された s の大きさが半分に制限されることが示されています。示されている別の方法は、小さな三角形モデルです。これは、2 つの線の傾きが同じであると仮定し、垂直位置と水平位置を推定して、s の式を導き出します。どちらの方法もサブピクセル精度を達成するためのものであり、ビデオは、三角形モデルが奇妙に見えるかもしれないが、特定の状況では効果的であることを示唆しています.

  • 01:25:00 このセクションでは、デフォーカスの場合のエッジの形状、特に実際のエッジ位置を復元する方法にどのように影響するかについて講師が説明します。彼はまた、勾配方向の量子化に代わる方法と、特に方向が 8 つしかない正方形のグリッドで問題が発生する可能性についても説明しています。この問題は、導関数を計算する適切な方法を見つけるなど、優れたパフォーマンスが必要な場合に考慮すべき多くの詳細があることを示しています。
Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)
Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 12: ブロブ解析、バイナリ イメージ処理、グリーンの定理、導関数と積分



講義 12: ブロブ解析、バイナリ イメージ処理、グリーンの定理、導関数と積分

この講義では、教授は、知的財産、特許、商標、エッジ検出のための画像処理技術など、さまざまなトピックをカバーしています。この講義では、2D マシン ビジョンにおける精度の重要性と、ぼやけたエッジまたは焦点が合っていないエッジを検出するという課題が強調されます。教授は、混合偏導関数、ラプラシアン、およびサブピクセル補間を使用したエッジ検出を見つける方法と、ピーク検出におけるバイアス補償と補正キャリブレーションの手法について説明します。全体として、この講義では、これらのトピックとその実用的なアプリケーションの包括的な概要を提供します。

画像処理に関するこの講義では、スピーカーは、勾配方向の量子化を回避し、エッジ位置を決定する際の精度を向上させるさまざまな方法について説明します。内挿は、より正確な勾配方向を決定するためのルックアップ テーブルおよび量子化よりも好ましい方法として提案されています。さらに、別の勾配計算方法として、ステップ サイズを円で固定し、マルチスケール解析を使用する方法について説明します。講演者はまた、画像を回転させて勾配の y 成分をゼロに減らす反復アプローチについて説明し、特別な角度で回転する弦の概念を紹介します。生徒は、通常の宿題よりも多くの作業が必要になるため、クイズを早めに開始するように注意してください。

  • 00:00:00 このセクションでは、教授は今後のクイズについて話し合います。これはより長く、宿題の問題の 2 倍の数になります。クイズでは、これまでのコースの内容を取り上げますが、最近の資料に重点を置いています。次に、教授は、実用特許や意匠特許など、さまざまな種類の特許について言及しながら、知的財産と特許について簡単に説明します。特許保有者と政府の間の社会契約についても議論されています。そこでは、特許保有者は、何かを行う方法を正確に説明することと引き換えに、特定の期間、限定的な独占を受け取ります。議論は、特許訴訟におけるベストモードの法的概念に触れて締めくくります。

  • 00:05:00 ブランドやロゴを保護するには、商標を使用してください。教育目的など、著作権で保護された素材のごく一部を使用する場合や、著作権法に違反することなくソフトウェアをリバース エンジニアリングする場合は、例外が存在します。著作権法は、著作者の生涯プラス一定の年数を保護するために使用されていましたが、その後、著作者の生涯プラス 75 年以上に更新されました。商標法は、著作権よりも制限の厳しいブランドとロゴを保護します。

  • 00:10:00 このセクションでは、スピーカーは会社名とロゴの商標登録に関するルールについて説明し、その分野で一意でなければならず、一般的な言葉であってはならないことを強調します.商標には、会社を保護するのに役立つ形状、マーキング、および色も含まれる場合があります。講演者は、会社が製品の詳細を秘密にしている企業秘密の概念にも触れていますが、法的保護はありません.次に講演者は、エッジ検出に関連する低レベルの特許を紹介し、エッジが検出されると、オブジェクトの認識と位置と姿勢の決定のために、より複雑な画像処理タスクを実行できることに言及します。講演者は、2D マシン ビジョンの世界では精度が非常に重要であり、ほぼ完璧に機能する必要があると述べています。

  • 00:15:00 このセクションでは、導関数を推定するために使用されるさまざまな方法について説明することにより、講師がブロブ解析とバイナリ画像処理の基本を復習します。議論された最初のアイデアは、明るさの勾配を調べて変曲点をエッジとして識別し、次に導関数を調べてピークを探すというものでした。 e sub x のさまざまな近似など、導関数を推定するさまざまな方法が検討され、テイラー級数展開を使用して最低次数の誤差項が見つかりました。最後に、筋肉の電気信号解析について詳しく説明し、ノイズや信号の歪みによって高精度の 1 次導関数を探すときにプロセスがどれほど複雑になるかについて説明します。

  • 00:20:00 このセクションでは、講師は、エッジを検出するためにエッジ オペレーターの長さを選択する際のトレードオフについて説明します。彼は、長すぎる演算子を使用すると、さまざまな機能が相互に作用し、エッジの検出が困難になる可能性があると説明しています。このトレードオフは、エッジが互いに非常に接近している立方体のイメージでエッジを検出する場合に適用されます。次に、講師は、2 回適用された 1 次導関数の畳み込みを使用して 2 次導関数を計算する方法を説明し、この方法を使用して結果の精度をチェックする方法を示します。最後に、導関数を導出するために使用される計算分子を設計するさまざまな方法を確認することの重要性について説明します。

  • 00:25:00 講義のこのセクションでは、教授が 2D ステンシルを使用して混合偏導関数を見つけるプロセスを説明します。ステンシルでは、関数の 1 つを反転し、それを他の関数の上に重ねてオーバーラップ領域を特定し、2x2 ステンシルを作成します。教授は、反転されていない計算ステンシルを使用する場合、符号の反転に注意することが重要であると述べています。彼らはまた、混合偏導関数は、回転した座標系の 2 次導関数と考えることができると指摘しています。全体として、このセクションでは、2D で混合偏導関数を見つけることについて、明確かつ詳細に説明しています。

  • 00:30:00 このセクションでは、ラプラシアンのトピックが 2 次導関数演算子として再導入されます。2 つの演算子が直交方向に追加され、中心対称微分演算子のラプラシアンの近似が得られます。次に、これら 2 つの演算子の加重和を導入して、中心対称微分演算子のラプラシアンのより滑らかなバージョンを作成します。この新しい演算子を画像に適用すると、計算効率がさらに向上します。さらに、これらの重み付けされた係数の値を決定するための技法、たとえば最低次誤差項、またはゼロに等しい合計などについて説明します。

  • 00:35:00 このセクションでは、スピーカーは六角形の代わりに長方形のピクセルを使用する問題について説明します。彼は、無線周波数を使用した銀河の中心にあるブラック ホールのイメージングなど、人々が効率性を懸念する状況について説明しています。講演者はまた、線形演算子と非線形演算子を区別し、Robert が回転座標系で導関数を計算する際にステンシルを使用したことについて説明します。さらに、彼は非最大抑制について説明しています。これは、エッジ演算子をあらゆる場所に適用して、あらゆる場所で弱い応答を得るが、エッジでは強い応答を得るという概念です。

  • 00:40:00 このセクションでは、スピーカーはエッジ検出の概念について説明し、エッジ検出にしきい値を適用することの欠点を強調します。代わりに、スピーカーは、エッジ ポイントを識別するために、勾配方向の最大値以外のすべてを削除することを提案します。講演者はまた、非最大抑制とタイブレークにおける非対称性の問題についても話します。最後に、スピーカーは放物線をエッジ応答プロファイルに当てはめ、サブピクセル エッジ位置を決定する方法を説明します。話者は、曲線の形状の選択が恣意的であることを認めますが、ほとんどの場合、2 次多項式の当てはめがどのように適切な推測として機能するかを説明します。

  • 00:45:00 このセクションでは、サブピクセル補間を使用したエッジ検出について学習します。勾配の方向は、エッジの方向を示します。これを量子化して、潜在的なエッジ ポイントを実際のエッジ位置に投影するのを支援します。次に、バイアス補正を実行して、放物線または三角法を使用してエッジ位置をより正確に推定できます。これにより、エッジのピークを見つけ、原点に最も近い点を取ることで精度を向上させることができます。

  • 00:50:00 講義のこのセクションでは、スピーカーは、サブピクセル エッジ検出のためのピーク検出の補正キャリブレーションの方法について説明します。基本的に、この方法では、エッジを実験的に動かし、実際のピーク値に対するピーク検出方法の精度を測定して、方法の補正ルックアップ テーブルを作成します。またスピーカーは、エッジの形状がどのように異なるかについても説明し、1 パラメーター フィットを使用して形状を近似する方法を示します。これらの違いにもかかわらず、サブピクセル エッジ検出の精度を得るには、この方法をわずかに修正するだけで済みます。

  • 00:55:00 講義のこのセクションでは、ファジー エッジの概念と、サブピクセルの回復とエイリアシングの問題の回避にファジー エッジが重要である理由について説明します。教授は、エッジがぼやける理由の 1 つは焦点ぼけであると説明しています。カメラのレンズの例を使用して、教授は、焦点が合っているオブジェクトは点としてキャプチャされるのに対し、焦点がわずかにずれている同じオブジェクトは、均一な明るさの円としてキャプチャされることを示しています。これを補うために、教授は単位ステップ関数と点広がり関数を導入し、これらを使用して均一な明るさの円を x と y の関数として記述する方法を説明します。

  • 01:00:00 このセクションでは、話者は焦点が合っていないことの影響と、エッジと円を重ね合わせて応答を幾何学的に計算する方法について説明します。円の扇形の面積と三角形の面積は、2 つの形状の違いを見つけるために使用されます。 Theta は面積の計算に使用され、0 と 1 の間の応答を示すために詳細が説明されています。

  • 01:05:00 このセクションでは、スピーカーは、アルゴリズムを使用してエッジ位置を正確に決定する際の誤差を計算するためのダイアグラムのプロットについて説明します。彼らは、この誤差は小さいがゼロではない可能性があり、高精度を考慮するために不可欠であると述べています.次にスピーカーは、勾配方向の量子化を回避する方法について話します。勾配方向の量子化は、2 つのサイズの間隔が原因でぎこちなく感じる可能性があります。彼らは、これがわずかに異なるエラーの寄与を引き起こす可能性があることを議論し、それを回避するいくつかの方法を提案しています.このセクションは、特許侵害とそれを回避する方法についての議論で終わります。ここでは、発明をより良くするのではなく、異なるものにすることに焦点を当てています。

  • 01:10:00 ビデオのこのセクションでは、講師は、特定の特許に存在する勾配方向の量子化を回避するための推奨される方法について説明します。その方法を使用する代わりに、勾配方向の量子化を避けるために補間することを提案しています。補間することで値を滑らかに近似でき、勾配の方向を正確に決定できます。講師は、この方法によって精度が向上し、ルックアップ テーブルを作成したり、量子化してバイアス グラフを修正したりする必要がなくなると考えています。このアプローチの欠点は、内挿が使用されていることです。そのため、正確な測定値を知ることに比べて精度が低くなりますが、多くの場合、無視できます。

  • 01:15:00 講義のこのセクションでは、スピーカーは、ステップ サイズを変更する代わりに固定する勾配計算の代替方法について説明します。この方法では、円を使用してピクセル間隔を決定し、より少ない量子化でより連続的なグラデーション方向を提供します。ただし、このアプローチではバイリニアまたはバイキュービックのいずれかの補間が必要であり、より多くのピクセルを考慮する必要があるため、余分な作業になる可能性があります。さらに、スピーカーは、画像内のシャープなエッジとぼやけたエッジを見つけるためのマルチスケール分析の有用性について話します。最後に、講演者は、座標系の回転を伴うデカルト座標から極座標への変換の好ましい実装について簡単に触れます。

  • 01:20:00 このセクションでは、反復アプローチを使用して画像を回転させ、勾配の y 成分をゼロに減らす方法について説明します。これを行うには、y 成分の大きさがゼロになるまで回転角度を繰り返し操作します。スピーカーは、一連のテスト角度を使用し、反復ごとに y 成分の大きさを減らす戦略を提案します。角度は、2 の逆べき乗になるように選択されます。これにより、乗算の数を 4 から 2 に減らすことができます。回転角度が十分に小さくなるまで、反復アプローチが繰り返されます。

  • 01:25:00 このセクションでは、シータ i のタンジェントが i に対して 2 分の 1 であるという特性を持つ特殊な角度を介して回転することを含む弦の概念について説明します。反復プロセスには、その角度を変更し、ネガティブになったかどうかを追跡することが含まれます。最初に行うことは、x と y の符号と、y が x より大きいかどうかを確認するだけで簡単な最初の八分円に到達することです。次のレクチャーでは、マルチスケールとサンプリングについて説明します。スピーカーは視聴者に、典型的な宿題の問題よりも多くの作業が必要なため、クイズを早めに開始することを思い出させます。
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 13: オブジェクトの検出、認識、姿勢の決定、PatQuick (米国特許 7016539)



講義 13: オブジェクトの検出、認識、姿勢の決定、PatQuick (米国特許 7016539)

講義では、PatQuick の特許 (US 7,016,539) に重点を置いて、オブジェクトの検出、認識、姿勢の決定に焦点を当てています。この特許は、空間内のオブジェクトのポーズを検出して決定することを目的としており、モデルと呼ばれる抽象表現を使用して、さまざまなポーズや回転で実行時の画像と比較することで、以前の方法を改善します。この特許はまた、一般化された自由度のリストを組み込んで精度を高め、ローパス フィルタリングとエッジ検出を使用して境界点を取得し、しきい値処理を最終段階まで延期します。さらに、エッジ検出を使用してモデルを作成し、これらのモデルを表現するために必要な間隔とコントラストを備えたプローブを使用してモデルを作成するプロセスについて説明し、平行移動、回転、スケーリング、アスペクト比など、さまざまなバリエーションを可能にする自由度を考慮することの重要性を説明します。オブジェクトの寸法とパースペクティブ。

このビデオでは、ピーク検出や隣接するオブジェクトを検出するためのソリューションなど、オブジェクト検出における効率的でスケーラブルな並進検索に利用される六角形の検索パターンについて説明します。このビデオでは、ランタイム イメージ内の所定のパターンの存在とその多次元位置を特定するための特許である PatQuick についても説明しています。この方法では、プローブと事前に計算された勾配を使用してオブジェクトのポーズを一致させ、スコアリング関数を統合することで結果からエラーを取り除きます。このビデオでは、内積を使用して角度差を決定するための代替方法を探り、マルチスケール操作の複雑さとさまざまな粒度のプローブ選択を強調しています。この方法の精度は、探索空間の量子化によって制限されます。

  • 00:00:00 このセクションでは、空間内のオブジェクトの姿勢を検出、認識、決定し、オブジェクトを検査することを目的とした特許 7016539 を紹介します。解決しようとしている問題は、機械を使用してオブジェクトを操作する必要があるが、オブジェクトに関する正確なエッジ情報がないことです。従来技術には 4 つの異なるコンポーネントがあり、そのうちの 1 つはバイナリ イメージ処理で構成されていました。バイナリ イメージ処理では、オブジェクトを背景から区別してバイナリ イメージを作成し、処理を容易にし、必要なメモリを少なくしました。ローカル計算は、バイナリ イメージの面積、周長、重心の検出など、特定の低レベルのバイナリ イメージ処理操作に対して実行できます。また、並列ハードウェアで実現できる並列方法でオイラー数を計算することもできます。

  • 00:05:00 このセクションでは、講師がオブジェクトの検出、認識、および姿勢決定のさまざまな方法について説明します。いくつかのパラメータに基づいて画像内の前景と背景を区別することを含むしきい値処理の方法が導入されています。ただし、前景と背景の明確な区別がない場合があるため、この方法には限界があります。バイナリ テンプレート メソッドでは、マスター イメージまたはゴールデン テンプレートを使用してオブジェクトを定義し、しきい値処理によってテンプレートを計算します。正規化された相関では、一致する可能性のあるすべての位置を試して、2 つの画像間の適切な一致を見つけます。これは、コンピューター ビジョンの初期の研究プロジェクトである Cognac の名声でした。

  • 00:10:00 このセクションでは、スピーカーは、オブジェクトの検出と認識に関連する方法である、相関を使用した位置合わせのプロセスについて説明します。できるだけ小さく。ただし、現時点では、すべての可能な位置についてすべてのピクセルを分析する必要があるため、計算コストのために平行移動のみが考慮されています。さらに、スピーカーは、オフセットの計算を含む勾配ベースの方法に相関関係を関連付け、時間の変化を最小化することによって相関関係を最大化するためにこれを使用する方法について説明します。

  • 00:15:00 このセクションでは、特に製造プロセスの次のステップに向けて集積回路を位置合わせするというコンテキストで、オブジェクトを認識し、その姿勢を決定することに焦点を当てています。スピーカーは、アライメントを決定するためのさまざまな方法について説明し、差の二乗和と相関が一般的に使用されますが、いくつかの欠点があることに注意してください。特に相関関係は、画像間のコントラストが異なっていても一致度が高く、何が一致するかについての明確なしきい値はありません。これらの問題にもかかわらず、相関はその計算効率のために依然として人気があります。さらに、講演者は、これらの方法は、光学式マウスで利用されている勾配ベースの方法を組み込むことで改善できることに注意しています。

  • 00:20:00 このセクションでは、正規化相関と画像認識におけるその役割について説明します。正規化された相関を使用して、画像の明るさのオフセットを排除し、プロセスが光学セットアップの変化に敏感にならないようにします。正規化メソッドは、2 つの画像の相関を計算し、それを正規化してコントラストのシフトを取り除きます。これにより、このメソッドはピークを計算し、ユーザーが相関の成功を測定できるようにします。したがって、相関スコアが高い場合は一致が良好であることを示し、相関スコアが低い場合は一致が不十分であることを示します。この方法は費用がかかる可能性がありますが、初期のコグネックスにとって名声を博していました。

  • 00:25:00 このセクションのビデオでは、オブジェクトの検出と認識に関連する特許について説明しています。具体的には、画像内の所定のパターンの存在を判断し、多次元空間内のそれらの位置を判断するためのものです。この特許は、以前の方法よりも改善されており、モデルと呼ばれるパターンの抽象表現を使用することを含みます。これは、さまざまなポーズ、回転などで実行時の画像と比較されます。比較により、一致スコアが生成され、より多くの情報が利用可能になるまで意思決定を遅らせるしきい値を受け入れます。この特許は、オブジェクトの部分的または欠落した部分の精度を高めるために、並進と回転だけでなく、一般化された自由度のリストも提供します。

  • 00:30:00 このセクションでは、潜在的な一致を取得することに焦点を当てた、PatQuick として知られる、オブジェクトの検出、認識、姿勢決定に関する特許について説明します。このセクションでは、特許がローパス フィルタリングとエッジ検出を使用して、さまざまな解像度で境界点を取得する方法について詳しく説明します。次に、チェーン内のポイントを編成するために、一貫した方向を持つ隣接する境界ポイントを接続することによって、プロセスが続行されます。この特許は他の方法とは異なります。エッジが弱い場合でもエッジを連鎖させ、しきい値処理を最後まで延期するからです。

  • 00:35:00 このセクションでは、スピーカーは、エッジ検出を使用したオブジェクト認識用のモデルの作成と、これらのモデルを表現するために必要な間隔とコントラストを備えたプローブを作成するプロセスについて説明します。モデルはエッジに適合し、これらのプローブを使用して、モデルと分析中の画像との間に一致があるかどうかを検出します。プローブは、コントラストの高い領域を特定するための証拠として使用されます。この方法は、分析が必要なピクセル数を減らすのに役立ちます。プローブの近隣の順序を決定するという文脈で、タイブレークについても説明します。

  • 00:40:00 このセクションでは、スピーカーは、ランタイム イメージで観察された勾配とモデルの勾配を比較する方法のさまざまな例について説明します。彼は、照明や素材が変化した場合でも、グラデーションの方向が維持される可能性がはるかに高いと説明しています。スピーカーは、各プローブの重要性を判断するのに役立つ重量の概念も紹介します。手動の重み割り当ては、オブジェクトの対称性を考慮するのに役立ちますが、人間の介入が必要であり、一般的には使用されていません。最後に、話者はモデル内のさまざまなオブジェクトを定義します。これには、プローブ、それらの位置、方向、重み、および計算効率を高めるために使用されるコンパイルされたプローブ オブジェクトが含まれます。

  • 00:45:00 このセクションでは、スピーカーは、コンパイルされたプローブ オブジェクトを画像にマッピングする方法と、モデルの使用方法について説明します。コンパイルされたプローブは、画像座標に特化したプローブのセットであり、プローブとの主な違いは、コンパイルされたプローブのオフセットが、実際の変数ではなくピクセル単位の整数であることです。スピーカーはまた、見つけなければならない自由度の高い変換であるマップの概念についても説明します。マップには、変換を除くすべての変換が含まれます。勾配をスコア化するために、極性、コントラストの極性、および勾配の 2 つの方向間の 90 度の差を考慮するグレーディング関数が使用されます。

  • 00:50:00 このセクションでは、スピーカーは、勾配の方向と大きさを考慮する関数を使用して、ランタイム イメージ内の対応するポイントにプローブがどれだけ一致するかを評価する方法を説明します。ただし、コントラストの反転により、方向ベースのメトリックのノイズに対する堅牢性が低下する可能性がある一方で、より広い勾配を使用すると、ランダムな配置を受け入れる可能性が高くなる可能性があると彼は指摘しています。自由度を扱うために、スピーカーは、回転、スケール、およびせん断の調整に使用されるパラメーターと関数の例を提供します。全体として、オブジェクト検出のプロセスでは、さまざまな状況でさまざまなアプローチが必要になる可能性があるため、さまざまな考慮事項が必要です。

  • 00:55:00 このセクションでは、オブジェクトの検出、認識、姿勢の決定における一般化された自由度について学習します。これらの自由度 (移動、回転、スケーリング、縦横比など) により、オブジェクトの寸法と遠近法を変更できます。厳密には 2 次元ではない空間で作業する場合は、このような角度を考慮に入れることが重要です。これにより、画像が長方形ではなく菱形として表示されます。ただし、スケーリングを検討するときは計算コストに注意することが不可欠であり、より合理的なアプローチは対数スケールで作業することです。さらに、プローブの最小囲み長方形は、一部の操作で計算を削減できます。ポーズの多次元空間では、特定の値の間の近接性を判断する必要があります。これは、その空間内で 2 つのポーズがどれだけ近いかを識別することによって行われます。

  • 01:00:00 ビデオのこのセクションでは、講演者は物体検出における効率的でスケーラブルな並進検索に使用される検索パターンについて説明します。これらのパターンは六角形を中心に編成されており、実行される作業と解像度の点で 4 オーバー pi の利点があります。スピーカーは、ピーク検出が六角形のグリッドでどのように機能するかについても説明し、隣接するオブジェクトの検出を回避するソリューションを提供します。さらに、このビデオでは、オブジェクト、画像、明るさ、粒度、境界など、特許法で一般的に使用される用語と、グラフィックスや X 線画像などの可視光画像を超えた用途を定義しています。これらの用語の一般化は、特許の範囲とその潜在的な用途を広げることを目的としています。

  • 01:05:00 このセクションでは、動画で PatQuick の特許について説明しています。これは、実行時画像内の所定のパターンの少なくとも 1 つのインスタンスの有無を判断し、存在する各インスタンスの多次元位置を判断する方法です。 .この特許には、検査と認識の可能性が組み込まれています。プロセスはオブジェクトごとに実行され、ほとんどのオブジェクトは適切に一致しませんが、そのうちの 1 つは認識用です。このビデオでは、指定された粒度での明るさの最大の変化の方向と大きさを与えるベクトルである勾配と、検出されるパターンの特性をエンコードするデータのセットであるモデルの使用についても言及しています。実際の画像または CAD 図面から作成されます。

  • 01:10:00 このセクションでは、オブジェクトの一部が不明瞭または欠落している場合でも PatQuick の方法がどのように機能するかをスピーカーが説明し、検査目的に役立ちます。この方法では、プローブを使用してオブジェクトの姿勢を一致させます。理論的には各一致で勾配を計算できますが、効率のために事前に計算することをお勧めします。スコアリング関数の統合は、ランダムな一致がスコアを相殺する量を計算するために使用され、計算が面倒ですが、結果からエラーを除去し、ノイズを減らす必要があります。メソッドには主にメソッド クレームがあり、法的な状況が変わり、結果としてメソッド クレームだけになりました。

  • 01:15:00 このセクションでは、スピーカーは、正接関数を使用する代わりに内積を使用して単位ベクトル間の角度差を決定する別の方法について説明します。ただし、この方法では絶対値が大きくなり、元の方法ほど良くはありません。講演者はまた、量子化される方法の欠点と、より正確な結果を得るためにより細かい量子化を使用する前に、潜在的な一致を見つけるためにポーズ空間全体を検索する必要があることについても説明します.このセクションは、さまざまなスコアリング関数について説明する必要性について言及して終了します。

  • 01:20:00 このセクションでは、スピーカーは、結果が正確または高速である必要がある場合に一致を見つけるために必要なさまざまな計算について説明します。彼らは、さまざまな粒度でさまざまなプローブとモデルを使用するマルチスケール操作を実行することの複雑さを掘り下げます。プローブはピクセル グリッドに限定されず、エッジ ポイントから導出されるため、明るさのコントラストを使用するよりも信頼性の高い結果が得られます。さらに、この方法の精度は検索空間の量子化によって制限されますが、今後の講義で取り上げる別の特許でこれを超えることができます。
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 14: PatQuick、ハフ変換、ホモグラフィ、位置決定、マルチスケールでの検査



講義 14: PatQuick、ハフ変換、ホモグラフィ、位置決定、マルチスケールでの検査

この講義では、PatQuick アルゴリズムについて説明します。プローブを使用して多次元空間でスコアリング関数を生成することに焦点を当て、リアルタイム イメージ内のオブジェクトの姿勢を決定します。勾配の方向と大きさの観点から一致の品質を評価するために使用される一致関数も調べられ、精度と速度の間のトレードオフについて説明されているさまざまなスコアリング関数があります。この講義では、特に画像の縦横比を変更する変換を実行する場合に、計算の粒度を調整したり、正しい方向を取得するという課題に対処したりするなど、パターン マッチングのプロセスをより効率的にするために使用されるさまざまな方法についても詳しく説明します。講義では、ホモグラフィと写真の線を検出するためのハフ変換のトピックにも触れます。

講義では、ハフ変換、拡張ガウス半変換、位置決定、マルチスケール サブサンプリング、SIFT など、コンピューター ビジョンに関連するさまざまなトピックを取り上げます。ハフ変換は線とエッジの検出に使用されますが、拡張ガウス半変換はハフ変換のより洗練されたバージョンです。講義では、ハフ変換を使用してセル タワーの位置などの円を検出する方法についても説明します。さらに、スピーカーは、品質を犠牲にすることなく作業負荷を軽減するためのサブサンプリング画像について説明し、複数の画像から 3D 情報を生成する際に広く使用されている、シーンのさまざまな画像で対応する点を見つける方法である SIFT を紹介します。最後に、講演者は音楽理論について簡単に説明し、最後に提案を提出するよう促し、遅滞しないことについて引用します。

  • 00:00:00 このセクションでは、講演者は PatQuick アルゴリズムと、多次元空間でスコア関数を生成するためのプローブの使用について説明します。このアルゴリズムは、画像内の少数の点を調べ、多数の自由度を処理できます。議論されている特許は関連しており、マシンビジョンへの物理ベースのアプローチの一部です。説明されているアルゴリズムは、集積回路やプリント回路基板など、2 次元の表面を含む状況にほとんど制限されています。

  • 00:05:00 このセクションでは、画像がシステムに表示され、モデルが自動的に計算される PatQuick 手法のトレーニング ステップについてスピーカーが説明します。各ビジュアル タスクのコードを手作業で作成するよりも、リソースと時間を節約できるため、これは重要なステップです。次に、モデルがリアルタイムの画像にマッピングされ、移動、回転、スケーリング、傾斜、アスペクト比によってポーズが決定されます。オブジェクトについて収集された証拠は累積的であり、最終的な結果はローカル操作の合計です。ただし、この方法の制限はポーズ空間の量子化であり、精度に影響を与える可能性があります。

  • 00:10:00 このセクションでは、スピーカーは、さまざまなサイズと形状のパターンを処理することで発生する可能性のある 6 次元空間について説明します。平行移動には 2 つの自由度があり、回転には 1 つの自由度がありますが、スケーリング、傾斜、および縦横比にはそれぞれ 1 つの自由度があり、合計で 6 になります。ただし、スペースを妥当な数に量子化するため、6 つのパラメーターすべてを処理することは実用的ではありません。 100 などのレベルの数は、合計 10 から 12 のスペースになります。講演者は、勾配の方向と大きさの観点から一致の品質を評価するために使用される一致関数についても説明し、バックグラウンド ノイズとの一致の可能性など、この関数のいくつかの欠点を強調しています。

  • 00:15:00 このセクションでは、講師が正確さと速度のトレードオフのために PatQuick アルゴリズムで使用されるさまざまなスコアリング関数について説明します。さまざまなスコアリング関数には、正規化された値、意味のあるスコア、または一致度が高いほど値が大きくなるなど、さまざまな機能があります。講師は、負の重みを破棄し、勾配の方向を使用してスコアを計算すると説明しています。焦点は、コンパイルされたプローブとさまざまな翻訳にあります。この講義では、s1b と呼ばれるスコアリング関数の 2 番目のバージョンについても取り上げます。これにより、乗算の必要がなくなり、正の重みを持つプローブのみが処理されます。

  • 00:20:00 このセクションでは、スピーカーは、PatQuick の好ましい実施形態に使用されるさまざまな機能について説明します。 1 つの関数は勾配の方向を考慮し、結果を改善するためにランダム マッチングに基づいて項を減算します。別の関数は勾配の大きさを直接使用し、正規化されていません。つまり、その絶対値は重要ではありません。これらの関数は、PatQuick の候補解と細かいスキャンのステップで使用されます。講演者は、好ましい実施形態は異なる機能を有するが、実施のために他の代替案も与えられることに留意する。

  • 00:25:00 講義のこのセクションでは、スピーカーはパターン マッチングのプロセスをより効率的にするための詳細について説明します。重要な考慮事項の 1 つは計算の粒度です。これは、満足のいく結果が得られるまで解像度を下げることで調整できます。講演者は正規化の問題にも触れ、一部のタスクでは計算上の問題であるため正規化する必要がないことを説明しました。さらに、スピーカーは、特に画像の縦横比を変更する変換を実行する場合、プロセスがグラデーションの方向に大きく依存するため、方向を正しく取得するという課題に対処します。

  • 00:30:00 レクチャーのこのセクションでは、直角を維持しない方法で x と y を変換する際の勾配方向の問題に対処する方法について説明します。解決策は、勾配方向から等光面を計算し、それを変換して、等光面に直角に何かを構築することです。スピーカーは、モデル内のプローブを使用して特定の領域が合理的に一致するかどうかを判断し、実行時画像内のエッジの数がモデル内の何かと一致するかどうかに基づいてパーセンテージを計算することを含む、検査の追加トピックにも触れます。

  • 00:35:00 このセクションでは、講師が透視投影とカメラ座標系を使用した 3D 世界での平面の投影について説明します。彼は、カメラとワールド座標系の間の平行移動と回転の関係について、正規直交行列を介して詳しく説明しています。次に講師は、世界のオブジェクト座標から画像座標への変換を探究し、除算を伴う場合の透視投影の非線形で乱雑な性質に注目します。ただし、彼は平面の特定のケースに焦点を当て、オブジェクト内でシステムを構築する方法を詳しく説明し、より単純な変換を可能にします。

  • 00:40:00 このセクションでは、スピーカーは、z がゼロである座標系を使用して、3D サーフェスを 2D サーフェスに変換することについて話します。これらは、この場合に 3 列目を無視し、回転に変換して 1 つの行列を取得するのに便利な方法を示しています。次に、行列 R とは対照的に正規直交行列ではない行列 T を紹介します。最後に、3D での並進と回転の自由度と、回転に関するさまざまな考え方について説明します。

  • 00:45:00 ビデオのこのセクションでは、スピーカーは、特に平面への透視投影の場合に、行列の回転、平行移動、および制約について説明します。変換の行列には 9 つの独立した要素がありますが、正規直交性や直交性などの制約により、自由度は 6 つしかありません。キャリブレーション データは線形最小二乗法を使用して適合させることができますが、制約も適用する必要があり、公開された作品では見過ごされがちです。これらの概念は、3D 変換に関する後の議論で重要になります。

  • 00:50:00 ビデオのこのセクションでは、講師がスケール ファクターのあいまいさとホモグラフィ、面白い種類の行列について説明します。ホモグラフィは写真測量で使用され、注意を平面に限定するときに適用されます。講師は、ハフ変換とその一般化についても話します。これは、カメラ映像から道路上のポイントをマッピングするときに使用されます。最後に、講師は NASA の雲室について説明し、人々がどのように素粒子を雲室に撃ち込み、その空間でイオン化された点の写真を撮ることによって研究したかについて説明します。

  • 00:55:00 このセクションでは、講師が画像解析プロセスの自動化の歴史について説明します。特に、ウィルソン バブル チャンバーの写真の線や弧を検出する目的で使用されます。ハフ変換は、等間隔ではない、またはサイズが均一でない線を検出するという課題を処理するソリューションとして開発されたため、線は画像空間から線のパラメーター空間にマッピングされました。講師は、アキュムレータ配列の概念を説明して、可能なパラメータの組み合わせごとに証拠を数え、画像内の線に対応するピークを探します。パラメーター空間から画像空間へのマッピングにより、証拠が単なる泡であっても、線を適切に推定できます。

  • 01:00:00 このセクションでは、講師がハフ変換の概念を説明します。これは、画像内の線、円、楕円などの単純なオブジェクトの存在を検出する手法です。ハフ変換は、画像空間をパラメーター空間にマッピングすることによって機能します。変換された空間の各点は、元の空間の線を表します。元の空間のすべての線がパラメーター空間の一意の交点にマッピングされるように、変換は対称的です。講師は例を挙げて、画像内の泡が可能な線についての証拠をどのように与えることができるかを説明し、パラメーター空間でそれらの変換を見つけることによって、変換された空間の線に対応するピークを見つけるための証拠を蓄積することができます.

  • 01:05:00 このセクションでは、講師が画像の線とエッジの検出に使用されるハフ変換について説明します。ハフ変換は、特定の線に対応する各ポイントを使用して、変換の可能なパラメーター用のスペースを作成します。これは、線がぎこちなく不均一な間隔で分布している場合でも、証拠を収集するのに役立ちます。ただし、ハフ変換はエッジ検出に使用されなくなった可能性があります。これは、より適切な方法が存在するためです。講義では、ハフ変換のより洗練されたバージョンである拡張ガウス半変換についても簡単に説明します。さらに、講義では円について説明し、ハフ変換を使用して携帯電話の信号を検出し、信号のタイミング アドバンスを決定する方法について説明します。

  • 01:10:00 このセクションでは、講演者はハフ変換の拡張を使用して、GPS 座標からの距離の決定など、円に関する問題を解決する方法について説明します。タイミングの進行を測定し、指定された半径に基づいて可能な位置の円を構築することにより、アキュムレータ配列を使用してデータを更新し、円の位置を特定する証拠を徐々に蓄積することが可能になります。この方法は、さまざまな半径を持つ円錐を含む、より大きなパラメーター空間に一般化できます。空間内の各点は、平面内の特定の位置にある異なる円に対応します。最終結果には、セル タワーの実際の位置を示す円の交点が多数含まれているはずです。

  • 01:15:00 このセクションでは、講義では一般化された半変換のアイデアについて説明します。これには、スコア サーフェスを作成するための元のパラメーター空間と証拠の蓄積が含まれます。これは、エッジやテクスチャなど、特定のスケールまたは特定のノイズ レベルでのみ明らかになる特徴を検出する場合に役立ちます。より低い解像度で作業するか次元を減らすことで、計算コストを削減し、特徴を正確に検出する能力を向上させることができます。ただし、この方法は、高次元の問題や高レベルのノイズを扱う場合、コストのかかる作業になる可能性があります。

  • 01:20:00 このセクションでは、スピーカーは、画像の品質を犠牲にすることなくセルの数を減らし、ワークロードを減らすために、画像をサブサンプリングするさまざまな方法について説明します。彼らは、「r」のさまざまな値と、それらがサブサンプリングのレベルにどのように影響するかを調べます。「r」は、セルの数を 2 減らし、間隔を2 の平方根。講演者はまた、複数の画像から 3D 情報を生成する際に広く使用されているシーンのさまざまな画像で対応する点を見つける方法である SIFT についても紹介します。 SIFT は、イメージ内の各ポイントに固有の記述子を作成するために、オクターブごとに複数のステップを使用する、あまり積極的でないサブサンプリング方法を使用します。

  • 01:25:00 このセクションでは、話者は、オクターブが 8 つの音符に分割される音階について簡単に説明し、等間隔ではありませんが、係数 2 を常に使用するとは限らない十分な理由があると述べています。講演者はまた、聴衆に提案を提出するよう促し、遅滞しないことについてフォーチュン クッキーからの引用を共有します。
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 15: アライメント、PatMax、ディスタンス フィールド、フィルタリング、サブサンプリング (米国特許 7065262)



講義 15: アライメント、PatMax、ディスタンス フィールド、フィルタリング、サブサンプリング (米国特許 7065262)

ビデオでは、パターン認識とオブジェクト検出に関連するいくつかの技術と特許について説明します。そのような手法の 1 つに PatMax があります。これは、引力ベースのシステムを使用してランタイム イメージのポーズを繰り返し改善します。別の手法では、ピクセル グリッド上にベクトル フィールドを生成して、実行時の画像の位置合わせを改善します。この講義では、エッジ検出のための距離フィールドの使用と、ベクトル フィールド内の力ベクトルを調べることによるシードされたエッジの拡張についても説明します。講演者はまた、マルチスケール パターン マッチングの使用と、線を一連の画像座標に適合させる際の数学的手順についても説明します。最後に、複数のスケールを効率的に計算するための特許が紹介されています。

講義 15 では、講師は画像の効率的な畳み込み、フィルタリング、およびサブサンプリングのためのさまざまな手法とショートカットについて説明します。これらには、スプライン区分多項式を使用したフィルター カーネルの近似、畳み込みとしての導関数の使用、繰り返し 3 階差分を取ることによる画像の圧縮、および x 方向と y 方向の畳み込みの組み合わせが含まれます。講演者は、画像の干渉やエイリアシングを回避するために、画像サンプリングの前にローパス フィルタリングを行うことの重要性についても言及しています。

  • 00:00:00 このセクションのビデオでは、PatMax と呼ばれる 2 次元画像内のオブジェクトを見つけるための別のパターンについて説明します。以前のパターンである PatQuick とは異なり、物事がどこにあるかについて大まかな考えを既に持っていると仮定し、代わりに反復最小二乗法を使用してその位置を段階的に改善することを目指しています。 PatMax を使用する動機は、磁気双極子間の力に触発されて、エネルギーを最大化することでした。しかし、このアプローチの背後にある直感はすべて間違っていました。より適切な例えは、物事をバネで接続することです。この特許は部分的にアライメントに関するものでもあり、古い AI ラボの他の特許や出版物を参照しています。

  • 00:05:00 このセクションのビデオでは、エッジ双極子を生成して 2 次元ベクトル フィールドを作成するエッジ検出を使用したパターン認識システムのトレーニング プロセスについて説明します。次に、システムは、開始ポーズが既に取得されていると仮定して、アトラクション プロセスを使用して、ランタイム イメージの適切なポーズを繰り返し見つけます。クライアント マップは、正方形のグリッド上にないピクセル位置を正方形のピクセル配列にマッピングするために使用され、オブジェクトが良好な形状であるかどうかを判断するために使用される RMS エラーや検査評価などの尺度があります。最後に、ビデオでは、ランタイム イメージとの位置合わせに使用されるプローブがフィールド ダイポール リストによってどのように生成されるかについて説明します。

  • 00:10:00 このセクションでは、講師は、ピクセル グリッド上で生成されたフィールドを使用してアライメントを改善することについて話します。ポーズは以前の特許とは逆で、特徴検出はモデルではなくランタイム イメージで行われます。フィールドの目的は、実行時イメージからの個別の結果をフィールドにマップして戻すことであり、以前の特許の場合のように、イメージ全体を変換するよりもコストがかかりません。フィールドは、ランタイム イメージ内のオブジェクトがトレーニング イメージ内のオブジェクトと一致する位置合わせに向けて 1 つを描画する新しいプロセスを通じて生成されます。講義では、フィールドがどのように一般化されるかを調査し、フィールドの計算に含まれるさまざまなステップに焦点を当てます。

  • 00:15:00 このセクションのビデオでは、距離マップと呼ばれるマシン ビジョンで使用される一般的な手法である、エッジ検出のために距離フィールドを初期化して入力するプロセスについて説明します。初期化には、エッジからの距離とその方向に対応する値を場の双極子に与えることが含まれます。エッジ近くの残りの正方形を埋めるプロセスは、計算されたジオメトリに従って近くの正方形の値が決定および調整される反復プロセスです。距離フィールドは、本質的に、エッジからの距離を示す各エッジに沿った溝です。最終的な目標は、システムがより低いエネルギー状態に落ち着くように、各エッジを接続することです。

  • 00:20:00 講義のこのセクションでは、スピーカーは、隣接するピクセルを見て、ベクトル フィールドを使用してエッジへの力と方向を計算することにより、シードされたエッジを拡張するプロセスについて説明します。彼らは、力の間の角度が大きくなりすぎてコーナーを示す場合があり、そのような場合、ベクトルが元のエッジ ピクセルを指さなくなると説明しています。コントラストの方向やベクトルの方向などの追加情報は、エッジを拡張するマッチング プロセスに役立ちます。目標は、ばねの機械システムを使用したモデリングと同様に、システム内のエネルギーを最小限に抑えることです。話者は、エッジがある場合、エッジ上の特定のポイントにどれだけうまく一致しているかを確実に言うのは難しい場合が多く、これを追跡するにはより洗練されたモデルが必要になると指摘しています。

  • 00:25:00 このセクションでは、スピーカーは、ランタイム イメージを使用した特徴検出のアルゴリズムを表す機械的アナログについて説明します。システムは、画像上で検出された多くの特徴からの一連の力を使用して自動的に調整し、機械的スプリングは外側に引き伸ばされ、スケール変換を使用して調整されます。次に、システムはクラッターとカバレッジを計算して、ランタイム イメージがモデルとどの程度一致しているかを評価します。システムの最終的な目標は、すべての実行時双極子を体系的に動かすことによってエネルギーを削減することであり、これには一連のアキュムレータを使用した自然な計算方法による大規模な最小二乗システムが含まれます。

  • 00:30:00 このセクションでは、講師が翻訳のみのケースや翻訳と回転のケースなど、パターン マッチングのさまざまな側面について説明します。パターンマッチングで使われるテンソルは多次元配列であり、配置の自由度があると講師は説明します。講師はまた、低解像度で作業して開始姿勢を取得し、それを使用して高解像度のパターン マッチングを実行するマルチスケール パターン マッチングについても説明します。講師は、パターンマッチング法は、テレビカメラから電子顕微鏡まで、実用的な目的で使用されるさまざまなデバイスに適用できると述べています。最後に、講師は特許でなされたクレームについて議論し、クレーム 1 は非常に広範であり、先行技術によって異議を申し立てられる可能性が高いが、従属クレームはより具体的な詳細を提供することに注意します。

  • 00:35:00 講義のこのセクションでは、スピーカーは、低解像度のエラー値や初期推測など、複数のコンポーネントに依存するアライメント プロセスの特許について説明します。 PatMax と呼ばれるこのプロセスは、最初の推測を必要とし、キャプチャ範囲を持つ議論された特許とは異なり、最初の推測を必要とせずに低解像度で完全なポーズ空間を検索します。このプロセスのポーズ空間は、計算上の理由から PatMax とは逆になります。アライメント プロセスは、ピクセル レベルでのしきい値処理と量子化を回避するように機能し、代わりにサブピクセルの精度に重点を置いています。スピーカーは、機械的なバネを含む物理的なアナログにも触れています。

  • 00:40:00 このセクションでは、スピーカーは、オブジェクト検査のプロセスと、トレーニングされた画像と実行時の画像との間の変換を照合および決定する方法について説明します。検査は、トレーニング済み画像と比較して実行時画像に欠落している機能や余分な機能、および背景テクスチャによる画像の混乱に基づいています。距離場の生成についても、画像にエッジやコーナーが存在する場合にどのように変化するかに焦点を当てて説明されています。距離変換を計算するプロセスについて説明します。これには、離散世界で作業する際の課題や、ユークリッド距離を高速かつ効率的に近似する方法が含まれます。

  • 00:45:00 レクチャーのこのセクションでは、ローカル フォースを加算して並進または回転の位置合わせを行うという概念について説明します。重みは、事前に定義することも、勾配の大きさや場の双極子などに依存することもできます。中心の周りのトルクを使用して回転を提供し、平面内の 2 つのベクトルの外積の z 成分を使用して、トルクのスカラーを提供できます。次に、直線までの距離と、x 素数と y 素数を計算するための直線に沿った座標系への回転について説明します。

  • 00:50:00 このセクションでは、スピーカーは、2 つのパラメーター ファミリーである平面内の線のファミリーをパラメーター化する際の 2 つのパラメーター rho と theta の使用について説明します。このパラメーター化は、目的が高精度でエッジ ポイントに適合するラインを見つけることであるライン フィッティングに役立ちます。講演者は、微積分を使用して距離の 2 乗を最小化する方法を説明し、x バーと y バー (線上の点の平均重心) を rho と theta に関連付ける方法を示します。さらに、講義では、座標を重心に移動し、シータとローの間の強い関係を見つけて、線のパラメーターを決定することに触れます。

  • 00:55:00 このセクションでは、講師が、ヘッセの正規形方程式を使用して一連の画像座標に線を適合させるための最小二乗解を見つけるための数学的手順を説明します。シータに関する導関数を取り、それをゼロに設定することで、角度の 2 倍のサインとコサインを含む解が得られます。これは、三角関数の恒等式を使用して簡略化できます。この方法は、座標系の選択とは無関係であり、短いエッジ フラグメントを長いエッジ フラグメントに結合するために使用できるため、y が mx と c を足したものに等しいフィッティングよりも優先されます。次に講師は、コストのかかる畳み込みを回避することで複数のスケールを効率的に計算するための特許を紹介します。

  • 01:00:00 このセクションでは、マルチスケールの目的でフィルターを計算する効率的な方法について講師が話します。秘訣は、カーネルをスプラインの区分的多項式で近似し、n に最初の差を加えることです。これにより、ゼロとの畳み込みが容易になり、サポートが小さいスパース カーネルが得られます。また、n プラス 1 階差分の逆数である n プラス 1 階和と、畳み込みと微分の性質についても説明します。全体として、この講義では、大きな画像と大きなカーネルの畳み込みをより簡単かつ効率的にするためのショートカットとトリックについての洞察を提供します。

  • 01:05:00 このセクションでは、講師が畳み込みの特性と利点について説明します。具体的には、関数ではなく分散が許可されている場合に、導関数を畳み込みとして扱う方法について説明します。これにより、可換性や結合性などの畳み込みプロパティを使用できるようになり、信号処理において非常に強力になる可能性があります。講師は、畳み込みを使用してパターンをスパースにし、畳み込みを安価にする例についても説明します。これには、微分を計算し、ゼロ以外の値がある場所を見つけることが含まれます。畳み込む必要があるのは 2 つの値のみであり、これは大きな利点です。

  • 01:10:00 このセクションでは、講師が画像を圧縮するために画像の 3 階差分を取る手法について説明します。 3 番目の差分を繰り返し取得することにより、小さくまばらな値のセットが生成され、完全な元の画像を使用する場合と比較して計算量が削減されます。これを使用して、必要な計算量を変更することなく、フィルターの帯域幅とスケールを制御できます。講師は、1 次元関数を使用してこの手法を実演し、次に放物線の例を示します。この例では、不連続性のために両端がより複雑になります。

  • 01:15:00 講義のこのセクションでは、エイリアシング アーティファクトを回避しながらサブサンプリング画像の計算効率を向上させるためのさまざまなフィルタリング手法について説明します。ガウス関数や同期関数などのフィルターを近似するためのスプラインの使用が調査され、計算時間と非ゼロ値の数の削減に焦点が当てられています。さらに、x 方向と y 方向の両方で畳み込み操作を組み合わせる手法が提示されます。これにより、必要な中間メモリが少なくなり、1D 畳み込みのより効率的なカスケードが可能になります。エッジ検出とマルチスケール画像処理に対するこれらのトピックの関連性が強調されています。

  • 01:20:00 このセクションでは、スピーカーは、複屈折であり、偏光に応じて 2 つの屈折率を持つ方解石結晶について説明します。これにより、画像の 2 つのコピーが非常に近くに表示されます。これは、高周波成分を抑制し、サンプリングを改善するためにカメラで使用されます。ただし、このフィルターを削除すると、画像に干渉やエイリアシングが発生したり、撮影対象の色や形状が変化したりする可能性があります。講演者は、画像サンプリング前のローパス フィルタリングの改善によってこれらの問題が軽減されたと述べていますが、画像化におけるエイリアシングの影響を考慮することは依然として重要です。
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 16: 高速畳み込み、ローパス フィルター近似、積分画像 (米国特許 6457032)



講義 16: 高速畳み込み、ローパス フィルター近似、積分画像 (米国特許 6457032)

講義では、帯域制限、エイリアシング、ローパス フィルター近似、ぼかし、積分画像、フーリエ解析、畳み込みなど、信号処理に関連するさまざまなトピックについて説明します。スピーカーは、エイリアシング アーティファクトを回避するために、サンプリングの前に信号をローパス フィルター処理することの重要性を強調しています。また、ブロック内の画素の和を効率的に計算する積分画像の考え方や、ローパスフィルタを近似する際の計算量を削減するさまざまな手法についても紹介します。最後に、sinc 関数を近似するために使用されるバイキュービック補間とその計算コストについて説明します。

この講義では、講演者は、畳み込み、ローパス フィルターの近似、積分画像に関連するさまざまなトピックについて説明します。彼らは、値を左から右に加算し、減算して平均を求めることで計算時間を節約する方法など、畳み込みのさまざまな実装について説明しています。ローパス フィルター近似の線形補間の限界と、3 次補間などのより高度な方法と比較した劣等性についても説明します。ピルボックスの概念と、周波数範囲を制限する上でのその価値が紹介され、スピーカーは、理想的なローパス フィルターと、デフォーカスがベッセル関数にどのように影響するかについて話します。この講義では、DSLR カメラ レンズのローパス フィルター近似の使用と、写真測量の概念についても触れます。

  • 00:00:00 このセクションでは、スピーカーはサンプリング波形と、それらを制限する帯域の重要性について説明します。波形をサンプリングするとき、波形が無限にサポートされており、個別のサンプルしか得られないことを考えると、それについて何かをキャプチャできることは驚くべきことです。ただし、周波数成分が制限されている場合、ナイキストの定理は、十分に高い周波数でサンプリングすることで完全に再構築できると述べています。基準は、信号の最高周波数成分が 2 以上の fs 未満になるように、十分に高速にサンプリングすることです。最終的に、帯域制限は、エイリアシング アーティファクトを取得することなく波形の本質を捉えることができるため、重要です。

  • 00:05:00 このセクションでは、信号処理におけるエイリアシングの概念について説明します。エイリアシングは、特定のしきい値を超える周波数成分がサンプリングされ、それよりも低い周波数成分と区別できない場合に発生します。これはサンプリング後に修正することはできないため、高周波成分を抑制することによって事前に行う必要があります。そのためには、サンプリングの前に信号をローパス フィルター処理することが重要です。ただし、真のローパス フィルタリングを実現するのは難しいため、近似値を作成する必要があります。

  • 00:10:00 講義のこのセクションでは、スピーカーはプリサンプリング フィルタリングなどの方法によるぼかしの概念について説明し、積分画像の考え方を紹介します。彼は、ボックスカー フィルターを使用して、ブロック内のピクセルの合計を計算するブロック平均化を実行できますが、この方法は計算コストが高くなる可能性があると説明しています。これに対処するために、積分イメージを 1D と 2D の両方のケースで使用して、合計をより効率的に計算できます。積分画像は、積分勾配などの他のタイプの行列でも機能するため、画像だけに限定されません。

  • 00:15:00 このセクションでは、講師が積分画像を使用して長方形の合計を計算する方法を説明します。講師は、4 回のメモリ アクセスと 3 回の算術演算で、任意のブロックの合計をそのサイズに関係なく取得できることを示しています。この手法は、認識とブロック平均化に使用できます。講師は、フーリエ解析と、移動平均を使用してブロックを平均化する方法についても話します。

  • 00:20:00 講義のこのセクションでは、スピーカーはローパス フィルターの近似として sinc 関数を使用することの欠点について説明します。 sinc 関数は高周波を十分に積極的に減衰せず、最初のゼロに十分な速さで到達しないため、ローパス フィルターの近似には適していません。この議論は、サンプリングの前にフィルタリング操作を実行するカメラに特に関連しており、sinc 関数の潜在的な代替手段としてブロック平均化が提案されています。ブロック平均化は計算コストが低く、ローパス フィルターのより良い近似を得るために 2 回実行できます。

  • 00:25:00 このセクションでは、講師が変換ドメインのフィルターのプロパティと、それらが画像のステップの不連続性とどのように関係しているかについて説明します。講師は、ステップ関数の変換は周波数に応じて低下すると説明しています。これは、ステップの不連続性を持つ画像が、すぐには低下しない高周波コンテンツを生成することを意味します。講師は、データが周期的であると仮定しているため、これは離散フーリエ変換の問題であり、データがラップアラウンドするときにステップ エッジの不連続性が導入されると述べています。これに対処するために、講師はアポダイジングを提案します。これは、画像に波形を掛けて端を一致させることを含みます。一般的なアポダイジング フィルターの 1 つは、逆コサイン波形です。

  • 00:30:00 このセクションでは、ビデオは画像に適用される dft を処理するためのさまざまなアプローチをカバーしています。その 1 つは、画像の外側が周期的に繰り返されるか鏡像であると仮定することですが、これは完全な解決策ではありません導関数の不連続性が生じる可能性があるためです。説明されている別のアプローチは、近似フィルターを使用したローパス フィルター処理です。次に、ビデオは、単位インパルスと分布のふるい分けプロパティなど、近似ローパス フィルタリングに必要な特定のプロパティに触れます。

  • 00:35:00 講義のこのセクションでは、スピーカーは単位インパルスと畳み込みとの関係について説明します。単位インパルスは、畳み込みの限界として定義するのは数学的に正しくありませんが、畳み込みを計算し、イプシロンがゼロになる傾向があるため、限界を取ることにより、単位インパルスとの畳み込みの効果を決定するために使用できます。講演者は、畳み込みが導関数に接続できること、および線形シフト不変演算子と導関数演算子が密接に関連していることに注目しています。彼らは、導関数は本質的に畳み込みとして扱うことができ、2 つの畳み込みのうちの 1 つが反転されると説明しています。

  • 00:40:00 このセクションでは、講師がローパス フィルターの近似値と、カメラで使用されるピクセル平均化方法を改善する方法について説明します。彼は、アナログ ドメインでサンプリングする前に追加のローパス フィルタリングを行う必要があると説明し、複屈折材料を使用して特殊なフィルターを作成することを提案しています。このフィルタには、インパルスによる畳み込みとしてモデル化された 2 つのシフトされたイメージが含まれ、元のイメージの 2 つのわずかにシフトされたバージョンが生成されます。フーリエ変換で分析すると、フィルターは周波数で低下しませんが、適切なイプシロン値の選択を可能にする pi で低下します。

  • 00:45:00 このセクションでは、講師がローパス フィルターの概念について説明し、ピクセル間隔よりも厚いプレートを使用して高周波をカットする手法を紹介します。このプレートは高周波をカットしますが、他の周波数はカットしません。講師は、この非常に単純なアンチエイリアス フィルターをブロック アベレージング フィルターと併用することで、画像内の高周波成分によって引き起こされるモアレ効果を軽減できると説明しています。次に、講師は、サポートのサイズを最小限に抑えながら、優れたローパス フィルタリングの計算を削減することを目的とした、特許と積分イメージのアイデアを紹介します。講師は、畳み込みを使用して積分を表す方法を実演し、単位インパルスのフーリエ変換を提供します。

  • 00:50:00 このセクションでは、ビデオは畳み込みの概念と、フーリエ変換領域における微分および統合との関係に焦点を当てています。二次導関数は、一次導関数またはインパルスを畳み込むことによって得られることが説明されています。この概念はフィルタリングのプロセスに適用されます。ここでは、フィルターをセクションに分割して、定数関数または多項式近似を使用するときに発生するスパースな場合の計算を減らすことができます。畳み込みの結果をスパース フィルターで統合または合計することにより、より少ない計算で効率的に目的の答えを得ることができます。

  • 00:55:00 このセクションでは、講師が sinc 関数の近似について説明します。これは、ローパス フィルターには理想的ですが、永遠に続き、完全に表現することは不可能です。レクチャーでは、ピクセルを回転させて補間する必要がある 2D 画像のバイキュービック補間について紹介します。この方法では、曲線が 3 次曲線で表される 4 つの部分を使用します。フィルタリングには 4 次導関数が使用され、結果は最近傍補間や線形補間を使用するよりもはるかに優れています。同期関数を近似するには計算コストがかかるため、実際には使用できないと説明されています。

  • 01:00:00 このセクションでは、ブロックの平均化の例を使用して、ブロックをシフトし、ブロックの下にあるものをすべて加算することによる畳み込みの単純な実装を説明します。別の実装では、値を左から右に加算してから減算して平均を取得することにより、より大きなセグメントをブロックするときに計算時間を大幅に節約できることが示されています。線形補間についても説明します。これは、直線を使用して離散グリッド上のポイントを接続する関数を作成することによる畳み込みに関係していると考えることができます。

  • 01:05:00 このセクションでは、スピーカーは、ローパス フィルター近似の線形補間法とその限界について、特にノイズと画像測定値の変化に関して説明します。彼は、この方法には、同期関数を模倣する線形関数である 2 つのボックスカーの畳み込みが含まれていると説明しています。彼はまた、この方法は、ローパス フィルター近似のための 3 次補間法などのより高度な方法よりも劣っていると述べています。さらに、最近傍近似法は区分定数関数であり、線形法よりもさらに精度が低いと説明しています。

  • 01:10:00 講義のこのセクションでは、講演者は畳み込みのコンテキストにおけるローパス フィルター近似と積分画像の概念について説明します。彼らは、最近傍内挿がボックスカーとの畳み込みにどのように対応するか、および自然画像に回転対称座標系を使用する利点を説明しています。次に、ピルボックスの概念と、周波数範囲を制限する上でのその価値を紹介します。ピルボックスの逆変換も同様に回転対称であることが示され、光学で一般的に使用されるベッセル関数に従って変化します。

  • 01:15:00 このセクションでは、講師が理想的なローパス フィルターについて説明します。これは、インパルスに対する拡散関数の応答です。この関数の最初のゼロは、同期関数の最初のゼロとは異なり、Aries の解決基準に基づく解決に使用されます。焦点が合っていない場合、講師は広がり関数がピルボックスに変化し、これが空間周波数領域でベッセル関数になることを示しています。彼は次に、焦点ぼけがベッセル関数を変更することによって焦点に影響を与えると結論付けています。

  • 01:20:00 講義のこのセクションでは、スピーカーはローパス フィルターの近似値の使用と、その結果生じる高周波成分の減少について説明します。これにより、ゼロの存在により一部の周波数が完全に消滅する可能性があります。講演者はまた、周波数領域を見て DSLR カメラ レンズのステップ サイズを決定する方法、および 2 つの透視投影を連続して行うと単一の透視投影とは異なる効果についても説明します。最後に、画像が変更されたかどうかを判断する方法として、焦点がわずかにずれた画像を取得し、それらを畳み込むという概念が導入されます。

  • 01:25:00 このセクションでは、講師が畳み込みの概念と、周波数領域での乗算との関係について説明します。彼らは、ピルボックス関数を使用して画像を畳み込む方法を説明していますが、焦点が合っていない画像を乗算すると正確な結果が得られないことに注意してください。次に、画像を使用して、画像間のエッジなどの特徴を照合してカメラの位置を特定することにより、オブジェクトとその位置に関する 3D 情報を作成する写真測量のトピックに移ります。
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 17: 写真測量、方向、慣性軸、対称性、方向



講義 17: 写真測量、方向、慣性軸、対称性、方向

この講義では、深度の手がかり、カメラのキャリブレーション、2 つの座標系間の変換の確立など、写真測量に関連するさまざまなトピックについて説明します。講演者は、対応する測定値を使用して 2 つのシステム間の座標変換を見つける問題にアプローチする方法を説明し、変換の正確な逆を確認することの重要性を強調します。この講義では、2D および 3D 空間で慣性軸を見つけ、軸に投影された 2 点間の距離を決定する方法についても説明します。全体として、このセクションでは、写真測量とそのアプリケーションの包括的な概要を提供します。

写真測量では、左手座標系と右手座標系の点群に座標系を構築し、2 つを関連付ける必要があります。講師は、慣性行列または慣性軸を決定し、基底ベクトルを確立する方法を説明します。また、対称オブジェクトによってもたらされる課題と、内積、長さ、角度の保持などの回転のプロパティについても説明します。さらに、この講義では、平行移動をなくして誤差項を最小限に抑えることで、回転を求める問題を単純化する方法についても説明します。最後に、講師は、ベクトル計算を使用して類似の形状を持つ 2 つのオブジェクトを整列する方法を説明し、回転の他の表現を調べることを提案します。

  • 00:00:00 このセクションでは、スピーカーは写真測量法を紹介します。これには、画像を使用して 3 次元サーフェスを測定および再構築することが含まれます。この分野は地図作成にルーツがあり、写真の発明後に普及しました。講演者は、写真測量の 4 つの古典的な問題について説明します。これには、2 つの異なる座標系の間の関係を見つけることや、単一の座標系と移動または変化する可能性のあるオブジェクトとの間の関係を見つけることが含まれます。講演者は、マシン ビジョンは 2 番目の問題 (2 次元画像から 3 次元を復元することを含む) により関心があることが多いが、クローズド フォーム ソリューションのため、最初に 3D 問題に取り組む方が有利である可能性があると述べています。

  • 00:05:00 このセクションでは、講師が写真測量の 2 種類のアプリケーション (2D から 3D と 3D から 2D) について説明します。前者には、画像から 3 次元情報を復元し、空間内の 2 台のカメラ間の関係を判断してそれらを位置合わせする必要があります。後者には、カメラを使用して正確な測定を行うために必要なカメラのキャリブレーションと、平面から一定間隔の画像を取得して地形図を作成することが含まれます。講師はまた、2 つの目を通して奥行きを知覚する能力である両眼立体視を含む、いくつかの奥行きの手がかりについても説明します。

  • 00:10:00 このセクションでは、講師が 2 台のカメラを使用して、類似の三角形を使用して奥行きの手がかりを確立する方法を説明します。両方のカメラで物体を撮像し、得られた画像を比較することにより、位置の差を使用して物体の奥行きを計算できます。講義では、距離は視差に反比例するため、画像の視差を使用して深度を計算できることにも注意してください。最後に、このセクションでは、エラーに対する感度のトピックと、不均衡の測定における小さな不一致からどのように大きなエラーが発生する可能性があるかについて触れます。

  • 00:15:00 ビデオのこのセクションでは、講師が写真測量と 2 台のカメラを使用した 3D 位置の測定について説明します。彼らは、ベースラインまたは焦点距離を長くすると測定精度が向上する可能性があると説明していますが、カメラが離れすぎないようにするなど、これらの量には制約があります。彼らはまた、カメラが特定のジオメトリに完全に位置合わせされていない場合、カメラを調整するという課題についても言及しています。その後、講師は絶対方向のトピックに移り、一定の姿勢を維持できない可能性があるライダーや航空カメラなどのデバイスの方向を補正する方法について説明します。最後に、この議論は画像内に興味深い点が存在することを前提としており、マッチングの問題は脇に置いていることに注意してください。

  • 00:20:00 このセクションでは、講師は、光線を 3D で投影し、それらの交点を見つけるために、2 つの座標系の回転と平行移動を見つける方法を説明します。彼は、左と右の両方の座標系で測定された点の例を使用し、これはラベルに関係なく任意の 2 つの座標系に適用できることに注意しています。講師は、変換を完全に指定するには、回転に 3 つ、平行移動に 3 つの 6 つの数が必要であることを強調し、それぞれに 3 つの自由度があることを説明します。彼は、回転を正規直交行列として表す必要がないことを強調して、変換式を書きます。

  • 00:25:00 講義では、オブジェクトの回転と平行移動を計算する方法を理解する上で不可欠な、回転と直交行列のプロパティについて説明します。レクチャーでは、直交正規性制約を適用することで反射をなくす方法や、回転行列の逆行列を簡単に取得する方法についても説明します。左右の座標系の点を重ね合わせて並べる方法を視覚化するために、物理モデルも表示されます。

  • 00:30:00 このセクションでは、スピーカーは、対応する測定値を使用して 2 つのシステム間の座標変換を見つける問題にアプローチする方法について説明します。この問題は、左座標系と右座標系で変換されたベクトル間の距離を最小化することを目的とする最小二乗法でアプローチできます。これは、システムがエネルギーを最小化するように調整しようとする、エネルギー最小化問題と考えることができます。スピーカーは、右のシステムから左への変換が、左のシステムから右への変換の正確な逆であることを確認することの重要性を強調しています。平行移動と回転の問題を分離すると、一度に 3 つの自由度だけに問題が単純化されます。

  • 00:35:00 このセクションでは、スピーカーは、オブジェクト上の点の測定値を使用して座標系を構築する方法を説明します。最初のステップは、原点としてポイントを選択し、それを 2 番目のポイントに接続して 1 つの軸を作成することです。最初の 2 点間の距離が正規化されて x 軸が作成され、3 番目の点を使用して xy 平面が定義されます。 y 軸は、x 軸方向の最初の点から 3 番目の点までのベクトルのコンポーネントを削除し、結果のベクトルを元のベクトルに対して垂直にすることによって作成されます。 z 軸は、x と y の両方のベクトルに垂直であるため、x と y の外積として定義されます。このプロセスにより、座標系の作成と、オブジェクトの両方の座標系での点の測定が可能になります。

  • 00:40:00 このセクションでは、スピーカーは座標系を構築し、回転を解決する方法を説明します。これを行うために、単位ベクトルのトライアドを使用して、左右の座標系を定義します。次に、両方の曇り点を取得し、軸を作成し、単位ベクトルを相互にマッピングして、それらをまとめる変換を見つけます。次に、3x3 行列を使用して別々の方程式を結び付け、回転を解きます。彼らは、平行移動を取り除くことによって、見つけなければならない自由度は 3 つしかないと述べています。

  • 00:45:00 このセクションでは、スピーカーは、写真測量における座標系間のポイントのマッピングに関連する制約について説明します。 2 つのシステム間の 3 つの対応は、未知数が 3 つしかない解には十分に見えるかもしれませんが、ベクトルが等しいということは、各制約が 3 ポイントの価値があることを意味します。したがって、9 つの制約があります。ただし、回転の自由度は 3 つしかないため、情報が過剰になります。次にスピーカーは、変換のポイントを選択的に選択することを含むアドホック ソリューションについて説明しますが、これは不正確です。もう 1 つの解決策は、特異値分解 (SVD) を使用して、すべての対応関係からの情報を均等に重み付けする最適な変換行列を見つけることです。

  • 00:50:00 このセクションでは、講師が 2D および 3D 空間で慣性軸を見つける概念について説明します。彼は、慣性が最小の軸は、距離の 2 乗と質量の積を計算することで見つけることができるのに対し、垂直軸は最大の慣性を持ち、3D では鞍点である 3 番目の軸があると説明しています。彼は、これらの軸が特定されれば、問題のオブジェクトの座標系を確立できると述べています。軸から原点までの距離を求める式についても説明し、重心を原点として選択して、平行移動を求める問題と回転を求める問題を分離します。

  • 00:55:00 このセクションでは、話者は、オメガ軸に投影された 2 点 r と r 素数の間の距離を決定する方法を説明します。慣性の式はこの距離から導き出され、軸が方向を変えると変化することが示されています。次にスピーカーは、内積、乗算の結合性、単位行列を使用して式を簡略化します。結果として得られる式は、慣性が r と単位行列を乗算し、オブジェクトのボリューム全体で積分した r の内積に等しいことを示しています。

  • 01:00:00 このセクションでは、講師が左手座標系と右手座標系の点群上に座標系を構築し、2 つを関連付ける方法を説明します。これは、慣性行列または慣性軸を計算することによって行われます。これは、3 行 3 列の行列の単純な固有値固有ベクトル問題です。互いに垂直な 3 つの軸 (最大軸、最小軸、サドル軸) が見つかります。これらの軸は基底ベクトルを確立するために使用され、同じ方法が右手座標系に対して行われます。これを行うために使用される方法は、すべての点を均等に扱い、問題を最小化する最小二乗問題です。

  • 01:05:00 講義のこのセクションでは、スピーカーは、対称オブジェクトを扱う場合の写真測量におけるアドホック手法の限界について説明します。話者は、球、四面体、八面体などの一部のオブジェクトはすべての方向に同じ慣性を持っているため、伸びに依存するアドホックな方法を使用してそれらの向きを決定することが困難であると説明しています。さらに、スピーカーは、向きを決定するために通信を使用することは、より正確ですが、各ポイントの位置合わせを知る必要があるため、困難なアプローチであると述べています。講演者は、内積、長さ、角度の保持など、回転の特性についても説明します。

  • 01:10:00 このセクションでは、教授は、これらのベクトルによって形成される平行六面体の体積である、ベクトルの三重積について説明します。これらのベクトルが回転する場合、回転が反射でない場合、それらのボリュームは保持されます。鏡映は三重積の符号を変更し、したがって体積を変更し、右手の法則ではなく左手の法則になります。この原則は、2 つの座標系間の誤差を最小限に抑えるためにオフセットと回転を選択する必要がある場合に、最小二乗問題を設定して 2 つの座標系間の変換を求める場合に重要です。

  • 01:15:00 このセクションでは、回転を見つけることから平行移動を見つける問題を単純化する方法を講師が説明します。彼らは、座標を重心に移動し、元の座標から差し引いて変換を取り除くことでこれを行い、回転の問題を解決しやすくします。次に、講師は新しい座標を誤差式に挿入し、用語をグループ化して、最終的により単純な問題に取り組みます。講義は、翻訳にどのオフセットを選択するかという質問で終わります。

  • 01:20:00 このセクションでは、回転を見つける問題から翻訳を見つける問題を分離することに焦点を当てます。変換の式は、右座標系の重心位置と回転後の左座標系重心の位置の差です。次の目的は、残りの誤差項を最小限に抑えることです。これには、正しい回転を見つけることが含まれます。回転に依存する残りの項を最大化することにより、講義は正しい回転を見つけることを目的としています。これは、重心に接続された点群がスパイク状の寿司のような外観を想像するときに直感的に理解できます。

  • 01:25:00 このセクションでは、講師がベクトル計算を使用して形状が似ている 2 つのオブジェクトを整列させる方法を説明します。オブジェクトの対応するスパインを取得し、それらの間の内積を使用して角度を決定することにより、オブジェクトを整列させることができます。ただし、これは、追加された制約によって複雑な行列を処理する必要なく、微積分を使用して回転問題を解決する方法の問題を引き起こします。講師は、位置合わせの問題を簡単にする回転の他の表現を調べることを提案しています。
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 18: 回転とその表現方法、単位クォータニオン、回転の空間



講義 18: 回転とその表現方法、単位クォータニオン、回転の空間

この講義では、回転を表現する際の課題について説明し、ハミルトンの四元数の有用性を紹介します。単位四元数は、3 空間での回転に直接マッピングされるため、特に便利です。これにより、回転空間とその空間での最適化の議論が可能になります。四元数は複素数に似た性質を持ち、内積、三重積、長さ、角度、利き手が保持されるため、回転を表すのに特に役立ちます。講義では、回転を表すさまざまな方法、ベクトルを回転させて回転を構成できることの重要性、行列、オイラー角、ジンバル ロックなどの従来の方法の限界についても説明します。最後に、講義では、回転の最適化とモデルへの適合、回転空間の分析と視覚化のための新しい方法の開発など、この分野で進行中の研究について説明します。

この講義では、教授は、2 つの座標系間の座標変換、または 2 つの座標系で測定された対応する点を持つ 2 つのオブジェクト間の最適な回転と平行移動を見つける問題について説明します。この講義では、クォータニオンを使用して宇宙船のカメラをカタログの方向に合わせ、相対的な向きの問題を解決する方法について説明します。回転を表す四元数の効率、および 4 次元空間での回転の表現にアプローチするためのさまざまな方法について説明します。さらに、この講義では、さまざまな多面体のさまざまな回転グループを調査し、定期的な空間サンプリングを実現するために正しい座標系を選択することの重要性を強調します。

  • 00:00:00 このセクションでは、回転は翻訳のように可換ではないため、回転を扱う際の課題について話します。目標は、写真測量とロボット工学で回転を処理するための便利で一般的な方法を開発することです。ハミルトンの四元数は、特に単位四元数に制限されている場合に、回転を表現するためのより一般的な方法を提供し、3 空間の回転に直接マッピングできます。これにより、その空間での回転と最適化の空間についての議論が可能になります。ロボット工学から生物医学に至るまで、アプリケーションは膨大であり、講演者は、異なる座標系にある 2 つのオブジェクトまたは移動した 1 つのオブジェクトの測定に関連する問題のクローズド フォーム ソリューションを開発することを目指しています。

  • 00:05:00 このセクションでは、ローテーションのトピックを紹介して説明します。オイラーの定理は、剛体の回転には、軸である変更されない線があるという特性があると述べています。平行軸の定理は、任意の軸を中心とした回転は、原点を通る軸を中心とした回転に平行移動を加えたものと同等であると述べています。物事を単純化するために、平行移動と回転を分離すると便利です。角速度はベクトルと速度のみを必要とするため、回転速度は有限回転自体よりもはるかに簡単です。最後に、有限回転は交換されず、n = 3 の場合、3 つの自由度があります。

  • 00:10:00 このセクションでは、講師は、回転を特定の平面を維持するものと考えるのが最善であると説明しています。たとえば、xy 平面を保持したまま、その中のものを別の場所に移動できます。講師はまた、外積には 3 つの自由度があり、乗算される 2 つのベクトルに対して垂直であるため、ベクトルとして表されることにも注意します。回転の表現が存在します。1 つの便利な方法は、軸が単位ベクトルであり、回転角度が角度で表される軸と角度の表記です。ギブス ベクトルは、軸と角度を 1 つのベクトルに結合する別の表記法ですが、これはもはや単位ベクトルではなく、シータが pi に等しいところで爆発します。

  • 00:15:00 このセクションでは、講師が、オイラー角、正規直交行列、指数形式、ステレオグラフィー、複素行列など、回転を表すさまざまな方法について説明します。各方法には独自の制約があり、オイラー角には 24 の異なる定義があり、混乱を招きます。ただし、単位四元数は、コンパクトで補間が容易で、ジンバル ロックの影響を受けないなど、多くの利点があるため、回転を表す最も一般的で便利な方法です。異なる回転表現間で変換できることも不可欠です。

  • 00:20:00 このセクションでは、スピーカーは、ベクトルを回転させ、回転された座標系でその位置を見つける問題、および回転を構成する問題について説明します。講演者はロドリゲスの公式を紹介します。この公式は、ベクトルを取得し、特定の軸を中心にある角度だけ回転させることで、最初の問題に対処します。問題を 2D の問題に分解することで、スピーカーは回転式が平面では単純であるが、3D ではより複雑であることを示します。話者は、軸と角度の表記は回転を視覚化するのに役立ちますが、合成は難しいと説明しています。

  • 00:25:00 このセクションでは、角度と形状を維持する投影法を使用して球を平面にマッピングするなど、回転のさまざまな表現について講師が説明します。彼はまた、軸や角度などの直感的な表現だけでなく、ベクトルを回転させて回転を構成できることの重要性についても言及しています。ただし、回転行列や軸角度などの一部の表現は、冗長であるか、あまり直感的ではない可能性があることに注意してください。講師はまた、特異点を回避し、グラフィックスの向きを補間できる一方で計算効率を確保することの重要性を強調しています。

  • 00:30:00 このセクションでは、講師がコンピューター グラフィックスで回転を表現および補間する際の課題と、効率的にサンプリングして平均化できる回転スペースの必要性について説明します。彼は、行列、オイラー角、ジンバル ロック、およびその他の従来の方法を使用することの限界を指摘し、より実用的な解決策として四元数を紹介しています。彼は、クォータニオンが冗長性と特異性を回避する方法と、数学的にエレガントで計算効率の高い方法でそれらを構成、補間、およびサンプリングする方法について説明しています。彼はまた、回転の最適化とモデルへの適合、回転空間の分析と視覚化のための新しい方法の開発など、この分野で未解決の問題と進行中の研究のいくつかを強調しています。

  • 00:35:00 このセクションでは、スピーカーは四元数の作成の背後にある歴史と、数学、特に回転におけるそれらの重要性について説明します。彼は、ダブリン出身の数学者であるウィリアム・ハミルトンが、除算を可能にする方法で3つの数字を表現する方法を見つけようとしていたため、インスピレーションを得るために複素数に目を向けたと説明しています。ハミルトンは最終的に、クォータニオン、つまり実部と 3 つの虚部を持つ数が問題を解決できることを発見しました。次にスピーカーは、空間内のベクトルや 4 行 4 列の行列など、四元数を表すさまざまな方法について説明します。

  • 00:40:00 このセクションでは、講師は、行列の使用、スカラー部と 3 つの虚部の使用など、四元数の乗算を表すさまざまな方法について説明します。講師は、乗算が非可換であることを強調し、行列とベクトルの積としてどのように表現できるかを示します。講義では、四元数の乗算が可換ではなく結合的であるという事実を含む、いくつかの基本的な結果にも焦点を当てています。

  • 00:45:00 このセクションでは、スピーカーは、回転を表す便利な方法となる四元数の特性について説明します。四元数には、虚数部を否定する共役を含む、複素数に似たプロパティがあります。内積はノルムとして表すことができ、四元数にその共役を掛けると、虚部のない実数になり、除算に使用できます。単位四元数の場合、逆数はちょうど共役です。クォータニオンは、スカラー部分を省略してベクトルを表すためにも使用できます。この空間には多くの興味深い特性があります。

  • 00:50:00 このセクションでは、講師が四元数を使用して回転を表現する方法を説明します。単純な四元数の乗算とは異なり、四元数にベクトルを前もって乗算し、後からその共役を乗算し、ベクトルの虚数部を抽出する操作により、3D でベクトルを回転するために適用できるゼロのスカラー部分を持つ四元数が得られます。講師は、4 x 4 行列を使用して四元数の乗算を表すことにより、この操作が元のベクトルの内積をどのように保持するかを示します。最終的に、結果として得られる 3 x 3 の正規直交回転行列を使用して、四元数を直接操作せずにベクトルを回転させることができます。

  • 00:55:00 このセクションでは、講師が回転を定義するプロパティと、クォータニオンを使用してそれを表現する方法について説明します。クォータニオンは、内積、三重積、長さ、角度、左右を保持する回転の 4 次元表現であり、回転の適切な表現になります。回転の構成は、クォータニオン表記では簡単ですが、軸角度とオイラー角度の両方では困難です。クォータニオンのベクトル部分は回転軸に平行であるため、軸の決定が容易になります。講師は、軸角度と四元数表現の間の変換方法を説明し、球の反対側が同じ回転を表していることを識別します。これは、平均を計算するための写真測量で不可欠な知識です。

  • 01:00:00 講義のこのセクションでは、スピーカーは、2 つの座標系間の座標変換、または 2 つの座標系で測定された対応する点を持つ 2 つのオブジェクト間の最適な回転と平行移動を見つける問題について説明します。システムは、バネを備えた物理的なアナログを使用して、誤差の二乗和を最小化して回転と平行移動を見つけようとします。平行移動を見つけるための最初のステップは、回転後の左システムの重心を右システムの重心にすることです。これは直感的であり、対応を必要としません。次に、変換の式を使用して、誤差項を最小化するための式を簡素化します。変更できるのは中間項だけであり、それを最大化することで、システムは対応点の内積を最大化できます。

  • 01:05:00 このセクションでは、講師は、四元数表記を使用して宇宙船のカメラをカタログの方向に合わせる方法について説明します。クォータニオンを使用して、カメラ内の星に方向をマッピングし、カタログの方向を示します。目標は、これら 2 つのクォータニオンの内積を最大化することです。ただし、これによりクォータニオンの値が大きくなる可能性があるため、追加の制約を課す必要があります。講師は、2 つの四元数方向の差を最小化するために使用される四元数に関して微分する 2 つの方法を説明します。

  • 01:10:00 講義のこのセクションでは、教授は、データから構築される 4 行 4 列の実対称行列の固有ベクトルと固有値について説明します。最小の固有値が必要だった過去とは異なり、サイン フリップのために、最大の固有値に対応する固有ベクトルを選択する必要があります。行列は対称です。つまり、9 つの独立した量があり、その行列式にはゼロの 3 次項があります。 16 個の独立した量がありますが、そのうちの 10 個が独立しているため、この行列は特別なものになっています。これにより、3 次方程式に減らすことができ、それを簡単に解くことができます。教授はまた、5 次方程式とは異なり、3 次方程式と 4 次方程式は閉じた形式で解くことができると指摘しています。

  • 01:15:00 このセクションでは、講師は、回転を表す手段としての四元数の望ましい特性について説明します。これらのプロパティには、ベクトルを回転させて回転を簡単に構成する機能、直感的な非冗長表現、計算効率、方向を補間して回転範囲の平均を取る機能が含まれます。次に、講師は、世界の 2 点からの方向データを使用して、2 つの座標系のベースラインと相対的な向きを見つける問題として、相対的な向きを紹介します。クォータニオンは、ロボット マニピュレーターの運動学を記述するのにも役立ち、特に手首で整列する座標系の問題を回避するのに役立ちます。

  • 01:20:00 このセクションでは、スピーカーは正規直交行列と比較して回転を表現する際の四元数の効率について説明し、四元数の乗算は合成では高速ですが、回転ベクトルでは遅いことを示しています。彼は、クォータニオンは行列より再正規化も容易であると述べています。次にスピーカーは、多面体を回転球に射影することによって 4 次元で回転空間をサンプリングする方法について説明し、その結果、空間の規則的で均一なサンプリングが行われます。

  • 01:25:00 このセクションでは、座標系を使用して回転グループの式を簡略化するなど、4 次元空間で回転を表すさまざまな方法について説明します。この講義では、さまざまな多面体のさまざまな回転グループについても説明します。これらのグループを使用して空間の定期的な空間サンプリングを提供し、ユーザーが検索や平均化のためにさまざまな方向を試すことができるようにします。ただし、これらの方法では、より細かいサンプリングを実現するためにトリックが必要になる場合があり、正しい座標系を選択することが重要であることに注意してください。
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

講義 19: 閉じた形式の絶対方向、異常値とロバスト性、RANSAC



講義 19: 閉じた形式の絶対方向、異常値とロバスト性、RANSAC

この講義では、単位四元数を使用して写真測量で回転を表す、四元数と正規直交行列表現の間で変換する、回転対称性を扱う、対応関係のない方法で変換、スケーリング、および回転を調整するなど、絶対方向のさまざまな側面について説明します。講義では、外れ値とライン フィッティングおよび測定プロセスにおけるロバスト性の問題についても説明し、外れ値が存在する場合の測定の信頼性を向上させる方法として RANSAC (Random Sample Consensus) 法を紹介します。講義は、外れ値と最適化に関連する課題を含む、同一平面上にあるシナリオで 2 つの平面を使用して、閉じた形式で絶対方向の問題を解決することについての議論で締めくくられます。

絶対方向に関するこのビデオでは、講師は実際のデータの外れ値の問題について説明し、RANSAC の使用を提案します。RANSAC は、外れ値に対処するためのランダムなサブセット フィットを含むコンセンサス手法です。講師はまた、立方体に球を刻んでランダムな点を投影する方法、球の表面をテッセレーションする方法、正多面体で点を生成する方法など、球上の点の均一な分布を実現する方法についても説明します。さらに、講師は、ライブラリ内の複数のオブジェクトを効率的に認識するために回転空間をサンプリングする方法、オブジェクトをそれ自体と整列させるために必要な回転数を見つける方法、および例またはクォータニオン乗算を通じて回転を見つける問題に取り組む方法についても説明します。

  • 00:00:00 講義のこのセクションでは、スピーカーは写真測量で回転を表す単位四元数の使用について説明します。単位四元数は、最も悪い問題に対する閉じた形式の解を可能にし、他の表記法ではより困難な、最適な解を得るための客観的な方法を提供します。特に重要な 2 つの操作は、回転の構成とベクトルの回転です。どちらも、説明した式を使用して表すことができます。話者はまた、Rodriguez の公式を使用して、この表記法を軸と角度の表記法に関連付けます。全体として、単位四元数を使用すると、写真測量で回転をより効率的に表現できます。

  • 00:05:00 ビデオのこのセクションでは、講演者は四元数と正規直交行列表現の間の変換について説明しています。四元数を行列に変換する式には、非対称部分と対称部分の両方を持つ 4 x 4 行列が含まれます。話者は、最初の行と列はゼロのスカラー部分を持つベクトルである特別な四元数を表すため、無関係であると説明します。正規直交行列を元の四元数に変換するには、スピーカーは 3 行 3 列の部分行列のトレースを使用することをお勧めします。この方法は、行列間の角度の余弦を解くことができる 2 つの余弦項の形式の方程式で終わります。

  • 00:10:00 このセクションでは、講師が行列 R の対角要素から回転行列を計算するさまざまな方法について説明します。1 つのアプローチは回転行列のトレースを中心にしていますが、シータがゼロに近い場合に問題が発生します。代わりに、非対角要素を使用することをお勧めします。これらの要素はすべて、シータ オーバー 2 のサインに依存します。講義では、さまざまな和と差を計算し、平方根を取る完全な反転式を示します。このアプローチの問題は正弦のあいまいさですが、講義では、数値精度のために最大のものを選択し、それを解決することを提案しています。

  • 00:15:00 このセクションでは、講演者は四元数と回転行列の間の直接的および間接的な変換プロセスと、座標変換でスケールを考慮する方法について説明します。彼らは、最小二乗問題を使用して回転およびスケーリング係数を解き、4 つの合計の合計を最小化するプロセスを説明しています。講演者は、連続するカメラ位置から得られた地形の断片をつなぎ合わせる際に縮尺を考慮に入れることの重要性を強調し、これらの状況で最適なものを見つける方法を説明します。

  • 00:20:00 このセクションでは、スピーカーは回転の対称性の問題について説明します。ここでは、回転を計算するために使用される方法を反転して、回転行列の逆を取得できる必要があります。話者はまた、対応を必要とせず、重心を重心にマッピングできるため、以前の方法よりも好まれる別の誤差項についても調べます。この方法では、スケール ファクターに関する誤差項の微分をゼロに設定してスケール ファクターを求め、スケール ファクターを解く必要があります。

  • 00:25:00 このセクションでは、講師が平行移動、拡大縮小、回転を通信レスで処理する方法を説明します。重心法を使用すると、2 つの点群のサイズの比率としてスケール ファクターを計算できます。回転の部分では、講師は四元数 q に関して行列 N の負の行列式を最大化する微積分問題に簡単に触れます。解はラグランジュ乗数を使用して見つけることができますが、q の長さで割って無限に大きくならないようにするラルの商と呼ばれるより単純な方法も使用できます。結果として得られる関数は、任意の配列に沿って一定であり、可能な限り極端になる光線の方向を示します。

  • 00:30:00 このセクションでは、方程式を微分してゼロに設定することにより、シグマを最大化する行列を見つける方法をスピーカーが説明します。次に、比率の式を微分に使用して、q がどのように固有ベクトルであるかを示し、最大の固有値に対応する固有ベクトルを選択することによって行列を最大化できることを説明します。この方法に対する唯一の制約は、固有ベクトルが対応データから得られた制約を満たさなければならないということです。ただし、正規直交行列とは異なり、この制約は扱いがはるかに簡単です。

  • 00:35:00 このセクションでは、講師が写真測量の問題に必要な対応の数について説明します。彼らは、並進回転とスケーリングの 6 つのことを見つけることを目指しています。これは、対応ごとに 3 つの制約を意味するため、必要な対応は 2 つだけです。ただし、対応が 2 つしかないため、制約は 5 つしかありません。したがって、これを達成するには 3 つの対応が必要です。さらに、講師は、3 点から得られた 9 つの制約に一致するように変換を一般化する可能性について言及しています。ただし、これらの制約は非常に冗長であることに注意してください。

  • 00:40:00 このセクションでは、ビデオは 3D での一般的な線形変換の概念について説明します。これには 2D のような 6 つではなく 12 の要素が含まれるため、3 つの対応関係で判断することが難しくなります。さらに、ビデオでは、線形変換が失敗する 2 つの方法があることを説明しています。第一に、十分な対応がない場合、第二に、行列 N がゼロの固有値を複数持つ場合です。このビデオでは、特性方程式を解いて行列の固有値を見つける方法をさらに説明しています。

  • 00:45:00 ビデオのこのセクションでは、講師がダイアティック積を使用して行列 M を計算する方法を説明します。これは、最も一般的な 4 x 4 行列 N の計算に使用される 3 x 3 行列です。 N を取得する効率的な方法です。M の行列式がゼロの場合、C1 がゼロであるため、問題を解くのが特に簡単になり、特別な教科書を必要とせずに方程式を解くことができることに注意してください。この特殊なケースは、ポイントの分布に関係しており、ポイントが同一平面上にある場合に発生する可能性があります。講師は、点がすべて平面内にある場合にこれがどのように等しく適用されるかを示し、問題を簡単に解決できるようにします。

  • 00:50:00 ビデオのこのセクションでは、講演者は、同一平面上のシナリオで 2 つの平面を使用して、閉じた形式で絶対方向の問題を解決する方法を説明します。完全な 3D 回転は、2 つの単純な回転に分解できます。最初に一方の平面を回転させてもう一方の平面の上に配置し、次に平面内で回転させます。講演者は、クォータニオンを構築するために必要な軸と角度を見つけ、一方の座標系のすべての点を回転させて他方の座標系に合わせる方法を説明します。さらに、講演者は、最適化問題の外れ値を処理する際の課題と、誤差の絶対値などの誤差の 2 乗以外のものを使用すると、計算する作業が増え、結果を一般化することが困難になる可能性があることについて説明します。

  • 00:55:00 このセクションでは、講師はライン フィッティングやその他の測定プロセスにおける外れ値とロバスト性の問題について説明します。彼は RANSAC (Random Sample Consensus) メソッドを紹介します。このメソッドでは、ポイントのランダム サンプルを取得し、最小二乗法を使用して最適なものを見つけます。次に、バンド内に収まるポイントの数をチェックし、ノイズに基づいてしきい値を調整します。外れ値に対するインライアの比率。適切な適合が得られるまで、このプロセスが繰り返されます。講師は、RANSAC を使用すると、外れ値が存在する状況での測定の信頼性を向上させることができると述べています。

  • 01:00:00 ビデオのこのセクションでは、講師が実際のデータが存在する場合の異常値の問題と、RANSAC としても知られるコンセンサス法を使用してそれを処理する方法について説明します。この方法では、ランダムなサブセットを取得し、適合を実行し、ヒット数が最も多いセルを探します。これにより、閉じた形式のソリューションを持たない可能性のあるオブジェクトの向きを測定できます。講師は、このアプローチは多くのアプリケーションで有用であり、絶対的な方向付けに限定されないことを強調しています.さらに、講師は、凸に近い複雑なオブジェクトの表現も、物の検出とその向きの検出に役立つ可能性があると述べています。

  • 01:05:00 このセクションでは、講師は、均一性を達成するために球面上のポイントをサンプリングすることの難しさについて説明します。極領域は他の領域よりも濃度が高いため、一様分布ジェネレーターを使用してシータとファイをサンプリングしても、ポイントの一様分布を達成することはできません。提案された解決策は、立方体に球を刻み、立方体から球にランダムな点を射影することです。ただし、これでも、球が立方体に接するポイントの密度が高くなります。これを解決するために、講師は、通常のソリッドを使用して球の表面をテッセレートするか、コーナー近くのポイントに重みを導入してそれらの集約を縮小することを提案しています。

  • 01:10:00 ビデオのこのセクションでは、講師が球面上の点を均一に分布させる方法について説明します。 1 つの方法は、立方体で均一にポイントを生成し、それらを球の表面に投影し、原点に近すぎるポイントや球から遠すぎるポイントを破棄することです。別の方法は、正多面体を使用して球を分割し、これらの形状に均一に点を生成することです。ただし、この方法では、実質的に均一な分布を生成する最初の方法とは異なり、より細かい分割を得るために再分割が必要です。

  • 01:15:00 このセクションでは、講師は、ライブラリ内の複数のオブジェクトの認識プロセスの一部である、さまざまなオブジェクトの回転空間をサンプリングする均一な方法を見つける方法について説明します。講師は、効率的にするために、回転空間の一部を他の部分よりも密にサンプリングしたくないと説明し、空間をサンプリングする均一な方法を見つけることを目指しています。まず、回転対称性を持つ六面体とその回転について説明します。講師は、異なるモデル間の点の対応を見つけやすくする回転方法を見つけることが目的であると説明します。

  • 01:20:00 このセクションでは、スピーカーは、オブジェクトをそれ自体と整列させるために必要な回転数を見つける方法について説明し、次に、幾何学的およびクォータニオン乗算による 2 つの方法を使用して回転のグループを生成します。軸が (1, 1, 1) で角度が 2π/3 である興味深い新しい回転が見つかり、立方体の角がそれ自体と一致することが示されています。

  • 01:25:00 このセクションでは、スピーカーは、回転を見つける問題にアプローチする 2 つの方法を提供します。最初の方法は、例を見てそれらを足し合わせて合計 24 回のローテーションを取得することです。 2 番目の方法は、クォータニオン乗算を実装し、ペアごとの積をとってテーブルを作成し、何か新しい結果が得られるかどうかを確認することです。講演者は、次の議論では、両眼視に関連する相対的な方向性が含まれると述べています。
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

MIT 6.801 マシン ビジョン、2020 年秋。講義 20: 回転の空間、規則的なテッセレーション、クリティカル サーフェス、双眼鏡ステレオ



講義 20: 回転空間、規則的なテッセレーション、臨界面、両眼ステレオ

講義のこのセクションでは、通常のテッセレーション、クリティカル サーフェス、双眼鏡ステレオ、3 次元空間での変換のパラメーターの検索などのトピックについて説明します。講師は、球をテッセレーションする最良の方法は、三角形のテッセレーションの双対を使用して、いくつかの五角形でほぼ六角形の形状を作成することであると説明しています。また、マシン ビジョンでは難しいが、まっすぐな棒から家具を作成するために使用できる重要な表面についても説明します。双眼鏡ステレオの説明では、講師が 2 つのカメラの関係、エピポーラ線の概念、2 つのカメラの交点を見つけて世界の点を決定する方法について説明します。また、2 つの光線間の誤差を計算して交差を決定し、世界の誤差と画像の誤差の間の変換係数を考慮しながら画像の誤差を最小限に抑える方法についても説明します。最後に、四元数を使用してベースラインを表すことにより、空間内の剛体オブジェクトの位置と方向を復元するベースラインと D を見つける方法について説明します。

講義では、回転空間、規則的なテッセレーション、臨界面、双眼鏡ステレオなど、さまざまなトピックを取り上げます。回転については、インストラクターが数値アプローチの使用、特異点の問題、および単位四元数を使用する利点について説明します。通常のテッセレーションでは、特定のサーフェスが双眼鏡ステレオで問題を引き起こす可能性があることを示し、問題を軽減するためにエラー測定と重みを使用することを提案しています。スピーカーは二次曲面にも触れ、「大胆不敵な反射」を含む新しい宿題の問題を紹介します。

  • 00:00:00 ビデオのこのセクションでは、話者は、球に等面積の投影を行うプラトン立体とアルキメデス立体に基づく球の表面のテッセレーションについて説明します。表面のテッセレーションは、正多角形をファセットとして使用して行うことができ、三角形、正方形、および五角形が一般的に使用されます。ポリゴンの面積は等しくないため、テッセレーションされたサーフェスには多くの分割があります。このテッセレーションの方法は、回転について議論するときに関連し、話者はこれらのソリッドの回転グループについて説明します。このビデオでは、測地線ドームの使用についても言及しています。これは、20 面体を多数の三角形領域に分割して規則的な構造を作成することに基づいています。

  • 00:05:00 このセクションでは、講師がさまざまな規則的なテッセレーションについて説明しました。これは、サーフェスを同じサイズの形状に分割する方法です。正方形のテッセレーションは平面で一般的に使用されますが、球には理想的ではなく、三角形のテッセレーションも問題があります。講師はより良い選択肢を強調しました: ほぼ六角形といくつかの五角形を特徴とする三角形のテッセレーションの二重です。また、講師は1枚の双曲面である臨界面についても説明した。これらのサーフェスは、マシン ビジョンの問題では困難ですが、罫線が入っているという明確な特徴があり、まっすぐな棒から家具を作成するために使用できます。最後に、講師は方程式に 2 つの負の符号を持つ 2 つのシートの双曲面について説明しました。

  • 00:10:00 このセクションでは、講師が 2 つのシートまたは 3 つのマイナス記号で作成できるさまざまなタイプのサーフェスについて説明します。彼はまた、双曲面、円錐、放物面、および平面など、存在するさまざまな特殊なケースについても説明しています。続いて、講師は、2 台のカメラを使用して 2D から 3D を計算する際の問題と、2 台のカメラのジオメトリを理解するために相対的な向きがどのように必要であるかを説明します。講義の最後に、バイノキュラー ステレオが自動運転車にどのように適用されるかについて説明します。ベースラインが固定されていない場合は、キャリブレーションを再度実行する必要があるかもしれませんが、前後の画像を使用した構造からの動きに対しても同じプロセスが機能します。

  • 00:15:00 このセクションでは、講師が 2 台のカメラの交点を見つけて世界のポイントを決定する概念、座標系の選択方法、およびこの概念に関連するジオメトリについて説明します。講師は、ベースラインが右座標系で測定され、プライムが左座標系からどのように変換されたかを示していることを強調しています。ポイントがベースラインに接続されると、平面が定義され、両方のカメラ システムの平面の画像が直線に投影され、その線に沿ったどこかにポイントが画像化されます。講義では、エピポーラ線の概念と、それらが距離測定につながる視差を見つけるのにどのように役立つかについても紹介します。

  • 00:20:00 このセクションでは、講師が双眼鏡ステレオ設定における 2 台のカメラの関係について説明します。これには、ベースラインと、一方のカメラの他方に対する回転が含まれます。回転には 3 つの自由度がありますが、スケール ファクターのあいまいさにより、問題は絶対方向の場合のように 6 つではなく 5 つの自由度に減少します。ベースラインは単位ベクトルとして扱われ、そのコンポーネントには 2 つの自由度のみが与えられます。講師は、ベースラインの絶対的な長さを決定するには、画像化されたオブジェクトのサイズに関する知識などの追加情報が必要になると説明しています。

  • 00:25:00 このセクションでは、講師は、測定値を特定するために必要な通信の数を決定する方法について説明します。彼は、イメージ ポイントからワイヤを作成し、それをカラーに通して拘束するという機械的な例えを説明しています。講師は、対応が 2 つしかない場合でも自由度があり、カメラの回転を変更できると説明しています。 2 番目の対応を追加すると、自由度は減りますが、それでも不十分です。答えは 5 です。これは、対応ごとに 1 つの制約を与え、カメラの向きの垂直視差をゼロにすることを可能にします。被写界深度は水平視差に反比例します。この装置は、垂直視差を調整することでセットアップできます。これは、何十年にもわたって光学機器がセットアップされてきた方法です。

  • 00:30:00 レクチャーのこのセクションでは、一連の移動と調整を使用して 3 次元空間で変換のパラメーターを見つけて収束させるプロセスについて説明します。これは、苦痛で複雑なプロセスになる可能性があります。ただし、実際には、精度を確保し、画像位置の測定誤差を最小限に抑えるために、5 つ以上のポイントを持つことが重要です。この非線形問題は 7 つの 2 次方程式に帰着し、これを解くと 2 対 7 (128) の解が得られます。これはほとんどの人にとって骨董品ですが、理論的な応用に興味がある人は、理解するのが楽しいと思います。最後に、講義では、対応関係からベースラインと回転パラメーターを見つけるときの 3 つのベクトルの同一平面上の性質について説明します。

  • 00:35:00 このセクションでは、3 つのベクトルをエッジとして使用して並列ピペットを構築し、三重積によってその体積を決定する概念について説明します。 3 つのベクトルが同一平面上にある場合、オブジェクトは平らで 3 次元ボリュームを持たないため、期待値がゼロまたは共平面条件になります。ベースラインとローテーションを最小限の誤差で推定するために、対応ごとに三重積の二乗和を最小化する潜在的な方法について説明します。ただし、これはノイズ ゲインが高く、正しくない結果が得られる可能性があるため、信頼できる方法ではありません。測定誤差を最小限に抑えて比例係数を決定するために、測定とベースラインまたは回転が完全でない場合、焦点は 2 つの光線間の最小分離を最小化する方向にシフトされます。

  • 00:40:00 このセクションでは、講師が 2 つの光線間の誤差を計算し、それらの交点を決定する方法について説明します。彼は、2 つの光線間の距離への最小アプローチは、それらの光線の両方に垂直でなければならない、つまり外積に平行であると説明しています。ベクトルを追加してそれらをゼロに設定することにより、方程式を内積を使用してスカラー方程式に変換し、3 つの異なる制約を提供できます。次に、講師は、特定の項を除外して方程式を単純化する方法と、ガンマ、ベータ、およびアルファを計算する方法について説明します。これにより、交差またはほぼ交差が光線に沿ってどれだけ離れているかを判断するのに役立ちます.

  • 00:45:00 このセクションでは、スピーカーは、回転空間での 3 次元位置を計算する際の 3 つの量 (アルファ、ベータ、ガンマ) の重要性について説明します。ガンマは単に距離誤差ですが、アルファとベータは負の値になる場合があり、交差する線分が視聴者の背後にあるかどうかを示します。これは通常、物理的に妥当ではありません。講演者は、関係する 5 次の方程式のために、現在、閉じた形式の解法は不可能であると述べていますが、画像エラーを最小限に抑えることは依然として達成可能です。アルファまたはベータが負の解を破棄し、5 次ソルバーを使用することで、画像のエラーを最小限に抑えることができます。

  • 00:50:00 このセクションでは、スピーカーは、世界の誤差と画像の誤差の間の変換係数を考慮しながら、双眼鏡ステレオの二乗和誤差を最小化する問題について説明します。これはソリューションに依存し、反復的に解決されます。左の座標系から右に回転した三重積は、四元数を導入するために使用されます。講演者は、スカラー部分がゼロの四元数を使用して、三重積を右の座標系から左に回転させる方法を説明します。ベクトルを表す四元数間の乗算の公式は、内積と外積だけに単純化されます。補題は、乗数の 1 つを反対側に移動する方法の証明なしで述べられています。

  • 00:55:00 このセクションでは、異なる視点から撮影されたオブジェクトの 2 つの画像が与えられた場合に、ベースラインを見つけて、空間内の剛体の位置と向きを復元する方法をスピーカーが説明します。スピーカーは、ベースラインと回転の積である新しい量を定義し、クォータニオンを使用してベースラインを表し、問題を単純化してベースラインと D を見つけます。未知数は 8 つありますが、自由度は 5 つしかありません。そのため、スピーカーはさまざまな制約を採用しています。また、左右の座標の交換を可能にする興味深い対称性についても話しています。 3D 空間の誤差と画像位置の誤差の関係である重みの計算は困難ですが、調整することはできます。

  • 01:00:00 このセクションでは、適切な最初の推測に基づいて重みを計算し、それらの重みを再計算して問題を再度解く最適化問題について説明します。また、左配列と右配列の間の対称性と、それが数値計算にどのように役立つか、三重積の回転と並進の間の対称性についても触れています。究極的には、この対称性は、ある近似解があれば、この対称性を利用して別の近似解を生成できることを意味します。さらに、ソリューションを検索する過程で、複数のバージョンがすべて同じ結果をもたらす場合があり、検索プロセスを加速するのに役立ちます。

  • 01:05:00 このセクションでは、インストラクターは、単純な最小二乗閉形式ソリューションを使用して未知の値の 1 つを仮定する必要がある数値アプローチを使用して、回転空間の計算について説明します。もう 1 つのアプローチは、式が可能な限りゼロに近づくまでパラメーターを調整する Marquardt 法などの非線形最適化パッケージを使用することです。ただし、これらのアプローチは、この問題に対する閉じた形式のソリューションを持っているとは見なされません。さらに、インストラクターは、正規直交行列法により、9 つの数値と 3 つの自由度しかなく、θ が pi に等しいギブス ベクトルの特異点につながるため、回転に問題があると説明しています。

  • 01:10:00 このセクションでは、スピーカーは単位四元数を使用して回転を表すことについて説明し、それらには 3 つの自由度を持つ 4 つの数があることを挙げています。彼は、制約を追加して冗長性を少なくすることを推奨しており、このパッケージではそれらの制約を追加できると述べています。彼はまた、2 つの回転とベクトルの変換を組み合わせる公式についても触れていますが、これはもう少し複雑です。さらに、講演者は、四元数について知る必要があるすべてを要約した 4 ページの宣伝文句があることを強調しています。最後に、エラー メジャーの使用方法と、大きなエラーを回避するために大きな Z 値を考慮する場合に重みがどのように必要であるかについて説明します。

  • 01:15:00 このセクションでは、スピーカーは、特定の種類の表面が、オブジェクトの方向を決定する双眼鏡ステレオ法で問題を引き起こす可能性があることを説明します。これらの「クリティカル サーフェス」は 1 世紀以上前に発見されたもので、あいまいさとエラーに対する感度が高くなる可能性があります。話者は、U 字型の谷の例を挙げています。ここでは、飛行機が表面に沿って移動しても、表面の特徴の異なる画像間の角度が変化せず、異なる位置を区別することができません。話者は、1 枚のシートの双曲面が 2 次曲面の一般的な例であり、1 枚のシートに適切な数のマイナス記号があり、他のサーフェスによく似ている可能性があるため、双眼鏡ステレオで問題を引き起こす可能性があることに注意します。

  • 01:20:00 このセクションでは、スピーカーは二次曲面、特にこの曲面の 1 つのバージョンを構成する 2 つの交差する平面について話します。各平面には一次方程式があり、それらを乗算すると、2 つの平面の組み合わせが得られます。平面の 1 つは投影の中心を通過します。つまり、平面は線に投影されます。これはさらに奇妙で、平面が問題であり、人工構造物では一般的です。スピーカーは、次回は「大胆不敵な反省」について話さなければならないと述べ、新しい宿題の問題が紹介されました。
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...