Maschinelles Lernen und neuronale Netze - Seite 13

 

Vorlesung 14: Inspektion in PatQuick, Hough-Transformation, Homographie, Positionsbestimmung, Multi-Scale



Vorlesung 14: Inspektion in PatQuick, Hough-Transformation, Homographie, Positionsbestimmung, Multi-Scale

In dieser Vorlesung wird der PatQuick-Algorithmus diskutiert, wobei der Schwerpunkt auf der Verwendung von Sonden zur Erzeugung einer Bewertungsfunktion in einem mehrdimensionalen Raum liegt, die die Pose eines Objekts in Echtzeitbildern bestimmt. Die Übereinstimmungsfunktion, die verwendet wird, um die Qualität der Übereinstimmung in Richtung und Größe des Gradienten zu bewerten, wird ebenfalls untersucht, wobei verschiedene Bewertungsfunktionen für Kompromisse zwischen Genauigkeit und Geschwindigkeit diskutiert werden. Der Vortrag befasst sich auch mit verschiedenen Methoden, die verwendet werden, um den Prozess des Musterabgleichs effizienter zu gestalten, einschließlich der Anpassung der Granularität der Berechnung und der Herausforderung, die richtigen Richtungen zu finden, insbesondere bei der Durchführung von Transformationen, die das Seitenverhältnis eines Bildes ändern. Der Vortrag berührt auch das Thema Homographie und die Hough-Transformation zur Erkennung von Linien in Fotografien.

Die Vorlesung behandelt eine Reihe von Themen rund um Computer Vision, darunter Hough-Transformation, erweiterte Gauß-Halbtransformation, Positionsbestimmung, Multi-Scale-Subsampling und SIFT. Die Hough-Transformation wird zur Linien- und Kantenerkennung verwendet, während die erweiterte Gauß-Halbtransformation eine anspruchsvollere Version der Hough-Transformation ist. Der Vortrag erklärt auch, wie man die Hough-Transformation verwendet, um Kreise zu erkennen, beispielsweise den Standort eines Mobilfunkmastes. Darüber hinaus erörtert der Referent das Subsampling von Bildern, um die Arbeitsbelastung ohne Qualitätseinbußen zu verringern, und stellt SIFT vor, eine Methode zum Auffinden entsprechender Punkte in verschiedenen Bildern einer Szene, die häufig zur Erzeugung von 3D-Informationen aus mehreren Bildern verwendet wird. Abschließend geht der Referent kurz auf die Musiktheorie ein und endet mit einer Mahnung, Vorschläge einzureichen, und einem Zitat über das Nicht-Zögern.

  • 00:00:00 In diesem Abschnitt erörtert der Referent den PatQuick-Algorithmus und die Verwendung von Sonden zur Erzeugung einer Bewertungsfunktion in einem mehrdimensionalen Raum. Der Algorithmus betrachtet eine kleine Anzahl von Punkten im Bild und kann mit einer großen Anzahl von Freiheitsgraden umgehen. Die besprochenen Patente sind verwandt und Teil eines auf Physik basierenden Ansatzes für maschinelles Sehen. Die beschriebenen Algorithmen sind meist auf Situationen beschränkt, die zweidimensionale Oberflächen betreffen, wie z. B. integrierte Schaltungen und gedruckte Schaltungsplatten.

  • 00:05:00 In diesem Abschnitt erörtert der Sprecher einen Trainingsschritt in der PatQuick-Technik, bei dem dem System ein Bild gezeigt wird und es automatisch ein Modell berechnet. Dies ist ein entscheidender Schritt, da er Ressourcen und Zeit spart, anstatt den Code für jede visuelle Aufgabe manuell zu erstellen. Die Modelle werden dann auf Echtzeitbilder abgebildet, und die Pose wird durch Translation, Rotation, Skalierung, Neigung und Seitenverhältnis bestimmt. Die für das Objekt gesammelten Beweise sind kumulativ, und das Endergebnis ist die Summe der lokalen Operationen. Die Einschränkung dieser Methode ist jedoch die Quantisierung des Posenraums, die die Genauigkeit beeinträchtigen kann.

  • 00:10:00 In diesem Abschnitt diskutiert der Sprecher den potenziellen sechsdimensionalen Raum, der durch den Umgang mit Mustern unterschiedlicher Größe und Form entstehen kann. Während die Translation zwei Freiheitsgrade und die Rotation einen hat, haben Skalierung, Schräglage und Seitenverhältnis jeweils einen Freiheitsgrad, was die Gesamtzahl auf 6 erhöht. Die Behandlung aller sechs Parameter wird jedoch unpraktisch, da der Raum auf eine vernünftige Zahl quantisiert wird von Ebenen, wie z. B. 100, ergibt insgesamt 10 hoch 12 Leerzeichen. Der Redner erläutert auch die Matching-Funktion, die verwendet wird, um die Qualität des Matchings in Bezug auf Richtung und Größe des Gradienten zu bewerten, und hebt einige Nachteile der Funktion hervor, einschließlich der Möglichkeit des Matchings mit Hintergrundgeräuschen.

  • 00:15:00 In diesem Abschnitt erörtert der Dozent verschiedene Bewertungsfunktionen, die im PatQuick-Algorithmus für Kompromisse zwischen Genauigkeit und Geschwindigkeit verwendet werden. Verschiedene Scoring-Funktionen haben unterschiedliche Merkmale wie normalisierte Werte, aussagekräftige Scores oder einfach nur den Wert, der bei einer besseren Übereinstimmung größer ist. Der Dozent erklärt, dass sie negative Gewichte verwerfen und die Richtung des Gradienten verwenden, um die Punktzahl zu berechnen. Der Schwerpunkt liegt auf kompilierten Sonden und variierender Übersetzung. Der Vortrag beleuchtet auch eine zweite Version der Bewertungsfunktion namens s1b, die die Notwendigkeit der Multiplikation beseitigt und nur Sonden mit positiven Gewichten verarbeitet.

  • 00:20:00 In diesem Abschnitt erörtert der Sprecher verschiedene Funktionen, die für die bevorzugte Ausführungsform in PatQuick verwendet werden. Eine Funktion berücksichtigt die Gradientenrichtung und subtrahiert einen Term basierend auf zufälliger Übereinstimmung, um das Ergebnis zu verbessern. Eine andere Funktion verwendet die Gradientengröße direkt und ist nicht normalisiert, was bedeutet, dass ihr absoluter Wert nicht signifikant ist. Diese Funktionen werden in der Kandidatenlösung und den Feinscan-Schritten in PatQuick verwendet. Der Sprecher merkt an, dass, obwohl die bevorzugte Ausführungsform unterschiedliche Funktionen hat, auch andere Alternativen für die Implementierung gegeben sind.

  • 00:25:00 In diesem Abschnitt des Vortrags erörtert der Referent einige der Details, die erforderlich sind, um den Prozess des Musterabgleichs effizienter zu gestalten. Eine wichtige Überlegung ist die Granularität der Berechnung, die durch Verringern der Auflösung angepasst werden kann, bis ein zufriedenstellendes Ergebnis erzielt wird. Der Redner geht auch auf das Problem der Normalisierung ein und erklärt, dass es für einige Aufgaben nicht notwendig ist, zu normalisieren, da es sich um ein Rechenproblem handelt. Darüber hinaus spricht der Redner die Herausforderung an, die Richtungen richtig hinzubekommen, da der Prozess stark von der Gradientenrichtung abhängt, insbesondere wenn Transformationen durchgeführt werden, die das Seitenverhältnis eines Bildes ändern.

  • 00:30:00 In diesem Abschnitt des Vortrags diskutiert der Referent, wie man mit dem Problem der Gradientenrichtung umgeht, wenn x und y auf eine Weise transformiert werden, die keine rechten Winkel erhält. Die Lösung besteht darin, die Isophote aus der Gradientenrichtung zu berechnen, sie zu transformieren und etwas im rechten Winkel zur Isophote zu konstruieren. Der Referent geht auch auf das zusätzliche Thema der Inspektion ein, bei dem mithilfe von Sonden im Modell festgestellt wird, ob ein bestimmter Bereich eine vernünftige Übereinstimmung aufweist oder nicht, und ein Prozentsatz berechnet wird, der darauf basiert, wie viele Kanten im Laufzeitbild mit etwas im Modell übereinstimmen.

  • 00:35:00 In diesem Abschnitt erörtert der Dozent die Projektion einer flachen Oberfläche in einer 3D-Welt unter Verwendung einer perspektivischen Projektion und eines Kamerakoordinatensystems. Er arbeitet die Translations- und Rotationsbeziehungen zwischen der Kamera und dem Weltkoordinatensystem durch eine orthonormale Matrix aus. Der Dozent untersucht dann die Transformation von Weltobjektkoordinaten zu Bildkoordinaten und stellt die nichtlineare und chaotische Natur der perspektivischen Projektion fest, wenn eine Teilung einbezogen wird. Er konzentriert sich jedoch auf den speziellen Fall von ebenen Oberflächen und beschreibt, wie das System im Objekt aufgestellt werden kann, um eine einfachere Transformation zu ermöglichen.

  • 00:40:00 In diesem Abschnitt spricht der Sprecher über die Verwendung eines Koordinatensystems, bei dem z gleich Null ist, wodurch die 3D-Oberfläche in eine 2D-Oberfläche umgewandelt wird. Sie demonstrieren, wie man in diesem Fall die dritte Spalte ignorieren und die Translation bequem in Rotationen falten kann, um eine einzelne Matrix zu erhalten. Dann führen sie die Matrix T ein, die im Gegensatz zur Matrix R nicht orthonormal ist. Schließlich diskutieren sie die Freiheitsgrade für Translation und Rotation in 3D und die verschiedenen Denkweisen über Rotation.

  • 00:45:00 In diesem Abschnitt des Videos diskutiert der Sprecher Rotation, Translation und Beschränkungen in Matrizen, insbesondere im Fall einer perspektivischen Projektion auf eine ebene Fläche. Die Transformationsmatrix hat neun unabhängige Elemente, aber aufgrund von Einschränkungen wie Orthonormalität und Orthogonalität nur sechs Freiheitsgrade. Obwohl Kalibrierungsdaten unter Verwendung linearer kleinster Quadrate angepasst werden können, müssen die Einschränkungen auch durchgesetzt werden, was in veröffentlichten Arbeiten oft übersehen wird. Diese Konzepte werden für spätere Diskussionen über 3D-Transformationen wichtig sein.

  • 00:50:00 In diesem Abschnitt des Videos diskutiert der Dozent die Skalenfaktor-Mehrdeutigkeit und Homographie, eine lustige Art von Matrix. Die Homographie wird in der Photogrammetrie verwendet und wird angewendet, wenn die Aufmerksamkeit auf eine Ebene beschränkt wird. Der Dozent spricht auch über die Hough-Transformation und ihre Verallgemeinerung, die verwendet wird, um Punkte auf einer Straße aus Kameraaufnahmen abzubilden. Abschließend beschreibt der Dozent die NASA-Nebelkammer und wie Menschen Elementarteilchen studierten, indem sie sie in eine Nebelkammer schossen und Bilder der ionisierten Punkte in diesem Raum machten.

  • 00:55:00 In diesem Abschnitt erörtert der Dozent die Geschichte der Automatisierung des Prozesses der Bildanalyse, insbesondere zum Zweck der Erkennung von Linien oder Bögen in Fotografien von Wilson-Blasenkammerbildern. Die Hough-Transformation wurde als Lösung entwickelt, um die Herausforderung zu bewältigen, Linien zu erkennen, die nicht gleichmäßig beabstandet oder von einheitlicher Größe waren, sodass Linien vom Bildraum auf den Parameterraum für Linien abgebildet wurden. Der Dozent erklärt das Konzept eines Akkumulator-Arrays zum Zählen von Beweisen für jede mögliche Parameterkombination und sucht nach Peaks, die Linien im Bild entsprechen. Die Abbildung vom Parameterraum zum Bildraum ermöglicht eine gute Schätzung der Linie, selbst wenn der Beweis nur eine Blase ist.

  • 01:00:00 In diesem Abschnitt erläutert der Dozent das Konzept der Hough-Transformation, einer Technik zur Erkennung einfacher Objekte wie Linien, Kreise oder Ellipsen in einem Bild. Bei der Hough-Transformation wird der Bildraum einem Parameterraum zugeordnet, wobei jeder Punkt im transformierten Raum eine Linie im ursprünglichen Raum darstellt. Die Transformation ist symmetrisch, sodass alle Linien im ursprünglichen Raum auf eindeutige Schnittpunkte im Parameterraum abgebildet werden. Der Dozent erklärt anhand eines Beispiels, wie Blasen in einem Bild Hinweise auf mögliche Linien geben können, und indem man ihre Transformation im Parameterraum findet, kann man Beweise sammeln, um die Spitzen zu finden, die den Linien im transformierten Raum entsprechen.

  • 01:05:00 In diesem Abschnitt erklärt der Dozent die Hough-Transformation, die zur Linien- und Kantenerkennung in Bildern verwendet wird. Die Hough-Transformation schafft einen Raum für die möglichen Parameter der Transformation, wobei jeder Punkt einer bestimmten Linie entspricht, was dazu beitragen kann, die Beweise zu sammeln, selbst wenn die Linie unordentlich und in ungleichmäßigen Intervallen verteilt ist. Die Hough-Transformation darf jedoch nicht mehr zur Kantenerkennung verwendet werden, da es bessere Methoden gibt. Der Vortrag erwähnt auch kurz die erweiterte Gauß-Halbtransformation, die eine anspruchsvollere Version der Hough-Transformation ist, die Kompromisse und kleine knifflige Dinge hat, die behandelt werden müssen. Darüber hinaus spricht der Vortrag über Kreise und wie die Hough-Transformation zur Erkennung von Handysignalen verwendet werden kann, indem der zeitliche Fortschritt im Signal bestimmt wird.

  • 01:10:00 In diesem Abschnitt erläutert der Referent, wie die Erweiterung der Hough-Transformation verwendet werden kann, um Probleme mit Kreisen zu lösen, wie z. B. die Bestimmung der Entfernung aus GPS-Koordinaten. Durch Messen von zeitlichen Fortschritten und Konstruieren von Kreisen möglicher Positionen basierend auf dem gegebenen Radius wird es möglich, ein Akkumulator-Array zu verwenden, um Daten zu aktualisieren und allmählich Beweise zu sammeln, die die Position des Kreises identifizieren. Dieses Verfahren kann auf einen größeren Parameterraum verallgemeinert werden, einschließlich Kegel mit unterschiedlichen Radien, und jeder Punkt im Raum entspricht einem anderen Kreis an einer bestimmten Position in der Ebene. Das Endergebnis sollte viele Kreisschnittpunkte enthalten, die angeben, wo sich der wahre Standort des Mobilfunkmasts befindet.

  • 01:15:00 In diesem Abschnitt diskutiert die Vorlesung die Idee der verallgemeinerten Halbtransformation, die den ursprünglichen Parameterraum und die Evidenzakkumulation beinhaltet, um eine Partituroberfläche zu erzeugen; Dies ist nützlich, wenn Merkmale wie Kanten oder Texturen erkannt werden, die möglicherweise nur in einem bestimmten Maßstab oder mit bestimmten Rauschpegeln sichtbar sind. Indem wir mit niedrigeren Auflösungen arbeiten oder die Abmessungen reduzieren, können wir die Berechnungskosten senken und die Fähigkeit zur genauen Erkennung von Merkmalen verbessern. Diese Methode kann jedoch bei der Arbeit an höherdimensionalen Problemen und bei hohem Rauschpegel zu einer teuren Aufgabe werden.

  • 01:20:00 In diesem Abschnitt erörtert der Referent verschiedene Verfahren zur Unterabtastung von Bildern, um die Anzahl der Zellen zu reduzieren und die Arbeitsbelastung zu verringern, ohne die Bildqualität zu beeinträchtigen. Sie untersuchen verschiedene Werte von „r“ und wie sie den Grad der Unterabtastung beeinflussen, wobei „r“ gleich eins über Quadratwurzel aus zwei ein häufig verwendeter Wert ist, da er die Anzahl der Zellen um zwei reduziert und den Abstand um erhöht Quadratwurzel aus zwei. Der Referent stellt auch SIFT vor, eine Methode zum Auffinden entsprechender Punkte in verschiedenen Bildern einer Szene, die häufig zur Erzeugung von 3D-Informationen aus mehreren Bildern verwendet wird. SIFT verwendet eine viel weniger aggressive Subsampling-Methode mit mehreren Schritten pro Oktave, um eindeutige Deskriptoren für jeden Punkt im Bild zu erstellen.

  • 01:25:00 In diesem Abschnitt geht der Sprecher kurz auf die Tonleiter ein, bei der eine Oktave in acht Noten unterteilt ist, und erwähnt, dass es gute Gründe gibt, nicht immer den Faktor zwei zu verwenden, obwohl sie nicht den gleichen Abstand haben. Der Redner erinnert das Publikum auch daran, seine Vorschläge einzureichen, und teilt ein Zitat aus einem Glückskeks darüber, nicht zu zögern.
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US-Patent 7065262)



Vorlesung 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US-Patent 7065262)

Das Video diskutiert mehrere Techniken und Patente im Zusammenhang mit Mustererkennung und Objekterkennung. Eine solche Technik ist PatMax, die die Pose eines Laufzeitbildes unter Verwendung eines attraktiven kraftbasierten Systems iterativ verbessert. Eine andere Technik beinhaltet das Erzeugen eines Vektorfelds auf einem Pixelgitter, um die Laufzeitbildausrichtung zu verbessern. Die Vorlesung behandelt auch die Verwendung von Abstandsfeldern zur Kantenerkennung und das Erweitern von Saatkanten durch Betrachten von Kraftvektoren im Vektorfeld. Der Redner erörtert auch die Verwendung von Multiskalen-Musterabgleich und die mathematischen Schritte, die beim Anpassen von Linien an Sätze von Bildkoordinaten beteiligt sind. Schließlich wird ein Patent zur effizienten Berechnung mehrerer Skalen vorgestellt.

In Vorlesung 15 behandelt der Dozent verschiedene Techniken und Shortcuts zur effizienten Faltung, Filterung und Unterabtastung von Bildern. Diese umfassen das Annähern von Filterkernen unter Verwendung von stückweisen Spline-Polynomen, das Verwenden von Ableitungen als Faltungen, das Komprimieren von Bildern durch wiederholtes Bilden der dritten Differenz und das Kombinieren von Faltungen in x- und y-Richtung. Der Redner erwähnt auch die Bedeutung der Tiefpassfilterung vor der Bildabtastung, um Interferenzen und Aliasing in Bildern zu vermeiden.

  • 00:00:00 In diesem Abschnitt erläutert das Video ein weiteres Muster zum Auffinden von Objekten in zweidimensionalen Bildern namens PatMax. Es unterscheidet sich vom vorherigen Muster, PatQuick, indem es davon ausgeht, dass man bereits eine ungefähre Vorstellung davon hat, wo sich die Dinge befinden, und stattdessen darauf abzielt, diese Position schrittweise mit einem iterativen Ansatz der kleinsten Quadrate zu verbessern. Die Motivation für die Verwendung von PatMax war die Maximierung der Energie, inspiriert von den Kräften zwischen magnetischen Dipolen. Die Intuition hinter dem Ansatz war jedoch völlig falsch, und eine viel bessere Analogie wäre, Dinge mit einer Feder zu verbinden. Das Patent befasst sich teilweise auch mit der Ausrichtung und verweist auf andere Patente und Veröffentlichungen aus dem alten KI-Labor.

  • 00:05:00 In diesem Abschnitt erklärt das Video den Trainingsprozess eines Mustererkennungssystems mit Kantenerkennung, das Kantendipole erzeugt und ein zweidimensionales Vektorfeld erzeugt. Das System verwendet dann einen Attraktionsprozess, um iterativ eine gute Pose für ein Laufzeitbild zu finden, unter der Annahme, dass eine Startpose bereits erhalten wurde. Die Clientkarte wird verwendet, um Pixelpositionen, die sich nicht auf einem quadratischen Gitter befinden, einem quadratischen Pixelarray zuzuordnen, und es gibt Maßnahmen wie RMS-Fehler und Inspektionsauswertungen, die verwendet werden, um festzustellen, ob ein Objekt in gutem Zustand ist oder nicht. Schließlich beschreibt das Video, wie die Felddipolliste die Sonden erzeugt, die für die Ausrichtung mit dem Laufzeitbild verwendet werden.

  • 00:10:00 In diesem Abschnitt spricht der Dozent über die Verbesserung der Ausrichtung mithilfe eines auf dem Pixelraster erzeugten Felds. Die Pose ist das Gegenteil des vorherigen Patents, wobei die Merkmalserkennung auf dem Laufzeitbild statt auf dem Modell erfolgt. Der Zweck des Felds besteht darin, diskrete Ergebnisse aus dem Laufzeitbild zurück auf das Feld abzubilden, was es billiger macht, als das gesamte Bild zu transformieren, was beim vorherigen Patent der Fall war. Das Feld wird durch einen neuen Prozess erzeugt, der einen zu der Ausrichtung führt, wo Objekte im Laufzeitbild mit Objekten im Trainingsbild übereinstimmen. Die Vorlesung untersucht, wie das Feld verallgemeinert wird, und beleuchtet die verschiedenen Schritte, die bei der Berechnung des Feldes erforderlich sind.

  • 00:15:00 In diesem Abschnitt behandelt das Video den Vorgang des Initialisierens und Ausfüllens eines Entfernungsfelds für die Kantenerkennung, eine gängige Technik, die in der maschinellen Bildverarbeitung verwendet wird und als Entfernungskarte bezeichnet wird. Die Initialisierung besteht darin, Felddipolen einen Wert zu geben, der dem Abstand von der Kante zusammen mit ihrer Richtung entspricht. Der Prozess des Ausfüllens der restlichen Quadrate nahe der Kante ist ein iterativer Prozess, bei dem der Wert benachbarter Quadrate bestimmt und entsprechend der berechneten Geometrie angepasst wird. Das Abstandsfeld ist im Wesentlichen eine Rille entlang jeder Kante, die angibt, wie weit es von der Kante entfernt ist. Das ultimative Ziel besteht darin, dass jede Kante so verbunden wird, dass das System in einen niedrigeren Energiezustand übergeht.

  • 00:20:00 In diesem Abschnitt des Vortrags erörtert der Referent den Prozess der Erweiterung der gesäten Kanten, indem er benachbarte Pixel betrachtet und die Kraft und Richtung zur Kante mithilfe eines Vektorfelds berechnet. Sie erklären, dass manchmal die Winkel zwischen Kräften zu groß werden, was auf eine Ecke hinweist, und dass in solchen Fällen die Vektoren nicht mehr auf die ursprünglichen Kantenpixel zeigen. Zusätzliche Informationen, wie etwa Kontrastrichtung und Vektorrichtungen, können beim Abgleichprozess zum Verlängern der Kanten hilfreich sein. Ziel ist es, die Energie im System zu minimieren, ähnlich wie bei der Modellierung mit einem mechanischen Federsystem. Der Sprecher merkt an, dass es bei einer Kante oft schwierig ist, mit Sicherheit zu sagen, wie gut wir einen bestimmten Punkt auf der Kante abgleichen, was ein ausgefeilteres Modell zur Verfolgung erfordert.

  • 00:25:00 In diesem Abschnitt erörtert der Referent das mechanische Analogon, das den Algorithmus zur Merkmalserkennung unter Verwendung von Laufzeitbildern darstellt. Das System passt sich mithilfe einer Reihe von Kräften aus den vielen erkannten Merkmalen auf dem Bild an, und die mechanischen Federn werden nach außen gedehnt und mithilfe einer Skalentransformation angepasst. Das System berechnet dann Clutter und Coverage, um auszuwerten, wie gut das Laufzeitbild mit dem Modell übereinstimmt. Das ultimative Ziel für das System ist es, Energie zu reduzieren, indem alle Laufzeitdipole systematisch verschoben werden, und es beinhaltet ein großes System der kleinsten Quadrate mit einer natürlichen Berechnungsmethode unter Verwendung eines Satzes von Akkumulatoren.

  • 00:30:00 In diesem Abschnitt erörtert der Dozent verschiedene Aspekte des Musterabgleichs, einschließlich reiner Übersetzungs- und Übersetzungs- und Rotationsfälle. Der Dozent erklärt, dass der beim Mustervergleich verwendete Tensor ein mehrdimensionales Array ist, das Freiheitsgrade bei der Ausrichtung zulässt. Der Dozent spricht auch über Multi-Scale-Pattern-Matching, bei dem man mit niedriger Auflösung arbeitet, um eine Ausgangspose zu erhalten, und diese dann verwendet, um einen hochauflösenden Pattern-Matching durchzuführen. Der Dozent weist darauf hin, dass die Mustervergleichsmethode auf eine Reihe von Geräten angewendet werden kann, die für praktische Zwecke verwendet werden, von Fernsehkameras bis hin zu Elektronenmikroskopen. Abschließend erörtert der Dozent die Patentansprüche und stellt fest, dass Anspruch 1 sehr weit gefasst ist und wahrscheinlich vom Stand der Technik in Frage gestellt wird, die abhängigen Ansprüche jedoch spezifischere Einzelheiten enthalten.

  • 00:35:00 In diesem Abschnitt des Vortrags diskutiert der Referent ein Patent für einen Ausrichtungsprozess, der von mehreren Komponenten abhängt, einschließlich Fehlerwerten mit niedriger Auflösung und anfänglichen Schätzungen. Der als PatMax bezeichnete Prozess durchsucht den gesamten Posenraum mit einer niedrigen Auflösung, ohne dass eine erste Vermutung erforderlich ist, im Gegensatz zu dem diskutierten Patent, das eine erste Vermutung erfordert und einen Erfassungsbereich hat. Der Posenraum für diesen Vorgang ist aus rechnerischen Gründen umgekehrt zu PatMax. Der Ausrichtungsprozess vermeidet Schwellwertbildung und Quantisierung auf Pixelebene und konzentriert sich stattdessen auf die Subpixelgenauigkeit. Der Lautsprecher berührt auch ein physikalisches Analogon mit mechanischen Federn.

  • 00:40:00 In diesem Abschnitt erörtert der Referent den Prozess der Objektinspektion und wie er den Abgleich und die Bestimmung der Transformation zwischen trainierten und Laufzeitbildern beinhaltet. Die Inspektion basiert auf fehlenden und zusätzlichen Merkmalen im Laufzeitbild im Vergleich zum trainierten Bild und auf Störungen im Bild aufgrund der Hintergrundtextur. Auch die Erzeugung des Distanzfeldes wird erläutert, wobei der Schwerpunkt darauf liegt, wie es sich verändert, wenn Kanten und Ecken im Bild vorhanden sind. Der Prozess der Berechnung der Distanztransformation wird diskutiert, einschließlich der Herausforderungen beim Arbeiten in einer diskreten Welt und der Möglichkeiten, die euklidische Distanz schnell und effizient zu approximieren.

  • 00:45:00 In diesem Abschnitt der Vorlesung wird das Konzept diskutiert, lokale Kräfte zu addieren, um eine Translations- oder Rotationsausrichtung bereitzustellen. Die Gewichte können vordefiniert sein oder unter anderen Variationen von der Gradientengröße oder dem Felddipol abhängen. Das Drehmoment um ein Zentrum wird verwendet, um eine Drehung bereitzustellen, und die z-Komponente des Kreuzprodukts zweier Vektoren in einer Ebene kann verwendet werden, um einen Skalar für das Drehmoment bereitzustellen. Die Vorlesung beschreibt dann den Abstand zu einer Linie und erklärt die Drehung in ein Koordinatensystem, das an einer Linie ausgerichtet ist, um die x- und y-Primzahlen zu berechnen.

  • 00:50:00 In diesem Abschnitt erörtert der Sprecher die Verwendung der beiden Parameter Rho und Theta bei der Parametrisierung der Linienfamilie in der Ebene, die eine Familie mit zwei Parametern ist. Diese Parametrisierung ist bei der Linienanpassung nützlich, bei der das Ziel darin besteht, eine Linie zu finden, die mit hoher Genauigkeit zu den Kantenpunkten passt. Der Referent erklärt, wie man mithilfe von Analysis den quadrierten Abstand minimiert, und zeigt, wie x-Balken und y-Balken, die durchschnittlichen Schwerpunkte der Punkte auf der Linie, mit Rho und Theta in Beziehung gesetzt werden. Darüber hinaus berührt der Vortrag das Verschieben von Koordinaten zum Schwerpunkt und das Auffinden starker Beziehungen zwischen Theta und Rho, um die Parameter der Linie zu bestimmen.

  • 00:55:00 In diesem Abschnitt erklärt der Dozent die mathematischen Schritte zum Finden der Lösung der kleinsten Quadrate zum Anpassen einer Linie an einen Satz von Bildkoordinaten unter Verwendung der Hesse-Normalformgleichung. Indem die Ableitung nach Theta gebildet und auf Null gesetzt wird, erhält man eine Lösung mit Sinus und Cosinus des doppelten Winkels, die durch trigonometrische Identitäten vereinfacht werden kann. Dieses Verfahren wird gegenüber dem Anpassen von y gleich mx plus c bevorzugt, da es unabhängig von der Wahl des Koordinatensystems ist und zum Kombinieren von kurzen Kantenfragmenten zu längeren Kantenfragmenten verwendet werden kann. Der Dozent stellt dann ein Patent zur effizienten Berechnung mehrerer Skalen durch Vermeidung teurer Faltung vor.

  • 01:00:00 In diesem Abschnitt spricht der Dozent über effiziente Methoden zur Berechnung von Filtern für Multiskalenzwecke. Der Trick besteht darin, einen Kernel mit einem stückweisen Spline-Polynom zu approximieren und die n plus erste Differenz zu nehmen, was es einfach macht, mit Null zu falten, was zu einem spärlichen Kernel mit kleiner Unterstützung führt. Die Vorlesung behandelt auch die n plus erste Summe, die die Umkehrung der n plus erste Differenz ist, und die Eigenschaften von Faltungen und Differentiationen. Insgesamt gibt der Vortrag Einblicke in Shortcuts und Tricks, um die Faltung großer Bilder mit großen Kerneln einfacher und effizienter zu gestalten.

  • 01:05:00 In diesem Abschnitt diskutiert der Dozent die Eigenschaften und Vorteile der Faltung, insbesondere wie Ableitungen als Faltungen behandelt werden können, wenn Verteilung statt Funktionen erlaubt sind. Dies ermöglicht die Nutzung von Faltungseigenschaften wie Kommutativität und Assoziativität, die bei der Signalverarbeitung sehr leistungsfähig sein können. Der Dozent beschreibt auch ein Beispiel für die Verwendung von Faltung, um ein Muster spärlich und kostengünstig zu falten, was das Berechnen von Ableitungen und das Finden der Stellen mit Nicht-Null-Werten beinhaltet. Es müssen nur zwei Werte gefaltet werden, was ein erheblicher Vorteil ist.

  • 01:10:00 In diesem Abschnitt erklärt der Dozent die Technik, die dritte Differenz eines Bildes zu nehmen, um es zu komprimieren. Durch wiederholtes Nehmen der dritten Differenz wird ein kleiner und spärlicher Satz von Werten erzeugt, wodurch die Berechnung im Vergleich zur Verwendung des vollständigen Originalbilds reduziert wird. Dies kann verwendet werden, um die Bandbreite und den Maßstab des Filters zu steuern, ohne den erforderlichen Rechenaufwand zu ändern. Der Dozent demonstriert diese Technik anhand einer eindimensionalen Funktion und zeigt dann ein Beispiel mit einer Parabel, bei der die Enden aufgrund einer Diskontinuität komplizierter sind.

  • 01:15:00 In diesem Abschnitt der Vorlesung werden verschiedene Filtertechniken diskutiert, um die Effizienz von Berechnungen in Subsampling-Bildern zu verbessern und gleichzeitig Aliasing-Artefakte zu vermeiden. Die Verwendung eines Splines zur Approximation von Filtern wie der Gaußschen und der Sync-Funktion wird untersucht, wobei der Schwerpunkt auf der Reduzierung der Rechenzeit und der Anzahl von Nicht-Null-Werten liegt. Zusätzlich wird eine Technik zum Kombinieren von Faltungsoperationen sowohl in der x- als auch in der y-Richtung vorgestellt, die weniger Zwischenspeicher benötigt und eine effizientere Kaskade von 1D-Faltungen ermöglicht. Die Relevanz dieser Themen für die Kantenerkennung und die Multiskalen-Bildverarbeitung wird hervorgehoben.

  • 01:20:00 In diesem Abschnitt diskutiert der Redner einen Calcitkristall, der doppelbrechend ist und je nach Polarisation zwei Brechungsindizes hat, wodurch zwei Kopien eines Bildes sehr nahe beieinander erscheinen. Dies wird in Kameras verwendet, um Inhalte mit höheren Frequenzen zu unterdrücken und die Abtastung zu verbessern. Das Entfernen dieses Filters kann jedoch zu Interferenzen und Aliasing in Bildern sowie zu Farb- und Formänderungen von gefilmten Objekten führen. Der Redner merkt an, dass Verbesserungen bei der Tiefpassfilterung vor der Bildabtastung diese Probleme verringert haben, es aber dennoch wichtig ist, die Auswirkungen von Aliasing bei der Bildgebung zu berücksichtigen.
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US Patent 6457032)



Vorlesung 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US Patent 6457032)

Die Vorlesung behandelt verschiedene Themen der Signalverarbeitung, darunter Bandbegrenzung, Aliasing, Tiefpassfilternäherungen, Unschärfe, das Integralbild, Fourieranalyse und Faltung. Der Sprecher betont die Bedeutung der Tiefpassfilterung der Signale vor dem Abtasten, um Aliasing-Artefakte zu vermeiden. Die Vorlesung stellt auch die Idee des integralen Bildes vor, das die Summe der Pixel innerhalb eines Blocks effizient berechnet, und verschiedene Techniken, um den Rechenaufwand bei der Approximation von Tiefpassfiltern zu reduzieren. Abschließend behandelt die Vorlesung die bikubische Interpolation, die zur Approximation der sinc-Funktion verwendet wird, und deren Rechenaufwand.

In diesem Vortrag diskutiert der Referent verschiedene Themen rund um Faltung, Tiefpassfilternäherungen und Integralbilder. Sie erklären verschiedene Implementierungen der Faltung, einschließlich einer Methode, die Rechenzeit spart, indem Werte von links nach rechts addiert und subtrahiert werden, um den Durchschnitt zu erhalten. Die Grenzen der linearen Interpolation für Tiefpassfilter-Approximationen und ihre Unterlegenheit im Vergleich zu fortgeschritteneren Methoden wie der kubischen Interpolation werden ebenfalls diskutiert. Das Konzept einer Pillbox und ihr Wert bei der Begrenzung von Frequenzbereichen wird vorgestellt, und der Referent spricht über das ideale Tiefpassfilter und wie sich die Defokussierung auf die Bessel-Funktion auswirkt. Der Vortrag geht auch auf die Verwendung von Tiefpassfilter-Approximationen für DSLR-Kameraobjektive und das Konzept der Photogrammetrie ein.

  • 00:00:00 In diesem Abschnitt erörtert der Sprecher Sampling-Wellenformen und die Bedeutung ihrer Bandbegrenzung. Beim Sampling einer Wellenform ist es überraschend, dass wir etwas davon erfassen können, da die Wellenform unendlich unterstützt wird und wir nur diskrete Samples erhalten. Wenn jedoch der Frequenzinhalt begrenzt ist, besagt das Nyquist-Theorem, dass wir ihn vollständig rekonstruieren können, indem wir mit einer ausreichend hohen Frequenz abtasten. Das Kriterium ist, dass wir schnell genug abtasten, so dass die höchste Frequenzkomponente des Signals kleiner als fs über zwei ist. Letztendlich ist die Bandbegrenzung von Bedeutung, da sie es uns ermöglicht, die Essenz einer Wellenform zu erfassen, ohne Aliasing-Artefakte zu erhalten.

  • 00:05:00 In diesem Abschnitt wird das Konzept des Aliasing in der Signalverarbeitung erklärt. Aliasing tritt auf, wenn ein Frequenzinhalt oberhalb einer bestimmten Schwelle abgetastet wird und nicht von einem niedrigeren Frequenzinhalt zu unterscheiden ist. Dies kann nicht nach dem Sampling behoben werden, sondern muss vorher durch Unterdrücken von Inhalten mit höheren Frequenzen erfolgen. Dazu ist es wichtig, das Signal vor der Abtastung tiefpasszufiltern. Eine echte Tiefpassfilterung ist jedoch schwer zu erreichen, daher müssen Annäherungen gemacht werden.

  • 00:10:00 In diesem Abschnitt des Vortrags diskutiert der Referent das Konzept der Unschärfe durch Methoden wie Presampling-Filterung und stellt die Idee des integralen Bildes vor. Er erklärt, dass ein Boxcar-Filter verwendet werden kann, um eine Blockmittelung durchzuführen, bei der die Summe der Pixel innerhalb eines Blocks berechnet wird, aber diese Methode kann rechenintensiv sein. Um dies anzugehen, kann ein integrales Bild sowohl in 1D- als auch in 2D-Fällen verwendet werden, um die Summe effizienter zu berechnen. Das Integralbild ist nicht nur auf Bilder beschränkt, da es auch für andere Arten von Matrizen wie Integralgradienten funktionieren kann.

  • 00:15:00 In diesem Abschnitt erklärt der Dozent, wie man die Summe eines Rechtecks aus dem Integralbild berechnet. Der Dozent zeigt, dass wir mit vier Speicherzugriffen und drei Rechenoperationen für jeden Block und unabhängig von seiner Größe die Summe bekommen können. Diese Technik kann zur Erkennung und Blockierung der Mittelung verwendet werden. Der Dozent spricht auch über Fourier-Analyse und wie man einen Block mit einem gleitenden Durchschnitt mittelt.

  • 00:20:00 In diesem Abschnitt des Vortrags diskutiert der Referent die Nachteile der Verwendung der Sinc-Funktion als Näherung für einen Tiefpassfilter. Die sinc-Funktion dämpft hohe Frequenzen nicht aggressiv genug und erreicht die erste Null nicht schnell genug, was sie zu einer schlechten Wahl für Tiefpassfilter-Approximationen macht. Diese Diskussion ist besonders relevant für Kameras, die vor dem Abtasten eine Filteroperation durchführen, und Blockmittelung wird als mögliche Alternative zur sinc-Funktion vorgeschlagen. Die Blockmittelung ist billig zu berechnen und kann zweimal durchgeführt werden, in der Hoffnung, eine bessere Annäherung an einen Tiefpassfilter zu erhalten.

  • 00:25:00 In diesem Abschnitt erörtert der Dozent die Eigenschaften von Filtern im Transformationsbereich und ihre Beziehung zu Stufenunterbrechungen in Bildern. Der Dozent erklärt, dass die Transformation einer Stufenfunktion als Eins über der Frequenz abfällt, was bedeutet, dass Bilder mit Stufenunterbrechungen einen hochfrequenten Inhalt erzeugen, der nicht schnell abfällt. Der Dozent merkt an, dass dies ein Problem bei der diskreten Fourier-Transformation ist, da sie davon ausgeht, dass die Daten periodisch sind, und daher Stufenflankendiskontinuitäten einführt, wenn die Daten umlaufen. Um damit umzugehen, schlägt der Dozent Apodizing vor, bei dem das Bild mit einer Wellenform multipliziert wird, damit die Enden übereinstimmen. Ein üblicher Apodisierungsfilter ist eine invertierte Cosinus-Wellenform.

  • 00:30:00 In diesem Abschnitt behandelt das Video verschiedene Ansätze zum Umgang mit dft, die auf Bilder angewendet werden, wobei einer darin besteht, anzunehmen, dass sich die Außenseite des Bildes periodisch wiederholt oder ein Spiegelbild ist, obwohl dies keine perfekte Lösung ist aufgrund der Möglichkeit einer derivativen Diskontinuität. Ein weiterer diskutierter Ansatz ist die Tiefpassfilterung mit einem Näherungsfilter. Das Video berührt dann bestimmte Eigenschaften, die für eine ungefähre Tiefpassfilterung benötigt werden, wie z. B. die Sieb-Eigenschaft des Einheitsimpulses und Verteilungen.

  • 00:35:00 In diesem Abschnitt des Vortrags diskutiert der Referent den Einheitsimpuls und seine Beziehung zur Faltung. Während der Einheitsimpuls mathematisch nicht korrekt als Grenze der Faltung definiert werden kann, kann er verwendet werden, um den Effekt der Faltung mit dem Einheitsimpuls zu bestimmen, indem seine Faltung berechnet und die Grenze genommen wird, wenn Epsilon gegen Null tendiert. Der Referent merkt an, dass Faltung mit Ableitungen verbunden werden kann und dass lineare verschiebungsinvariante Operatoren und Ableitungsoperatoren eng miteinander verwandt sind. Sie erklären, dass Ableitungen im Wesentlichen als Faltungen behandelt werden können, wobei eine der beiden Faltungen umgedreht wird.

  • 00:40:00 In diesem Abschnitt erörtert der Dozent Tiefpassfilter-Näherungen und wie sie die in Kameras verwendete Pixelmittelungsmethode verbessern können. Er erklärt, dass vor dem Abtasten im analogen Bereich eine zusätzliche Tiefpassfilterung durchgeführt werden muss, und schlägt vor, doppelbrechende Materialien zu verwenden, um einen speziellen Filter zu erstellen. Dieser Filter beinhaltet zwei verschobene Bilder, die als Faltung mit Impulsen modelliert werden, was zu zwei leicht verschobenen Versionen des ursprünglichen Bildes führt. Bei der Analyse mit einer Fourier-Transformation fällt der Filter nicht mit der Frequenz ab, sondern bei Pi über Epsilon, was die Auswahl des geeigneten Epsilon-Werts ermöglicht.

  • 00:45:00 In diesem Abschnitt erörtert der Dozent das Konzept von Tiefpassfiltern und stellt eine Technik zum Abschneiden hoher Frequenzen unter Verwendung einer Platte vor, die dicker als der Pixelabstand ist. Diese Platte schneidet hohe Frequenzen ab, lässt aber andere Frequenzen ungeschnitten. Der Dozent erklärt, dass die Verwendung dieses extrem einfachen Anti-Aliasing-Filters zusammen mit dem Blockmittelungsfilter Moiré-Effekte reduzieren kann, die durch hochfrequente Inhalte in Bildern verursacht werden. Der Dozent stellt dann die Idee des Patents und des integralen Bildes vor, die darauf abzielt, die Berechnung für eine gute Tiefpassfilterung zu reduzieren und gleichzeitig die Größe der Unterstützung zu minimieren. Der Dozent demonstriert die Darstellung der Integration mittels Faltung und liefert die Fourier-Transformation des Einheitsimpulses.

  • 00:50:00 In diesem Abschnitt konzentriert sich das Video auf das Konzept der Faltungen und ihre Beziehung zur Differenzierung und Integration im Bereich der Fourier-Transformation. Es wird erklärt, dass eine zweite Ableitung durch Faltung von Ableitungen oder Impulsen der ersten Ebene erhalten werden kann. Dieses Konzept wird auf den Filterprozess angewendet, bei dem ein Filter in Abschnitte aufgeteilt werden kann, um die Berechnung zu reduzieren, wenn er spärlich ist, was auftritt, wenn mit konstanten Funktionen oder Polynomnäherungen gearbeitet wird. Durch Integrieren oder Summieren der Faltungsergebnisse mit einem Sparse-Filter kann die gewünschte Antwort effizient mit weniger Berechnungen erhalten werden.

  • 00:55:00 In diesem Abschnitt geht der Dozent auf die Approximation der Sinc-Funktion ein, die für einen Tiefpass ideal ist, aber ewig geht und daher nicht vollständig dargestellt werden kann. Die Vorlesung führt in die bikubische Interpolation für 2D-Bilder ein, bei der Pixel gedreht werden und interpoliert werden müssen. Das Verfahren beinhaltet die Verwendung von vier Teilen, wobei die Kurve durch eine Kubik beschrieben wird. Die vierte Ableitung wird zum Filtern verwendet, und das Ergebnis ist weitaus besser als die Verwendung der nächsten Nachbar- oder linearen Interpolation. Es wird erklärt, dass es Rechenkosten gibt, um die Sync-Funktion zu approximieren, was sie für die Verwendung unpraktisch macht.

  • 01:00:00 In diesem Abschnitt wird ein Blockmittelungsbeispiel verwendet, um die naive Implementierung der Faltung zu veranschaulichen, indem ein Block entlang verschoben und alles, was sich unter dem Block befindet, addiert wird. Es wird gezeigt, dass eine andere Implementierung beim Blockieren über größere Segmente erheblich an Rechenzeit spart, indem Werte von links nach rechts addiert und dann subtrahiert werden, um den Durchschnitt zu erhalten. Es wird auch die lineare Interpolation diskutiert, die man sich als Faltung vorstellen kann, indem eine Funktion erstellt wird, die die Punkte auf einem diskreten Gitter mit geraden Linien verbindet.

  • 01:05:00 In diesem Abschnitt geht der Referent auf das lineare Interpolationsverfahren für Tiefpassfilter-Approximationen und seine Grenzen ein, insbesondere in Bezug auf Änderungen bei Rausch- und Bildmessungen. Er erklärt, dass die Methode die Faltung von zwei Boxcars beinhaltet, was eine lineare Funktion ist, die die Sync-Funktion nachahmt. Er stellt auch fest, dass dieses Verfahren fortgeschritteneren Verfahren wie dem kubischen Interpolationsverfahren für Tiefpassfilternäherungen unterlegen ist. Außerdem erklärt er, dass die Näherungsmethode des nächsten Nachbarn eine stückweise konstante Funktion ist, die noch ungenauer ist als die lineare Methode.

  • 01:10:00 In diesem Abschnitt des Vortrags diskutiert der Referent das Konzept von Tiefpassfilternäherungen und Integralbildern im Kontext der Faltung. Sie erklären, wie die Nächste-Nachbar-Interpolation der Faltung mit einem Boxcar entspricht, und erklären die Vorteile der Verwendung eines rotationssymmetrischen Koordinatensystems für natürliche Bilder. Anschließend führen sie das Konzept einer Pillbox und ihren Wert bei der Begrenzung von Frequenzbereichen ein. Die inverse Transformation einer Pillbox ist ebenfalls rotationssymmetrisch und variiert entsprechend der Bessel-Funktion, die üblicherweise in der Optik verwendet wird.

  • 01:15:00 In diesem Abschnitt geht der Dozent auf den idealen Tiefpassfilter ein, der die Antwort der Spreizfunktion auf einen Impuls ist. Die erste Null dieser Funktion, die sich von der der Sync-Funktion unterscheidet, wird für die Auflösung basierend auf den Aries-Auflösungskriterien verwendet. Bei Unschärfe zeigt der Dozent, dass sich die Spreizfunktion in die Pillbox ändert, und dies wird im Ortsfrequenzbereich zur Bessel-Funktion. Er kommt dann zu dem Schluss, dass die Defokussierung den Fokus beeinflusst, indem die Bessel-Funktion geändert wird.

  • 01:20:00 In diesem Abschnitt des Vortrags diskutiert der Referent die Verwendung von Tiefpassfilternäherungen und die daraus resultierende Verringerung des Hochfrequenzanteils, was dazu führen kann, dass einige Frequenzen aufgrund des Vorhandenseins von Nullen vollständig getötet werden. Der Referent spricht auch darüber, wie man die Schrittweite eines DSLR-Kameraobjektivs bestimmt, indem man den Frequenzbereich betrachtet, sowie den Effekt, dass zwei perspektivische Projektionen hintereinander nicht derselbe sind wie eine einzelne perspektivische Projektion. Schließlich wird das Konzept eingeführt, leicht unscharfe Bilder zu nehmen und sie zu falten, um festzustellen, ob ein Bild modifiziert wurde oder nicht.

  • 01:25:00 In diesem Abschnitt erörtert der Dozent das Konzept der Faltung und seine Beziehung zur Multiplikation im Frequenzbereich. Sie erklären, wie die Verwendung einer Pillbox-Funktion das Falten eines Bildes ermöglicht, weisen jedoch darauf hin, dass das Multiplizieren von defokussierten Bildern keine genauen Ergebnisse liefert. Der Vortrag geht dann in das Thema Photogrammetrie über, bei der Bilder verwendet werden, um 3D-Informationen über Objekte und ihren Standort zu erstellen, indem Merkmale wie Kanten zwischen Bildern abgeglichen werden, um den Standort der Kamera zu bestimmen.
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 17: Photogrammetrie, Orientierung, Trägheitsachsen, Symmetrie, Orientierung



Vorlesung 17: Photogrammetrie, Orientierung, Trägheitsachsen, Symmetrie, Orientierung

Diese Vorlesung behandelt verschiedene Themen im Zusammenhang mit Photogrammetrie, darunter Tiefenhinweise, Kamerakalibrierung und die Erstellung der Transformation zwischen zwei Koordinatensystemen. Der Referent erläutert die Herangehensweise an das Problem, die Koordinatentransformation zwischen zwei Systemen durch entsprechende Messungen zu finden, und betont die Wichtigkeit, auf die exakte Inverse der Transformation zu prüfen. Die Vorlesung behandelt auch das Finden der Trägheitsachsen im 2D- und 3D-Raum und das Bestimmen des Abstands zwischen zwei auf eine Achse projizierten Punkten. Insgesamt bietet der Abschnitt einen umfassenden Überblick über die Photogrammetrie und ihre Anwendungen.

Die Photogrammetrie erfordert den Aufbau eines Koordinatensystems auf einer Punktwolke in linken und rechten Koordinatensystemen und die Verknüpfung der beiden. Der Dozent erklärt, wie man die Trägheitsmatrix bzw. die Trägheitsachsen bestimmt und die Basisvektoren ermittelt. Sie diskutieren auch die Herausforderungen symmetrischer Objekte und die Eigenschaften der Rotation, wie z. B. die Erhaltung von Skalarprodukten, Längen und Winkeln. Darüber hinaus behandelt die Vorlesung, wie das Problem der Rotationsfindung vereinfacht werden kann, indem die Translation eliminiert und der Fehlerterm minimiert wird. Abschließend erklärt der Dozent, wie man zwei Objekte mit ähnlichen Formen mithilfe der Vektorrechnung ausrichtet und schlägt vor, andere Darstellungen für die Rotation zu untersuchen.

  • 00:00:00 In diesem Abschnitt führt der Referent in die Photogrammetrie ein, bei der dreidimensionale Oberflächen anhand von Bildern vermessen und rekonstruiert werden. Das Feld hat seine Wurzeln in der Kartenerstellung und wurde nach der Erfindung der Fotografie populär. Der Referent diskutiert vier klassische Probleme aus der Photogrammetrie, darunter das Auffinden der Beziehung zwischen zwei unterschiedlichen Koordinatensystemen sowie das Auffinden der Beziehung zwischen einem einzelnen Koordinatensystem und Objekten, die sich bewegen oder ändern können. Der Referent merkt an, dass sich maschinelles Sehen zwar oft mehr mit dem zweiten Problem beschäftigt, nämlich der Wiederherstellung der dritten Dimension aus zweidimensionalen Bildern, es jedoch vorteilhaft sein kann, das 3D-Problem aufgrund seiner geschlossenen Formlösung zuerst anzugehen.

  • 00:05:00 In diesem Abschnitt erklärt der Dozent die zwei Anwendungsarten der Photogrammetrie: 2D zu 3D und 3D zu 2D. Ersteres beinhaltet die Gewinnung dreidimensionaler Informationen aus Bildern und die Bestimmung der Beziehung zwischen zwei Kameras im Raum, um sie auszurichten. Letzteres umfasst die Kamerakalibrierung, die für präzise Messungen mit Kameras erforderlich ist, und die Erstellung topografischer Karten durch die Aufnahme regelmäßiger Bildintervalle aus einer Ebene. Der Dozent bespricht auch verschiedene Tiefenhinweise, darunter binokulares Stereo, was die Fähigkeit ist, Tiefe mit zwei Augen wahrzunehmen.

  • 00:10:00 In diesem Abschnitt erklärt der Dozent, wie zwei Kameras verwendet werden können, um Tiefenhinweise mit ähnlichen Dreiecken zu erstellen. Indem ein Objekt in beiden Kameras abgebildet und die resultierenden Bilder verglichen werden, kann die Differenz zwischen den Positionen verwendet werden, um die Tiefe des Objekts zu berechnen. Der Vortrag weist auch darauf hin, dass Disparitäten im Bild zur Berechnung der Tiefe verwendet werden können, da die Entfernung umgekehrt proportional zur Disparität ist. Schließlich berührt der Abschnitt das Thema Fehleranfälligkeit und wie große Fehler aus kleinen Abweichungen bei der Messung der Disparität resultieren können.

  • 00:15:00 In diesem Abschnitt des Videos geht der Dozent auf Photogrammetrie und die Vermessung von 3D-Positionen mit zwei Kameras ein. Sie erklären, dass eine Erhöhung der Basislinie oder der Brennweite die Messgenauigkeit verbessern kann, aber es gibt Einschränkungen bei diesen Größen, wie z. B. sicherzustellen, dass die Kameras nicht zu weit voneinander entfernt sind. Sie erwähnen auch die Herausforderung, die Kameras zu kalibrieren, wenn sie nicht perfekt in einer bestimmten Geometrie ausgerichtet sind. Der Dozent geht dann auf das Thema der absoluten Orientierungen ein und wie man die Orientierung von Geräten wie Lidar oder Luftbildkameras kompensieren kann, die möglicherweise keine konstante Einstellung beibehalten. Schließlich stellen sie fest, dass die Diskussion vom Vorhandensein interessanter Punkte in den Bildern ausgeht, wobei das Zuordnungsproblem außer Acht gelassen wird.

  • 00:20:00 In diesem Abschnitt erklärt der Dozent, wie man die Rotation und Translation zweier Koordinatensysteme findet, um Strahlen in 3D zu projizieren und den Schnittpunkt zwischen ihnen zu finden. Er verwendet das Beispiel von Punkten, die sowohl in einem linken als auch in einem rechten Koordinatensystem gemessen wurden, und weist darauf hin, dass dies für zwei beliebige Koordinatensysteme unabhängig von ihren Bezeichnungen gelten könnte. Der Dozent betont die Notwendigkeit von sechs Zahlen, um die Transformation vollständig zu spezifizieren, drei für Rotation und drei für Translation, und erklärt, dass es jeweils drei Freiheitsgrade gibt. Er schreibt die Transformationsformel und betont, dass die Drehung nicht als orthonormale Matrix dargestellt werden muss.

  • 00:25:00 Die Vorlesung behandelt die Eigenschaften der Rotation und der orthonormalen Matrix, die für das Verständnis der Berechnung der Rotation und Translation von Objekten unerlässlich ist. Die Vorlesung spricht auch darüber, wie das Erzwingen der Orthonormalitätsbeschränkung Reflexionen eliminiert und wie die Inverse einer Rotationsmatrix leicht erhalten werden kann. Zur besseren Visualisierung, wie die Punkte aus dem linken und rechten Koordinatensystem überlagert und ausgerichtet werden können, wird auch ein physikalisches Modell vorgestellt.

  • 00:30:00 In diesem Abschnitt geht der Referent auf die Herangehensweise an das Problem ein, die Koordinatentransformation zwischen zwei Systemen durch entsprechende Messungen zu finden. Dieses Problem kann nach der Methode der kleinsten Quadrate angegangen werden, wobei das Ziel darin besteht, den Abstand zwischen dem transformierten Vektor im linken Koordinatensystem und dem rechten Koordinatensystem zu minimieren. Dies kann als Energieminimierungsproblem betrachtet werden, bei dem das System versucht, sich selbst anzupassen, um Energie zu minimieren. Der Referent betont, wie wichtig es ist, zu überprüfen, ob die Transformation vom rechten System nach links die exakte Umkehrung der Transformation vom linken System nach rechts ist. Das Trennen der Translations- und Rotationsprobleme vereinfacht das Problem auf nur drei Freiheitsgrade gleichzeitig.

  • 00:35:00 In diesem Abschnitt erklärt der Referent, wie man ein Koordinatensystem konstruiert, indem man Punkte auf einem Objekt misst. Der erste Schritt besteht darin, einen Punkt als Ursprung auszuwählen und ihn mit einem zweiten Punkt zu verbinden, um eine Achse zu erstellen. Die Trennung zwischen den ersten beiden Punkten wird normalisiert, um die x-Achse zu erstellen, und ein dritter Punkt wird verwendet, um die xy-Ebene zu definieren. Die y-Achse wird erstellt, indem die Komponente des Vektors vom ersten Punkt zum dritten Punkt in Richtung der x-Achse entfernt wird und der resultierende Vektor senkrecht zum Original steht. Die z-Achse ist als Kreuzprodukt von x und y definiert, da sie senkrecht auf beiden Vektoren steht. Dieser Prozess ermöglicht die Erstellung eines Koordinatensystems und die Messung von Punkten in beiden Koordinatensystemen für ein Objekt.

  • 00:40:00 In diesem Abschnitt erklärt der Sprecher, wie man ein Koordinatensystem erstellt und nach Rotation auflöst. Dazu verwenden sie einen Dreiklang von Einheitsvektoren, um ein Koordinatensystem für links und rechts zu definieren. Dann nehmen sie beide Wolkenpunkte, bauen eine Achse und bilden die Einheitsvektoren aufeinander ab, um eine Transformation zu finden, die sie zusammenfügt. Sie verwenden dann eine 3x3-Matrix, um die einzelnen Gleichungen zusammenzufügen und für die Rotation aufzulösen. Sie erwähnen, dass durch das Entfernen der Übersetzung nur noch drei Freiheitsgrade zu finden sind.

  • 00:45:00 In diesem Abschnitt erörtert der Referent die Beschränkungen, die beim Abbilden von Punkten zwischen Koordinatensystemen in der Photogrammetrie auftreten. Während drei Übereinstimmungen zwischen zwei Systemen für eine Lösung mit nur drei Unbekannten ausreichend erscheinen mögen, bedeuten Vektorgleichheiten, dass jede Einschränkung drei Punkte wert ist. Somit haben wir neun Einschränkungen. Die Rotation hat jedoch nur drei Freiheitsgrade, was zu einem Informationsüberschuss führt. Der Sprecher diskutiert dann eine Ad-hoc-Lösung, bei der Punkte für die Transformation selektiv ausgewählt werden, was ungenau ist. Eine andere Lösung beinhaltet die Verwendung der Singulärwertzerlegung (SVD), um die optimale Transformationsmatrix zu finden, die die Informationen aus allen Korrespondenzen gleichmäßig gewichtet.

  • 00:50:00 In diesem Abschnitt erörtert der Dozent das Konzept, die Trägheitsachsen im 2D- und 3D-Raum zu finden. Er erklärt, dass die Achsen mit minimaler Trägheit gefunden werden können, indem das Integral des Abstands zum Quadrat mal der Masse berechnet wird, während die senkrechte Achse eine maximale Trägheit hat, und in 3D gibt es eine dritte Achse, die ein Sattelpunkt ist. Er erklärt, dass, wenn diese Achsen identifiziert werden, ein Koordinatensystem für das betreffende Objekt erstellt werden kann. Die Formel zum Ermitteln des Abstands von der Achse zum Ursprung wird ebenfalls besprochen, zusammen mit der Auswahl des Schwerpunkts als Ursprung, um das Problem des Ermittelns der Translation vom Problem des Ermittelns der Drehung zu trennen.

  • 00:55:00 In diesem Abschnitt erklärt der Referent, wie man den Abstand zwischen zwei Punkten, r und r prime, projiziert auf eine Omega-Achse, bestimmt. Die Formel für die Trägheit wird aus diesem Abstand abgeleitet und variiert, wenn die Achse die Richtung ändert. Der Sprecher vereinfacht dann die Formel unter Verwendung von Punktprodukten, Assoziativität der Multiplikation und der Identitätsmatrix. Die resultierende Formel zeigt, dass die Trägheit gleich dem Skalarprodukt von r mit sich selbst multipliziert mit der Identitätsmatrix und integriert über das Volumen des Objekts ist.

  • 01:00:00 In diesem Abschnitt erklärt der Dozent, wie man ein Koordinatensystem auf einer Punktwolke in einem linken und einem rechten Koordinatensystem aufbaut und die beiden dann in Beziehung setzt. Dies erfolgt durch Berechnung der Trägheitsmatrix oder der Trägheitsachsen, die ein einfaches Eigenwert-Eigenvektorproblem für eine Drei-mal-Drei-Matrix ist. Es werden drei Achsen gefunden, die senkrecht zueinander stehen – die Maximum-, Minimum- und Sattelachse. Diese Achsen werden verwendet, um die Basisvektoren festzulegen, und das gleiche Verfahren wird für das rechte Koordinatensystem durchgeführt. Die Methode, die dazu verwendet wird, ist ein Problem der kleinsten Quadrate, da es alle Punkte gleich behandelt und das Problem minimiert.

  • 01:05:00 In diesem Abschnitt der Vorlesung geht der Referent auf die Grenzen von Ad-hoc-Methoden in der Photogrammetrie beim Umgang mit symmetrischen Objekten ein. Der Referent erklärt, dass einige Objekte wie Kugeln, Tetraeder und Oktaeder in alle Richtungen die gleiche Trägheit haben, was es schwierig macht, ihre Orientierung mit einer Ad-hoc-Methode zu bestimmen, die auf Dehnung beruht. Darüber hinaus merkt der Sprecher an, dass die Verwendung von Korrespondenzen zur Bestimmung der Ausrichtung ein genauerer, aber anspruchsvollerer Ansatz ist, da dies die Kenntnis der Ausrichtung jedes Punktes erfordert. Der Referent erklärt auch die Eigenschaften der Rotation, einschließlich der Erhaltung von Skalarprodukten, Längen und Winkeln.

  • 01:10:00 In diesem Abschnitt diskutiert der Professor das Dreifachprodukt von Vektoren, das das Volumen eines Parallelepipeds ist, das durch diese Vektoren gebildet wird. Wenn diese Vektoren gedreht werden, bleibt ihr Volumen erhalten, wenn die Drehung keine Reflexion ist. Eine Spiegelung würde das Vorzeichen des Tripelprodukts und damit die Lautstärke ändern, was zu einer Linkshandregel anstelle einer Rechtshandregel führen würde. Dieses Prinzip ist wichtig, wenn ein Problem der kleinsten Quadrate aufgestellt wird, um die Transformation zwischen zwei Koordinatensystemen zu finden, wobei der Versatz und die Drehung so gewählt werden müssen, dass der Fehler zwischen den beiden Systemen minimiert wird.

  • 01:15:00 In diesem Abschnitt erklärt der Dozent, wie man das Problem des Auffindens der Übersetzung vom Auffinden der Rotation vereinfacht. Sie tun dies, indem sie die Koordinaten zum Schwerpunkt verschieben und sie von den ursprünglichen Koordinaten subtrahieren, um die Translation loszuwerden, wodurch das Rotationsproblem viel einfacher zu lösen ist. Der Dozent fügt dann die neuen Koordinaten in die Fehlerformel ein und gruppiert die Terme, um schließlich zu einem einfacheren Problem zu gelangen, mit dem man arbeiten kann. Der Vortrag endet mit der Frage, welchen Offset man für die Übersetzung wählen soll.

  • 01:20:00 In diesem Abschnitt konzentriert sich die Vorlesung darauf, das Problem der Übersetzungsfindung vom Problem der Rotationsfindung zu trennen. Die Formel für die Translation ist die Differenz zwischen dem Schwerpunkt im rechten Koordinatensystem und dem Schwerpunkt des linken Koordinatensystems nach der Drehung. Das nächste Ziel besteht darin, den verbleibenden Fehlerterm zu minimieren, was das Finden der richtigen Rotation beinhaltet. Durch die Maximierung des von der Drehung abhängigen verbleibenden Terms zielt die Vorlesung darauf ab, die richtige Drehung zu finden, was intuitiv sinnvoll ist, wenn man sich eine Punktwolke vorstellt, die mit einem spitzen, sushiartigen Aussehen mit dem Schwerpunkt verbunden ist.

  • 01:25:00 In diesem Abschnitt erklärt der Dozent, wie man zwei Objekte mit ähnlicher Form mithilfe der Vektorrechnung ausrichtet. Indem man entsprechende Stacheln der Objekte nimmt und das Skalarprodukt zwischen ihnen verwendet, um den Winkel zu bestimmen, können die Objekte ausgerichtet werden. Dies wirft jedoch das Problem auf, wie das Rotationsproblem unter Verwendung von Infinitesimalrechnung gelöst werden kann, ohne sich mit Matrizen befassen zu müssen, die durch zusätzliche Einschränkungen kompliziert sind. Der Dozent schlägt vor, sich andere Rotationsdarstellungen anzusehen, die das Ausrichtungsproblem erleichtern.
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 18: Rotation und ihre Darstellung, Einheits-Quaternionen, der Raum der Rotationen



Vorlesung 18: Rotation und ihre Darstellung, Einheits-Quaternionen, der Raum der Rotationen

Dieser Vortrag diskutiert die Herausforderungen bei der Darstellung von Rotationen und führt in die Nützlichkeit von Hamiltons Quaternionen ein. Einheitsquaternionen sind besonders nützlich, da sie direkt auf Rotationen in drei Räumen abgebildet werden, was eine Diskussion über einen Rotationsraum und eine Optimierung in diesem Raum ermöglicht. Quaternionen haben ähnliche Eigenschaften wie komplexe Zahlen und sind besonders nützlich für die Darstellung von Rotationen, da sie Punktprodukte, Tripelprodukte, Länge, Winkel und Händigkeit beibehalten. Der Vortrag behandelt auch verschiedene Methoden zur Darstellung von Drehungen, die Bedeutung der Fähigkeit, Vektoren drehen und Drehungen zusammensetzen zu können, und die Einschränkungen herkömmlicher Methoden wie Matrizen, Euler-Winkel und Gimbal-Lock. Abschließend stellt die Vorlesung laufende Forschungen auf diesem Gebiet vor, einschließlich der Optimierung und Anpassung von Rotationen an Modelle und der Entwicklung neuer Methoden zur Analyse und Visualisierung von Rotationsräumen.

In dieser Vorlesung behandelt der Professor das Problem, die Koordinatentransformation zwischen zwei Koordinatensystemen oder die am besten passende Rotation und Translation zwischen zwei Objekten mit entsprechenden Punkten zu finden, die in den beiden Koordinatensystemen gemessen werden. Die Vorlesung untersucht die Verwendung von Quaternionen, um Raumfahrzeugkameras mit Katalogrichtungen auszurichten und das Problem der relativen Orientierung zu lösen. Die Effizienz von Quaternionen bei der Darstellung von Rotationen wird ebenso diskutiert wie verschiedene Methoden zur Annäherung an die Darstellung von Rotationen im vierdimensionalen Raum. Darüber hinaus untersucht die Vorlesung verschiedene Rotationsgruppen für verschiedene Polyeder und betont die Bedeutung der Auswahl des richtigen Koordinatensystems, um eine regelmäßige Raumabtastung zu erreichen.

  • 00:00:00 In diesem Abschnitt erörtert der Referent die Herausforderungen im Umgang mit Rotationen, da sie nicht wie Übersetzungen kommutativ sind. Ziel ist es, eine nützliche und allgemeine Methode zu entwickeln, um mit Rotationen in der Photogrammetrie und Robotik umzugehen. Hamiltons Quaternionen bieten eine allgemeinere Möglichkeit, Drehungen darzustellen, insbesondere wenn sie auf Einheitsquaternionen beschränkt sind, die direkt auf Drehungen im dreidimensionalen Raum abgebildet werden können. Dies ermöglicht die Diskussion eines Rotationsraums und der Optimierung in diesem Raum. Die Anwendungen sind vielfältig, von der Robotik bis zur Biomedizin, und der Referent möchte eine Lösung in geschlossener Form für Probleme entwickeln, die die Messung von zwei Objekten in unterschiedlichen Koordinatensystemen oder einem sich bewegenden Objekt betreffen.

  • 00:05:00 In diesem Abschnitt wird das Thema Rotation eingeführt und erklärt. Der Satz von Euler besagt, dass jede Drehung eines starren Objekts die Eigenschaft hat, dass es eine Linie gibt, die sich nicht ändert, die die Achse ist. Der Parallelachsensatz besagt, dass jede Drehung um eine beliebige Achse einer Drehung um eine Achse durch den Ursprung plus einer Translation entspricht. Zur Vereinfachung ist es zweckmäßig, Translation und Rotation zu trennen. Die Rotationsgeschwindigkeit ist viel einfacher als die endlichen Rotationen selbst, da die Winkelgeschwindigkeit nur einen Vektor und eine Rate erfordert. Schließlich pendeln endliche Drehungen nicht, und für n = 3 gibt es drei Freiheitsgrade.

  • 00:10:00 In diesem Abschnitt erklärt der Dozent, dass es am besten ist, sich Rotationen als Erhaltung bestimmter Ebenen vorzustellen. Beispielsweise kann die xy-Ebene beibehalten werden, während die darin enthaltenen Dinge an einen anderen Ort verschoben werden. Der Dozent merkt auch an, dass Kreuzprodukte drei Freiheitsgrade haben und als Vektoren dargestellt werden, weil sie senkrecht zu den beiden zu multiplizierenden Vektoren stehen. Es gibt Darstellungen für die Drehung, und eine nützliche Methode ist die Achsen- und Winkelnotation, bei der die Achse ein Einheitsvektor ist und die Anzahl der gedrehten Grad durch einen Winkel dargestellt wird. Der Gibbs-Vektor ist eine andere Notation, die die Achse und den Winkel zu einem einzigen Vektor kombiniert, obwohl er kein Einheitsvektor mehr ist und bei Theta gleich pi explodiert.

  • 00:15:00 In diesem Abschnitt erklärt der Dozent die verschiedenen Möglichkeiten zur Darstellung von Drehungen, einschließlich Euler-Winkel, orthonormale Matrizen, Exponentialform, Stereographie und komplexe Matrizen. Jede Methode hat ihre eigenen Einschränkungen, und es gibt 24 verschiedene Definitionen für Euler-Winkel, was es verwirrend macht. Einheitsquaternionen sind jedoch die beliebteste und nützlichste Methode zur Darstellung von Drehungen, da sie viele Vorteile haben, z. B. dass sie kompakt, einfach zu interpolieren und nicht von der Gimbal-Sperre betroffen sind. Es ist auch wichtig, zwischen verschiedenen Rotationsdarstellungen konvertieren zu können.

  • 00:20:00 In diesem Abschnitt erörtert der Sprecher das Problem der Drehung eines Vektors und der Bestimmung seiner Position in einem gedrehten Koordinatensystem sowie das Zusammensetzen von Drehungen. Der Referent stellt die Formel von Rodriguez vor, die das erste Problem angeht, indem sie einen Vektor nimmt und ihn um einen Winkel um eine gegebene Achse dreht. Indem er das Problem in ein 2D-Problem herunterbricht, zeigt der Referent, dass die Rotationsformel in der Ebene einfach, in 3D jedoch komplexer ist. Der Referent erklärt, dass die Notation von Achsen und Winkeln nützlich ist, um Drehungen zu visualisieren, aber eine Komposition schwierig zu erreichen ist.

  • 00:25:00 In diesem Abschnitt diskutiert der Dozent verschiedene Darstellungen der Drehung, einschließlich der Abbildung einer Kugel auf eine Ebene mit einer Projektionstechnik, die Winkel und Formen bewahrt. Er erwähnt auch, wie wichtig es ist, Vektoren drehen und Rotationen zusammensetzen zu können, sowie eine intuitive Darstellung wie Achse und Winkel zu haben. Er stellt jedoch fest, dass einige Darstellungen wie Rotationsmatrizen und Achsenwinkel redundant oder nicht sehr intuitiv sein können. Der Dozent betont auch, wie wichtig es ist, Singularitäten zu vermeiden und die Recheneffizienz sicherzustellen, während die Orientierung in Grafiken interpoliert werden kann.

  • 00:30:00 In diesem Abschnitt erörtert der Dozent die Herausforderungen bei der Darstellung und Interpolation von Drehungen in der Computergrafik sowie die Notwendigkeit eines Rotationsraums, der effizient abgetastet und gemittelt werden kann. Er weist auf die Grenzen der Verwendung von Matrizen, Euler-Winkeln, Gimbal-Lock und anderen konventionellen Methoden hin und führt Quaternionen als praktischere Lösung ein. Er erklärt, wie Quaternionen Redundanzen und Singularitäten vermeiden können und wie sie auf mathematisch elegante und recheneffiziente Weise zusammengesetzt, interpoliert und abgetastet werden können. Er hebt auch einige der offenen Probleme und laufenden Forschungen auf diesem Gebiet hervor, darunter die Optimierung und Anpassung von Rotationen an Modelle und die Entwicklung neuer Methoden zur Analyse und Visualisierung von Rotationsräumen.

  • 00:35:00 In diesem Abschnitt erläutert der Referent die Entstehungsgeschichte von Quaternionen und ihre Bedeutung in der Mathematik, insbesondere in der Rotation. Er erklärt, dass William Hamilton, ein Mathematiker aus Dublin, nach einer Möglichkeit suchte, Zahlentripel so darzustellen, dass eine Teilung möglich ist, und sich daher von komplexen Zahlen inspirieren ließ. Hamilton entdeckte schließlich, dass Quaternionen oder Zahlen mit einem Realteil und drei Imaginärteilen das Problem lösen könnten. Anschließend erläutert der Referent die unterschiedlichen Möglichkeiten, Quaternionen darzustellen, unter anderem als Vektor im Raum oder als Vier-mal-Vier-Matrix.

  • 00:40:00 In diesem Abschnitt diskutiert der Dozent verschiedene Möglichkeiten zur Darstellung der Quaternion-Multiplikation, einschließlich der Verwendung von Matrizen und der Verwendung eines Skalarteils und drei Imaginärteilen. Der Dozent betont, dass die Multiplikation nicht kommutativ ist und zeigt, wie sie als Produkt einer Matrix und eines Vektors dargestellt werden kann. Der Vortrag hebt auch einige grundlegende Ergebnisse hervor, darunter die Tatsache, dass die Quaternion-Multiplikation nicht kommutativ, sondern assoziativ ist.

  • 00:45:00 In diesem Abschnitt erläutert der Sprecher die Eigenschaften von Quaternionen, die sie zu einer nützlichen Möglichkeit zur Darstellung von Rotationen machen. Quaternionen haben ähnliche Eigenschaften wie komplexe Zahlen, einschließlich einer Konjugation, bei der der Imaginärteil negiert wird. Das Punktprodukt kann als Norm ausgedrückt werden, und die Multiplikation einer Quaternion mit ihrer Konjugierten ergibt eine reelle Größe ohne Imaginärteil, die zur Division verwendet werden kann. Im Fall von Einheitsquaternionen ist die Inverse nur das Konjugierte. Quaternionen können auch verwendet werden, um Vektoren darzustellen, indem der skalare Teil weggelassen wird, und es gibt viele interessante Eigenschaften in diesem Raum.

  • 00:50:00 In diesem Abschnitt erklärt der Dozent, wie man Rotation mit Quaternionen darstellt. Im Gegensatz zur einfachen Quaternion-Multiplikation ergibt eine Operation zum Vormultiplizieren einer Quaternion mit einem Vektor, Nachmultiplizieren mit ihrer Konjugierten und Extrahieren des Imaginärteils des Vektors eine Quaternion mit einem skalaren Teil von Null, die angewendet werden kann, um einen Vektor in 3D zu drehen. Anhand der Darstellung der Quaternion-Multiplikation mit Vier-mal-Vier-Matrizen zeigt der Dozent dann, wie diese Operation die Skalarprodukte der ursprünglichen Vektoren erhält. Letztendlich kann die resultierende drei mal drei orthonormale Rotationsmatrix verwendet werden, um Vektoren zu drehen, ohne Quaternionen direkt zu manipulieren.

  • 00:55:00 In diesem Abschnitt diskutiert der Dozent die Eigenschaften, die eine Rotation definieren und wie man sie mit einer Quaternion darstellt. Ein Quaternion ist eine vierdimensionale Darstellung einer Drehung, die Punktprodukte, Dreifachprodukte, Länge, Winkel und Händigkeit beibehält, was es zu einer angemessenen Darstellung einer Drehung macht. Die Zusammensetzung von Rotationen ist in der Quaternion-Notation unkompliziert, während sie sowohl in Achsenwinkel- als auch in Euler-Winkel schwierig ist. Der Vektorteil der Quaternion ist parallel zur Rotationsachse, was es einfach macht, die Achse zu bestimmen. Der Dozent erklärt, wie man zwischen Achsen-Winkel- und Quaternion-Darstellungen umwandelt und stellt fest, dass die gegenüberliegende Seite einer Kugel dieselben Rotationen darstellt, was in der Photogrammetrie für die Berechnung von Durchschnittswerten unerlässlich ist.

  • 01:00:00 In diesem Abschnitt der Vorlesung behandelt der Referent das Problem, die Koordinatentransformation zwischen zwei Koordinatensystemen oder die am besten passende Rotation und Translation zwischen zwei Objekten mit entsprechenden Punkten zu finden, die in den beiden Koordinatensystemen gemessen werden. Unter Verwendung eines physikalischen Analogons mit Federn möchte das System die Summe der Fehlerquadrate minimieren, um die Rotation und Translation zu finden. Der erste Schritt beim Finden der Übersetzung besteht darin, den Schwerpunkt im linken System nach der Rotation in den Schwerpunkt des rechten Systems zu übernehmen, was intuitiv ist und keine Entsprechungen erfordert. Die Formel für die Übersetzung wird dann verwendet, um den Ausdruck zum Minimieren des Fehlerterms zu vereinfachen. Der mittlere Term ist der einzige, der geändert werden kann, und durch seine Maximierung kann das System das Skalarprodukt entsprechender Punkte maximieren.

  • 01:05:00 In diesem Abschnitt erläutert der Dozent, wie Raumfahrzeugkameras mithilfe der Quaternion-Notation mit Katalogrichtungen ausgerichtet werden. Sie verwenden Quaternionen, um die Richtung auf Sterne in der Kamera mit Katalogrichtungen abzubilden, wobei das Ziel darin besteht, das Skalarprodukt dieser beiden Quaternionen zu maximieren. Da dies jedoch zu großen Werten für die Quaternion führen kann, muss eine zusätzliche Einschränkung auferlegt werden. Der Dozent erläutert zwei Methoden zur Differenzierung bezüglich der Quaternion, die dazu dient, die Differenz zwischen den beiden Quaternionrichtungen zu minimieren.

  • 01:10:00 In diesem Abschnitt der Vorlesung diskutiert der Professor den Eigenvektor und den Eigenwert einer reellen symmetrischen Vier-mal-vier-Matrix, die aus den Daten konstruiert wird. Anders als in der Vergangenheit, wo der kleinste Eigenwert erwünscht war, müssen wir wegen der Sinusdrehung den Eigenvektor auswählen, der dem größten Eigenwert entspricht. Die Matrix ist symmetrisch, das heißt, sie hat neun unabhängige Größen, und ihre Determinante hat einen kubischen Term, der Null ist. Obwohl es 16 unabhängige Größen gibt, sind zehn davon unabhängig, was diese Matrix zu etwas Besonderem macht. Dies ermöglicht es, es auf eine kubische Gleichung zu reduzieren, was das Lösen erleichtert. Der Professor merkt auch an, dass kubische Gleichungen und quartische Gleichungen im Gegensatz zu Gleichungen fünfter Ordnung in geschlossener Form gelöst werden können.

  • 01:15:00 In diesem Abschnitt geht der Dozent auf die wünschenswerten Eigenschaften von Quaternionen zur Darstellung von Rotationen ein. Zu diesen Eigenschaften gehören die Fähigkeit, Vektoren zu drehen und Rotationen einfach zusammenzusetzen, eine intuitive, nicht redundante Darstellung, Recheneffizienz und die Fähigkeit, Orientierungen zu interpolieren und Durchschnittswerte einer Reihe von Rotationen zu bilden. Der Dozent führt dann die relative Orientierung als ein Problem des Findens der Grundlinie und der relativen Orientierung zweier Koordinatensysteme unter Verwendung von Richtungsdaten von zwei Punkten in der Welt ein. Quaternionen sind auch nützlich, um die Kinematik eines Robotermanipulators zu beschreiben, und können helfen, Probleme mit der Ausrichtung von Koordinatensystemen zu vermeiden, insbesondere im Handgelenk.

  • 01:20:00 In diesem Abschnitt erörtert der Referent die Effizienz von Quaternionen bei der Darstellung von Rotationen im Vergleich zu orthonormalen Matrizen und demonstriert, dass Quaternion-Multiplikationen schneller für die Zusammensetzung, aber langsamer für rotierende Vektoren sind. Er stellt fest, dass Quaternionen auch einfacher zu renormieren sind als Matrizen. Der Referent diskutiert dann, wie der Rotationsraum in vier Dimensionen abgetastet werden kann, indem Polyeder auf die Rotationskugel projiziert werden, was zu einer regelmäßigen und gleichmäßigen Abtastung des Raums führt.

  • 01:25:00 In diesem Abschnitt behandelt die Vorlesung verschiedene Methoden zur Darstellung von Rotationen im vierdimensionalen Raum, wie z. B. die Verwendung von Koordinatensystemen zur Vereinfachung von Ausdrücken für Rotationsgruppen. Der Vortrag untersucht auch verschiedene Rotationsgruppen für verschiedene Polyeder, wobei diese Gruppen verwendet werden, um eine regelmäßige Raumabtastung des Raums bereitzustellen, sodass Benutzer verschiedene Orientierungen für ihre Suche oder Mittelung ausprobieren können. Es wird jedoch darauf hingewiesen, dass diese Methoden möglicherweise Tricks erfordern, um eine feinere Abtastung zu erreichen, und dass die Wahl des richtigen Koordinatensystems entscheidend ist.
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 19: Absolute Orientierung in geschlossener Form, Ausreißer und Robustheit, RANSAC



Vorlesung 19: Absolute Orientierung in geschlossener Form, Ausreißer und Robustheit, RANSAC

Die Vorlesung behandelt verschiedene Aspekte der absoluten Orientierung, darunter die Verwendung von Einheitsquaternionen zur Darstellung von Rotationen in der Photogrammetrie, die Konvertierung zwischen Quaternion- und orthonormalen Matrixdarstellungen, die Behandlung von Rotationssymmetrie und die korrespondenzfreie Koordination von Translation, Skalierung und Rotation. Die Vorlesung behandelt auch das Problem von Ausreißern und Robustheit in Linienanpassungs- und Messprozessen und stellt die RANSAC-Methode (Random Sample Consensus) vor, um die Zuverlässigkeit von Messungen zu verbessern, wenn Ausreißer vorhanden sind. Der Vortrag schließt mit einer Diskussion über die Lösung des Problems der absoluten Orientierung in geschlossener Form unter Verwendung von zwei Ebenen in einem koplanaren Szenario, einschließlich Herausforderungen in Bezug auf Ausreißer und Optimierung.

In diesem Video zur absoluten Orientierung diskutiert der Dozent das Problem von Ausreißern in realen Daten und schlägt die Verwendung von RANSAC vor, einer Konsensmethode mit zufälligen Teilmengenanpassungen, um mit Ausreißern umzugehen. Der Dozent diskutiert auch Methoden zum Erreichen einer gleichmäßigen Verteilung von Punkten auf einer Kugel, einschließlich des Einschreibens einer Kugel in einen Würfel und des Projizierens zufälliger Punkte, des Tesselierens der Oberfläche der Kugel und des Erzeugens von Punkten auf regelmäßigen Polyedern. Darüber hinaus behandelt der Dozent Möglichkeiten, den Rotationsraum für eine effiziente Erkennung mehrerer Objekte in einer Bibliothek abzutasten, die Anzahl der Rotationen zu ermitteln, die erforderlich sind, um ein Objekt mit sich selbst auszurichten, und das Problem des Findens von Rotationen durch Beispiele oder Quaternion-Multiplikation anzugehen.

  • 00:00:00 In diesem Abschnitt der Vorlesung diskutiert der Referent die Verwendung von Einheitsquaternionen zur Darstellung von Rotationen in der Photogrammetrie. Einheitsquaternionen ermöglichen eine geschlossene Lösung des am wenigsten schlimmsten Problems und bieten einen objektiven Weg, um die am besten passende Antwort zu erhalten, was bei anderen Notationen schwieriger ist. Die beiden besonders wichtigen Operationen sind die Zusammensetzung von Drehungen und die Drehung eines Vektors, die beide mit der besprochenen Formel dargestellt werden können. Der Referent bezieht diese Notation auch auf die Achsen- und Winkelnotation unter Verwendung der Formel von Rodriguez. Insgesamt ermöglicht die Verwendung von Einheitsquaternionen eine effizientere Art, Drehungen in der Photogrammetrie darzustellen.

  • 00:05:00 In diesem Abschnitt des Videos erläutert der Sprecher die Konvertierung zwischen Quaternion- und orthonormalen Matrixdarstellungen. Die Formel zum Umwandeln von Quaternionen in Matrizen beinhaltet eine Vier-mal-Vier-Matrix mit sowohl schiefsymmetrischen als auch symmetrischen Teilen. Der Sprecher erklärt, dass die erste Zeile und Spalte irrelevant sind, da sie eine spezielle Quaternion darstellen, die ein Vektor mit einem Skalarteil von Null ist. Um eine orthonormale Matrix wieder in eine Quaternion umzuwandeln, empfiehlt der Referent die Verwendung der Spur der drei mal drei Teilmatrix. Diese Methode endet mit einer Gleichung in Form von zwei Kosinustermen, die es uns ermöglicht, nach dem Kosinus des Winkels zwischen den Matrizen aufzulösen.

  • 00:10:00 In diesem Abschnitt diskutiert der Dozent verschiedene Wege zur Berechnung der Rotationsmatrix aus den diagonalen Elementen der Matrix R. Während ein Ansatz um die Spur der Rotationsmatrix zentriert ist, leidet er an Problemen nahe Theta gleich Null. Stattdessen ist es besser, die nichtdiagonalen Elemente zu verwenden, die alle vom Sinus von Theta über zwei abhängen. Die Vorlesung fährt dann mit einer vollständigen Inversionsformel fort, die verschiedene Summen und Differenzen berechnet und Quadratwurzeln zieht. Das Problem bei diesem Ansatz ist die Mehrdeutigkeit des Sinus, aber der Vortrag schlägt vor, den größten für die numerische Genauigkeit auszuwählen und danach zu lösen.

  • 00:15:00 In diesem Abschnitt erörtert der Sprecher den Prozess der Umwandlung zwischen Quaternion und Rotationsmatrix, sowohl direkt als auch indirekt, und wie der Maßstab bei Koordinatentransformationen berücksichtigt wird. Sie erklären den Lösungsprozess für die Rotations- und Skalierungsfaktoren unter Verwendung eines Problems der kleinsten Quadrate und Minimieren der Summe von vier Summen. Der Referent betont die Bedeutung der Berücksichtigung des Maßstabs beim Zusammenfügen von Geländestücken, die aus aufeinanderfolgenden Kamerapositionen gewonnen wurden, und erklärt, wie man in diesen Situationen das Optimum findet.

  • 00:20:00 In diesem Abschnitt erörtert der Redner das Problem der Symmetrie bei Rotation, wobei die zur Berechnung der Rotation verwendete Methode invertiert werden können sollte, um die Umkehrung der Rotationsmatrix zu erhalten. Der Sprecher untersucht auch einen anderen Fehlerterm, der gegenüber früheren Methoden bevorzugt wird, da er keine Entsprechungen erfordert und Schwerpunkt auf Schwerpunkt abbilden kann. Bei diesem Verfahren wird der Skalierungsfaktor ermittelt, indem die Ableitung des Fehlerterms in Bezug auf den Skalierungsfaktor gleich null gesetzt und nach dem Skalierungsfaktor aufgelöst wird, wodurch Schummeln vermieden wird, indem der Skalierungsfaktor etwas kleiner gemacht wird, als er sein sollte.

  • 00:25:00 In diesem Abschnitt erklärt der Dozent, wie man korrespondenzfrei mit Translation, Skalierung und Rotation umgeht. Unter Verwendung einer Zentroidmethode kann der Skalierungsfaktor als das Verhältnis der Größen zweier Punktwolken berechnet werden. Mit dem Rotationsteil berührt der Dozent kurz das Kalkülproblem der Maximierung einer negativen Determinante einer Matrix, N, in Bezug auf q, das Quaternion. Die Lösung kann mit Lagrange-Multiplikatoren gefunden werden, aber es kann auch eine einfachere Methode namens Rall-Quotient verwendet werden, die durch die Länge von q teilt, um zu verhindern, dass es unendlich groß wird. Die resultierende Funktion ist entlang jedem Array konstant und gibt die Richtung des Strahls an, die ihn so extrem wie möglich macht.

  • 00:30:00 In diesem Abschnitt erklärt der Sprecher, wie man die Matrix findet, die Sigma maximiert, indem man die Gleichung differenziert und auf Null setzt. Unter Verwendung einer Verhältnisformel zur Differenzierung zeigt der Sprecher dann, dass q ein Eigenvektor ist, und erklärt, dass die Matrix maximiert werden kann, indem der Eigenvektor ausgewählt wird, der dem größten Eigenwert entspricht. Die einzige Einschränkung für dieses Verfahren besteht darin, dass der Eigenvektor die aus den Korrespondenzdaten erhaltene Einschränkung erfüllen muss. Im Gegensatz zu orthonormalen Matrizen ist diese Einschränkung jedoch viel einfacher zu handhaben.

  • 00:35:00 In diesem Abschnitt bespricht der Dozent die Anzahl der Korrespondenzen, die für photogrammetrische Probleme benötigt werden. Sie zielen darauf ab, sechs Dinge zu finden: Translationsrotation und Skalierung, was drei Einschränkungen pro Korrespondenz bedeutet, und somit werden nur zwei Korrespondenzen benötigt. Bei nur zwei Entsprechungen gibt es jedoch nur fünf Beschränkungen; daher sind drei Entsprechungen erforderlich, um dies zu erreichen. Zusätzlich erwähnt der Dozent die Möglichkeit, die Transformation zu verallgemeinern, um sie an die neun Beschränkungen anzupassen, die aus drei Punkten erhalten werden; Sie stellen jedoch fest, dass diese Einschränkungen höchst redundant sind.

  • 00:40:00 In diesem Abschnitt diskutiert das Video das Konzept der allgemeinen linearen Transformation in 3D, das 12 Elemente beinhaltet, nicht sechs wie in 2D, was es schwierig macht, es mit drei Entsprechungen zu bestimmen. Darüber hinaus erklärt das Video, dass die lineare Transformation auf zwei Arten fehlschlagen kann. Erstens, wenn nicht genügend Korrespondenzen vorhanden sind, und zweitens, wenn die Matrix N mehr als einen Eigenwert von Null hat. Das Video erklärt weiter, wie man die charakteristische Gleichung löst, um die Eigenwerte der Matrix zu finden.

  • 00:45:00 In diesem Abschnitt des Videos erklärt der Dozent, wie man die Matrix M berechnet, indem man das diatische Produkt verwendet, das eine Drei-mal-drei-Matrix ist, die zur Berechnung der Vier-mal-vier-Matrix N verwendet wird, die die größte ist effiziente Methode, um N zu erhalten. Es wird darauf hingewiesen, dass das Problem besonders einfach zu lösen ist, wenn die Determinante von M Null ist, da C1 Null ist, wodurch die Gleichung gelöst werden kann, ohne dass ein spezielles Lehrbuch erforderlich ist. Dieser Sonderfall hat mit einer Verteilung von Punkten zu tun und kann auftreten, wenn die Punkte koplanar sind. Der Dozent zeigt, dass dies genauso gut gilt, wenn die Punkte alle in einer Ebene liegen, wodurch die Aufgabe einfach zu lösen ist.

  • 00:50:00 In diesem Abschnitt des Videos erklärt der Sprecher, wie das Problem der absoluten Orientierung in geschlossener Form unter Verwendung von zwei Ebenen in einem koplanaren Szenario gelöst werden kann. Die vollständige 3D-Drehung kann in zwei einfache Drehungen zerlegt werden, wobei zuerst eine Ebene so gedreht wird, dass sie über der anderen Ebene liegt, und dann eine Drehung in der Ebene. Der Referent erklärt, wie man die Achse und den Winkel findet, die erforderlich sind, um die Quaternion zu konstruieren und alle Punkte in einem der Koordinatensysteme zu drehen, um sie auf das andere Koordinatensystem auszurichten. Darüber hinaus erörtert der Referent die Herausforderungen beim Umgang mit Ausreißern im Optimierungsproblem und wie die Verwendung von etwas anderem als dem Fehlerquadrat, wie z. B. dem absoluten Fehlerwert, zu mehr Rechenaufwand und Schwierigkeiten bei der Verallgemeinerung der Ergebnisse führen kann.

  • 00:55:00 In diesem Abschnitt geht der Dozent auf das Problem von Ausreißern und Robustheit bei Linienanpassungen und anderen Messverfahren ein. Er stellt die RANSAC-Methode (Random Sample Consensus) vor, bei der eine zufällige Stichprobe von Punkten genommen und die kleinsten Quadrate verwendet werden, um die beste Anpassung zu finden, dann die Anzahl der Punkte zu überprüfen, die in ein Band fallen, und den Schwellenwert basierend auf dem Rauschen und dem anzupassen Verhältnis von Inliers zu Outliers. Der Vorgang wird wiederholt, bis eine gute Passform erreicht ist. Der Dozent weist darauf hin, dass die Verwendung von RANSAC die Zuverlässigkeit von Messungen in Situationen verbessern kann, in denen Ausreißer vorhanden sind.

  • 01:00:00 In diesem Abschnitt des Videos geht der Dozent auf die Problematik von Ausreißern bei realen Daten und deren Umgang mit der Konsensmethode, auch bekannt als RANSAC, ein. Das Verfahren umfasst das Nehmen zufälliger Teilmengen, das Durchführen von Anpassungen und das Suchen nach Zellen mit den meisten Treffern, die ein Maß für die Ausrichtung von Objekten liefern, die möglicherweise keine Lösung in geschlossener Form haben. Der Dozent betont, dass dieser Ansatz in vielen Anwendungen sinnvoll ist und sich nicht nur auf die absolute Orientierung beschränkt. Darüber hinaus erwähnt der Dozent, dass Darstellungen für komplizierte Objekte in der Nähe von Konvexen auch nützlich sein können, um Dinge zu erkennen und ihre Orientierung zu finden.

  • 01:05:00 In diesem Abschnitt erörtert der Dozent die Schwierigkeiten, Punkte auf einer Kugel abzutasten, um Einheitlichkeit zu erreichen. Eine gleichmäßige Verteilung von Punkten kann nicht erreicht werden, indem Theta und Phi mit einem Gleichverteilungsgenerator abgetastet werden, da die Polarregionen eine höhere Konzentration als die anderen aufweisen. Die vorgeschlagene Lösung besteht darin, eine Kugel in den Würfel einzuschreiben und zufällige Punkte aus dem Würfel heraus auf die Kugel zu projizieren. Dies führt jedoch immer noch zu einer höheren Dichte von Punkten, an denen die Kugel den Würfel berührt. Um dies zu lösen, schlägt der Dozent vor, die Oberfläche der Kugel mit regelmäßigen Körpern zu tesselieren oder die Punkte in der Nähe der Ecken mit Gewicht zu belasten, um ihre Aggregation zusammenzuziehen.

  • 01:10:00 In diesem Abschnitt des Videos diskutiert der Dozent Wege, um eine gleichmäßige Verteilung von Punkten auf der Oberfläche einer Kugel zu erhalten. Eine Möglichkeit besteht darin, Punkte gleichmäßig in einem Würfel zu erzeugen und sie auf die Oberfläche der Kugel zu projizieren, während Punkte, die zu nahe am Ursprung oder zu weit von der Kugel entfernt sind, verworfen werden. Eine andere Methode besteht darin, die Kugel unter Verwendung regelmäßiger Polyeder zu teilen und Punkte gleichmäßig auf diesen Formen zu erzeugen. Dieses Verfahren erfordert jedoch eine Unterteilung, um feinere Unterteilungen zu erhalten, anders als das erste Verfahren, das eine praktisch gleichförmige Verteilung erzeugt.

  • 01:15:00 In diesem Abschnitt erörtert der Dozent, wie man einheitliche Wege findet, den Rotationsraum für verschiedene Objekte abzutasten, was Teil des Erkennungsprozesses für mehrere Objekte in einer Bibliothek ist. Der Dozent erklärt, dass sie, um effizient zu sein, Teile des Rotationsraums nicht dichter abtasten wollen als andere Teile, und dass sie darauf abzielen, eine einheitliche Art des Abtastraums zu finden. Sie beginnen mit der Diskussion des Hexaeders, der Rotationssymmetrie hat, und seiner Rotationen. Der Dozent erklärt, dass das Ziel darin besteht, Rotationsmethoden zu finden, die es einfach machen, Punktkorrespondenzen über verschiedene Modelle hinweg zu finden.

  • 01:20:00 In diesem Abschnitt erläutert der Sprecher, wie man die Anzahl der Rotationen ermittelt, die erforderlich sind, um ein Objekt mit sich selbst auszurichten, und dann eine Gruppe von Rotationen mit zwei Methoden generiert: geometrisch und durch Quaternion-Multiplikation. Eine interessante neue Drehung, deren Achse (1, 1, 1) und der Winkel 2π/3 ist, wird gefunden und zeigt, dass sie die Ecke eines Würfels mit sich selbst ausrichtet.

  • 01:25:00 In diesem Abschnitt bietet der Sprecher zwei Möglichkeiten an, um das Problem des Auffindens von Rotationen anzugehen. Die erste Möglichkeit besteht darin, sich Beispiele anzusehen und sie zu addieren, um insgesamt 24 Rotationen zu erhalten. Die zweite Möglichkeit besteht darin, die Quaternion-Multiplikation zu implementieren und eine Tabelle zu erstellen, indem Sie paarweise Produkte verwenden, um zu sehen, ob Sie am Ende etwas Neues erhalten. Der Sprecher erwähnt dann, dass die nächste Diskussion die relative Orientierung betreffen wird, die für binokulares Sehen relevanter ist.
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

MIT 6.801 Machine Vision, Herbst 2020. Vorlesung 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo



Vorlesung 20: Rotationsraum, regelmäßige Tessellationen, kritische Oberflächen, binokulares Stereo

Dieser Abschnitt der Vorlesung behandelt Themen wie regelmäßige Tessellationen, kritische Oberflächen, binokulares Stereo und das Finden der Parameter einer Transformation im dreidimensionalen Raum. Der Dozent erklärt, wie man eine Kugel am besten tesseliert, indem man das Dual einer dreieckigen Tessellierung verwendet, indem man mit einigen Fünfecken ungefähr sechseckige Formen erzeugt. Sie diskutieren auch kritische Oberflächen, die für maschinelles Sehen schwierig sind, aber verwendet werden können, um Möbel aus geraden Stöcken herzustellen. In der Diskussion über binokulares Stereo erklärt der Dozent die Beziehung zwischen zwei Kameras, das Konzept der Epipolarlinien und wie man den Schnittpunkt zweier Kameras findet, um einen Punkt in der Welt zu bestimmen. Sie erklären auch, wie man den Fehler zwischen zwei Strahlen berechnet, um ihren Schnittpunkt zu bestimmen und den Bildfehler unter Berücksichtigung des Umrechnungsfaktors zwischen Fehler in der Welt und Fehler im Bild zu minimieren. Schließlich diskutieren sie, wie man die Grundlinie und D findet, um die Position und Orientierung eines starren Objekts im Raum unter Verwendung einer Quaternion zur Darstellung der Grundlinie wiederherzustellen.

Die Vorlesung behandelt verschiedene Themen, darunter den Rotationsraum, regelmäßige Tessellationen, kritische Oberflächen und binokulares Stereo. Für Rotationen diskutiert der Dozent die Verwendung numerischer Ansätze, das Problem der Singularitäten und die Vorteile der Verwendung von Einheitsquaternionen. Mit regelmäßigen Tessellationen zeigen sie, wie bestimmte Oberflächen Probleme mit binokularem Stereo verursachen können, und schlagen vor, Fehlermaße und Gewichtungen zu verwenden, um Probleme zu mindern. Der Redner berührt auch quadratische Oberflächen und stellt ein neues Hausaufgabenproblem vor, das "furchtloses Nachdenken" beinhaltet.

  • 00:00:00 In diesem Abschnitt des Videos erläutert der Sprecher das Mosaikieren der Oberfläche einer Kugel basierend auf platonischen und archimedischen Körpern, die flächengleiche Projektionen auf die Kugel haben. Die Tessellation der Oberfläche kann unter Verwendung regelmäßiger Polygone als Facetten erfolgen, wobei Dreiecke, Quadrate und Fünfecke üblicherweise verwendet werden. Die Flächen der Polygone sind nicht gleich, und als Ergebnis weist die tessellierte Oberfläche viele Unterteilungen auf. Diese Methode der Tessellation ist relevant, wenn Rotationen diskutiert werden, und der Referent erklärt die Rotationsgruppen dieser Körper. Das Video erwähnt auch die Verwendung einer geodätischen Kuppel, die auf der Tessellation eines Ikosaeders in viele dreieckige Bereiche basiert, um eine regelmäßige Struktur zu schaffen.

  • 00:05:00 In diesem Abschnitt besprach der Dozent verschiedene regelmäßige Tessellationen, die Möglichkeiten sind, eine Oberfläche in gleich große Formen zu unterteilen. Während in Ebenen häufig quadratische Tessellationen verwendet werden, sind sie für Kugeln nicht ideal, und dreieckige Tessellationen sind ebenfalls problematisch. Der Dozent zeigte eine bessere Option auf: das Dual einer dreieckigen Tessellation, die ungefähr sechseckige und einige fünfeckige Formen aufweist. Zusätzlich erläuterte der Dozent kritische Flächen, die Hyperboloide einer Platte sind. Diese Oberflächen sind für Bildverarbeitungsprobleme schwierig, aber sie haben die besondere Eigenschaft, dass sie liniert sind, und können verwendet werden, um Möbel aus geraden Stöcken herzustellen. Abschließend diskutierte der Dozent Hyperboloide aus zwei Blättern, die zwei negative Vorzeichen in ihrer Gleichung haben.

  • 00:10:00 In diesem Abschnitt geht der Dozent auf die verschiedenen Arten von Oberflächen ein, die mit zwei Blättern oder drei negativen Vorzeichen erzeugt werden können. Er erklärt auch die verschiedenen Sonderfälle, die es gibt, wie Hyperboloid, Kegel, Paraboloid und ebene Flächen. Anschließend erklärt der Dozent das Problem der Berechnung von 3D aus 2D mit zwei Kameras und wie eine relative Orientierung notwendig ist, um die Geometrie der beiden Kameras zu verstehen. Der Vortrag schließt mit der Erwähnung, wie binokulares Stereo in autonomen Fahrzeugen anwendbar ist, und die Kalibrierung muss möglicherweise erneut durchgeführt werden, wenn die Basislinie nicht starr ist, aber der gleiche Prozess funktioniert auch für Structure-from-Motion mit Bildern davor und danach.

  • 00:15:00 In diesem Abschnitt erklärt der Dozent das Konzept, den Schnittpunkt zweier Kameras zu finden, um einen Punkt in der Welt zu bestimmen, wie das Koordinatensystem ausgewählt wird, und die mit diesem Konzept verbundene Geometrie. Der Dozent hebt hervor, dass die Basislinie im rechten Koordinatensystem gemessen wird und der Strich angibt, wie sie aus dem linken Koordinatensystem konvertiert wird. Wenn der Punkt mit der Basislinie verbunden ist, definiert er eine Ebene, und das Bild der Ebene in beiden Kamerasystemen projiziert in eine gerade Linie, wo der Punkt irgendwo entlang dieser Linie abgebildet wird. Die Vorlesung stellt auch das Konzept der Epipolarlinien vor und wie sie helfen, Disparitäten zu finden, die zu einer Entfernungsmessung führen.

  • 00:20:00 In diesem Abschnitt erörtert der Dozent die Beziehung zwischen den beiden Kameras in einem binokularen Stereoaufbau, der die Grundlinie und die Drehung einer Kamera relativ zur anderen beinhaltet. Die Drehung hat drei Freiheitsgrade, aber aufgrund der Mehrdeutigkeit des Skalierungsfaktors reduziert sich das Problem auf fünf statt auf sechs Freiheitsgrade wie bei der absoluten Orientierung. Die Grundlinie wird als Einheitsvektor behandelt, was nur zwei Freiheitsgrade für diese Komponente ergibt. Der Dozent erklärt, dass zur Bestimmung der absoluten Länge der Basislinie zusätzliche Informationen, wie beispielsweise die Kenntnis der Größe von abgebildeten Objekten, notwendig wären.

  • 00:25:00 In diesem Abschnitt erläutert der Dozent, wie die Anzahl der Korrespondenzen ermittelt werden kann, die zum Festlegen von Messungen erforderlich sind. Er erklärt die mechanische Analogie, einen Draht aus Bildpunkten zu erstellen und sie durch einen Kragen zu führen, um ihn einzuschränken. Der Dozent erklärt, dass bei Verwendung von nur zwei Korrespondenzen immer noch Freiheitsgrade bestehen, sodass eine Änderung der Kamerarotation möglich ist. Das Hinzufügen einer zweiten Korrespondenz verringert den Freiheitsgrad, ist aber immer noch unzureichend. Die Antwort ist fünf, was eine Einschränkung pro Korrespondenz ergibt, wodurch vertikale Disparitäten in der Kameraausrichtung auf Null gesetzt werden können. Die Schärfentiefe ist umgekehrt proportional zu horizontalen Disparitäten. Das Instrument kann eingerichtet werden, indem vertikale Disparitäten ausgeblendet werden, wie es jahrzehntelang bei der Einrichtung optischer Geräte der Fall war.

  • 00:30:00 In diesem Abschnitt des Vortrags erörtert der Referent den Prozess des Auffindens der Parameter einer Transformation im dreidimensionalen Raum unter Verwendung einer Abfolge von Bewegungen und Anpassungen zur Konvergenz, was ein schmerzhafter und komplizierter Prozess sein kann. In der Praxis ist es jedoch wichtig, mehr als fünf Punkte zu haben, um die Genauigkeit sicherzustellen und den Fehler bei der Messung der Bildposition zu minimieren. Dieses nichtlineare Problem führt zu sieben Gleichungen zweiter Ordnung, die nach ihrer Lösung zwei von sieben (128) Lösungen ergeben können. Obwohl dies für die meisten eine Kuriosität ist, finden es Leute, die sich für theoretische Anwendungen interessieren, Spaß, es herauszufinden. Abschließend diskutiert die Vorlesung die koplanare Natur der drei Vektoren beim Finden der Basislinien- und Rotationsparameter aus Korrespondenzen.

  • 00:35:00 In diesem Abschnitt wird das Konzept der Konstruktion einer Parallelpipette mit drei Vektoren als Kanten und der Bestimmung ihres Volumens durch das Tripelprodukt erklärt. Wenn die drei Vektoren koplanar sind, ist das Objekt flach und hat kein dreidimensionales Volumen, wodurch sein erwarteter Wert Null oder die Koplanaritätsbedingung wird. Ein mögliches Verfahren zum Minimieren der Summe der Quadrate des Tripelprodukts für jede Entsprechung zum Schätzen der Basislinie und Rotation mit minimalen Fehlern wird diskutiert. Dies ist jedoch kein zuverlässiges Verfahren, da es eine hohe Rauschverstärkung aufweist und falsche Antworten liefern kann. Um Messfehler zu minimieren und den Proportionalitätsfaktor zu bestimmen, wird der Fokus auf die Minimierung des minimalen Abstands zwischen zwei Strahlen verlagert, wenn die Messungen und die Basislinie oder Rotation nicht perfekt sind.

  • 00:40:00 In diesem Abschnitt erläutert der Dozent, wie man den Fehler zwischen zwei Strahlen berechnet und ihren Schnittpunkt bestimmt. Er erklärt, dass die minimale Annäherung an den Abstand zwischen zwei Strahlen senkrecht zu diesen beiden Strahlen sein muss, was bedeutet, dass sie parallel zum Kreuzprodukt ist. Indem Vektoren addiert und auf Null gesetzt werden, kann die Gleichung unter Verwendung von Punktprodukten in eine Skalargleichung umgewandelt werden, wodurch drei verschiedene Einschränkungen bereitgestellt werden. Der Dozent fährt dann fort, zu diskutieren, wie man die Gleichung vereinfacht, indem man bestimmte Terme weglässt, und wie man Gamma, Beta und Alpha berechnet, was dabei helfen wird, zu bestimmen, wie weit der Schnittpunkt oder fast der Schnittpunkt entlang der Strahlen entfernt ist.

  • 00:45:00 In diesem Abschnitt erörtert der Sprecher die Bedeutung von drei Größen – Alpha, Beta und Gamma – bei der Berechnung der dreidimensionalen Position im Rotationsraum. Während Gamma einfach der Entfernungsfehler ist, können Alpha und Beta negativ sein und anzeigen, ob sich die sich schneidenden Liniensegmente möglicherweise hinter dem Betrachter befinden, was normalerweise physikalisch nicht sinnvoll ist. Der Referent erwähnt, dass eine geschlossene Lösung aufgrund der beteiligten Gleichung fünfter Ordnung derzeit nicht möglich ist, aber eine Minimierung des Bildfehlers immer noch erreichbar ist. Indem Lösungen mit negativem Alpha oder Beta verworfen und ein Quintenlöser verwendet werden, kann der Fehler im Bild minimiert werden.

  • 00:50:00 In diesem Abschnitt erörtert der Referent das Problem der Minimierung des Quadratsummenfehlers in binokularem Stereo unter Berücksichtigung des Umrechnungsfaktors zwischen Fehler in der Welt und Fehler im Bild. Dies hängt von der Lösung ab und wird iterativ gelöst. Zur Einführung von Quaternionen wird das vom linken Koordinatensystem nach rechts gedrehte Tripelprodukt verwendet. Der Referent erklärt, wie Quaternionen mit null Skalaranteilen verwendet werden, um das Tripelprodukt vom rechten Koordinatensystem nach links zu drehen. Die Formel für die Multiplikation zwischen Quaternionen, die Vektoren darstellen, vereinfacht sich auf das Skalarprodukt und das Kreuzprodukt. Lemma wird ohne Beweis für eine Möglichkeit angegeben, einen der Multiplikatoren auf die andere Seite zu verschieben.

  • 00:55:00 In diesem Abschnitt erklärt der Sprecher, wie man die Grundlinie findet und die Position und Ausrichtung eines starren Objekts im Raum wiedererlangt, wenn man zwei Bilder des Objekts aus verschiedenen Blickwinkeln nimmt. Der Sprecher definiert eine neue Größe, die das Produkt aus der Grundlinie und der Rotation ist, und verwendet eine Quaternion, um die Grundlinie darzustellen, wodurch das Problem vereinfacht wird, die Grundlinie und D zu finden. Während es 8 Unbekannte gibt, gibt es nur fünf Freiheitsgrade, Der Sprecher wendet also verschiedene Einschränkungen an. Sie sprechen auch über interessante Symmetrien, die den Austausch linker und rechter Koordinaten ermöglichen. Das Gewicht, das die Beziehung zwischen dem Fehler im 3D-Raum und dem Fehler in der Bildposition ist, ist schwer zu berechnen, kann aber angepasst werden.

  • 01:00:00 In diesem Abschnitt erörtert der Referent ein Optimierungsproblem, bei dem Gewichtungen basierend auf einer guten ersten Schätzung berechnet und diese Gewichtungen dann neu berechnet und das Problem erneut gelöst werden. Sie berühren auch die Symmetrie zwischen linken und rechten Arrays und wie dies bei der numerischen Berechnung nützlich sein kann, zusammen mit der Symmetrie zwischen Rotation und Translation im Tripelprodukt. Letztendlich bedeutet diese Symmetrie, dass man, wenn man eine Näherungslösung hat, durch Ausnutzung dieser Symmetrie andere Näherungslösungen generieren kann. Darüber hinaus kann man bei der Suche nach Lösungen mehrere Versionen finden, die alle die gleichen Ergebnisse liefern, was dazu beitragen kann, den Suchprozess zu beschleunigen.

  • 01:05:00 In diesem Abschnitt erörtert der Kursleiter die Berechnung des Rotationsraums unter Verwendung eines numerischen Ansatzes, der die Annahme eines der unbekannten Werte mit einer einfachen geschlossenen Lösung der kleinsten Quadrate erfordert. Ein anderer Ansatz besteht darin, ein nichtlineares Optimierungspaket zu verwenden, wie z. B. die Marquardt-Methode, die Parameter abstimmt, bis die Gleichungen so nahe wie möglich an Null liegen. Es wird jedoch davon ausgegangen, dass diese Ansätze keine Lösung in geschlossener Form für dieses Problem haben. Außerdem erklärt der Dozent, dass es ein Problem mit Rotationen gibt, weil es aufgrund der orthonormalen Matrixmethode neun Zahlen und nur drei Freiheitsgrade gibt, was zu einer Singularität mit dem Gibbs-Vektor bei Theta gleich Pi führt.

  • 01:10:00 In diesem Abschnitt erörtert der Sprecher die Verwendung von Einheitsquaternionen zur Darstellung von Drehungen, wobei er angibt, dass sie vier Zahlen mit drei Freiheitsgraden haben. Er empfiehlt, zusätzliche Einschränkungen hinzuzufügen, um sie weniger redundant zu machen, und gibt an, dass dieses Paket das Hinzufügen dieser Einschränkungen zulässt. Er berührt auch die Formel für die Kombination zweier Rotationen und die Transformation eines Vektors, was etwas komplizierter ist. Darüber hinaus hebt der Sprecher hervor, dass es einen vierseitigen Klappentext gibt, der alles zusammenfasst, was Sie über Quaternionen wissen müssen. Abschließend erörtert er die Verwendung von Fehlermaßen und wie wichtig die Gewichtung bei der Berücksichtigung größerer Z-Werte ist, um große Fehler zu vermeiden.

  • 01:15:00 In diesem Abschnitt erklärt der Referent, dass bestimmte Arten von Oberflächen Probleme mit der binokularen Stereomethode zur Bestimmung der Ausrichtung eines Objekts verursachen können. Diese „kritischen Oberflächen“ wurden vor über einem Jahrhundert entdeckt und können Mehrdeutigkeiten und eine hohe Fehleranfälligkeit verursachen. Der Sprecher gibt ein Beispiel eines U-förmigen Tals, in dem sich die Winkel zwischen verschiedenen Bildern von Oberflächenmerkmalen nicht ändern, wenn sich das Flugzeug entlang der Oberfläche bewegt, wodurch es unmöglich wird, verschiedene Positionen zu unterscheiden. Der Redner merkt an, dass das Hyperboloid eines Blattes ein gängiges Beispiel für eine quadratische Fläche ist, die Probleme mit binokularem Stereo verursachen kann, da es die richtige Anzahl von Minuszeichen für das eine Blatt hat und anderen Oberflächen sehr ähnlich sein kann.

  • 01:20:00 In diesem Abschnitt spricht der Sprecher über quadratische Oberflächen, insbesondere die zwei sich schneidenden Ebenen, die eine Version dieser Oberfläche bilden. Jede Ebene hat eine lineare Gleichung, und wenn sie miteinander multipliziert werden, erhält man die Kombination zweier Ebenen. Eine der Ebenen geht durch das Projektionszentrum, was bedeutet, dass sie in eine Linie projiziert wird. Dies ist noch seltsamer, da es bedeutet, dass eine ebene Oberfläche ein Problem darstellt, das bei von Menschenhand geschaffenen Strukturen üblich ist. Der Referent erwähnt, dass er beim nächsten Mal über „furchtlose Reflexion“ sprechen muss, und es wurde eine neue Hausaufgabenaufgabe eingeführt.
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 21: Relative Orientierung, binokulares Stereo, Struktur, Quadriken, Kalibrierung, Rückprojektion



Vorlesung 21: Relative Orientierung, binokulares Stereo, Struktur, Quadriken, Kalibrierung, Rückprojektion

Diese Vorlesung behandelt Themen rund um die Photogrammetrie, darunter relative Orientierung, quadratische Oberflächen, Kamerakalibrierung und Korrespondenzen zwischen Bildpunkten und bekannten 3D-Objekten. Der Dozent erklärt verschiedene Methoden zur Lösung von Verzerrungsproblemen und zur Ermittlung von Parametern wie f und tz. Sie betonen auch die Bedeutung orthogonaler Einheitsvektoren beim Finden der vollständigen Rotationsmatrix und bieten Lösungen zum Finden von k unter Verwendung einer stabileren Formel. Der Dozent betont die Bedeutung des Verständnisses homogener Gleichungen, die in der Bildverarbeitung von entscheidender Bedeutung sind.

Dieser Vortrag behandelt verschiedene Themen im Zusammenhang mit Computer Vision und Kalibrierung, einschließlich der Verwendung eines planaren Ziels zur Kalibrierung, der Mehrdeutigkeit der Kalibrierung der äußeren Ausrichtung, der Redundanz bei der Darstellung von Rotationsparametern und der Bestimmung der statistischen Eigenschaften bestimmter Parameter durch das Rauschverstärkungsverhältnis. Die Vorlesung erklärt die Formel zur Lösung einer quadratischen Gleichung und stellt ein Näherungsverfahren mit Iteration vor. Der Fall eines planaren Ziels wird als häufig verwendetes Verfahren für Kalibrierungs- und Bildverarbeitungsanwendungen diskutiert. Die Vorlesung berührt auch die Darstellung von Form und Erkennung sowie die Bestimmung der Haltung im 3D-Raum.

  • 00:00:00 In diesem Abschnitt erörtert der Referent die relative Orientierung, das zweite von vier Problemen in der Photogrammetrie, und ihre Relevanz für binokulares Stereo, Bewegungssehen und Struktur aus Bewegung. Der Sprecher entwickelt eine Lösung, merkt aber an, dass es Flächen gibt, bei denen die relative Orientierung nicht bestimmt werden kann, insbesondere quadratische Flächen. Die Vorlesung geht dann tiefer auf die spezifischen Arten von quadratischen Flächen ein, wie Ellipsoide, ein- oder zweischichtige Hyperboloide und Flächen mit imaginären Formen. Der Sprecher erklärt, dass, wenn eine Oberfläche keinen konstanten Begriff hat, dies bedeutet, dass der Ursprung des Systems der rechten Hand oder die Kameraposition zum Zeitpunkt zwei im bewegten Sehen auf der Oberfläche liegt. Wenn man zusätzlich minus b für r einsetzt, wobei b der Abstand zwischen den beiden Kameras ist, ergibt sich auch eine Lösung, was bedeutet, dass die Oberfläche durch beide Augen geht.

  • 00:05:00 In diesem Abschnitt des Vortrags diskutiert der Referent die Eigenschaften und Implikationen der quadratischen Oberflächengleichung, die zwischen linker und rechter Kameraposition in einem Stereopaar symmetrisch ist. Die Gleichung hat keinen konstanten Term, was bedeutet, dass es keine Skalierung gibt und die gesamte Basislinie auf der Oberfläche liegt. Dies deutet darauf hin, dass die Oberfläche eine linierte Oberfläche ist und zwei Lineaturen hat, was sie für die Herstellung interessant macht. Die Gleichung deckt eine Vielzahl von Sonderfällen ab, einschließlich ebener Oberflächen, wobei eine der Ebenen als Epipolarebene durch den Ursprung beider Koordinatensysteme verläuft. Das Bild dieser Ebene ist eine gerade Linie, was nicht besonders interessant ist, aber die andere Ebene ist willkürlich und kann alles sein.

  • 00:10:00 In diesem Abschnitt erörtert der Dozent das Problem der Mehrdeutigkeit bei der Rekonstruktion topografischer Karten oder der Wiederherstellung von Strukturen aus Bewegungen, da die beiden Probleme mathematisch identisch sind. Obwohl dieses Problem eher in schmalen Sichtfeldern auftritt, kann es in einer Situation mit hoher Rauschverstärkung immer noch verstärkt werden. Um diesem Problem entgegenzuwirken, wird ein großes Sichtfeld empfohlen, weshalb Spinnenköpfe, eine Reihe von Kameras, die zusammen montiert sind, um ein weites Sichtfeld zu erhalten, für Luftaufnahmen entwickelt wurden. Der Dozent geht dann zur inneren Orientierung über, die im Wesentlichen eine Kamerakalibrierung ist. Während die vorherige Methode der Kalibrierung mit Fluchtpunkten funktionierte, war sie nicht sehr genau und schwierig, radiale Verzerrungen zu berücksichtigen. Der Dozent schlägt die Notwendigkeit einer allgemeineren Methode vor, um die radiale Verzerrung zu berücksichtigen.

  • 00:15:00 In diesem Abschnitt erörtert der Dozent die Kompromisse, die mit dem Design eines Objektivs verbunden sind, einschließlich radialer Verzerrung, die einen Fehler in Polarkoordinaten verursacht, wo das Bild an einer anderen Stelle entlang einer Linie erscheinen kann, anstatt dort, wo es sollte. Diese Verzerrung wird üblicherweise mit einem Polynom angenähert, wobei der quadratische Term normalerweise ausreicht, um anständige Ergebnisse zu erhalten. Der Vortrag beschreibt anschließend ein Lotverfahren, das in der Vergangenheit verwendet wurde, um die Verzerrung einer Linse zu messen.

  • 00:20:00 In diesem Abschnitt erörtert der Redner die verschiedenen Arten von Verzerrungen, die in Bildern auftreten können, einschließlich Tonnenverzerrung und Nadelkissenverzerrung, und wie sie mit dem Vorzeichen von k1 zusammenhängen. Der Referent erwähnt auch die Möglichkeit, eine Polynomnäherung zu verwenden, um zwischen verzerrten und unverzerrten Koordinaten umzuwandeln, und wie sich dies auf die endgültige Optimierung und das verwendete Koordinatensystem auswirkt. Der Referent weist auf das Fehlen tangentialer Verzerrungen in modernen Abbildungssystemen hin, da sie typischerweise rotationssymmetrisch sind und nur radiale Verzerrungen erfahren.

  • 00:25:00 In diesem Abschnitt geht der Dozent auf mögliche Komplikationen bei der Kamerakalibrierung wie die Dezentrierung von Verzeichnungen und eine gekippte Bildebene ein. Für hochwertige Arbeiten wie Luftaufnahmen müssen diese Faktoren berücksichtigt werden. Der Dozent erklärt, dass es aufgrund der mechanischen Natur der Kameraherstellung zu kleinen Fehlern kommen kann, die sich auf Vergrößerung und Bildverzerrung auswirken können. Dies kann durch ein komplexeres Verzerrungsmodell kompensiert werden, und Tsais Kalibrierungsverfahren beinhaltet die Verwendung eines Kalibrierungsobjekts, das eben oder dreidimensional sein kann. Der Dozent erklärt auch, dass es in der Vergangenheit eher darum ging, die Kamera während der Fertigung abzustimmen, aber heutzutage eine Softwarelösung und Modellerweiterungen verwendet werden, um mit Verzerrungen umzugehen.

  • 00:30:00 In diesem Abschnitt erörtert der Referent den Prozess der Bestimmung von Entsprechungen zwischen Bildpunkten und bekannten Punkten auf einem 3D-Objekt. Im Gegensatz zur Fluchtpunktmethode ist es jedoch unwahrscheinlich, dass wir die Beziehung zwischen dem Kalibrierobjekt und der Kamera mit einem Maßband bestimmen können. Daher müssen wir die Außenorientierung hinzufügen, um das Problem zu lösen, herauszufinden, wo sich das Kalibrierungsobjekt im Raum befindet und wie es gedreht wird, zusätzlich zum Ermitteln der Kameraparameter. Während die Außenorientierung mehr Unbekannte hinzufügt, erzeugt sie genauere Ergebnisse. Die innere Orientierung beinhaltet die perspektivische Projektionsgleichung und den Hauptpunkt und Hauptabstand. Die Strategie dafür besteht darin, schwierige Parameter zu eliminieren und ein Verfahren zu finden, um Messungen zu modifizieren, um die Abhängigkeit von radialer Verzerrung zu verringern, und dann eine Lösung in enger Form für einige Parameter zu finden, bevor auf numerische Methoden zurückgegriffen wird.

  • 00:35:00 In diesem Abschnitt des Videos erklärt der Sprecher, wie man eine gute Anfangsschätzung für die iterative Lösung erhält, wenn man die relative Orientierung in binokularem Stereo berechnet. Während die etablierten Prinzipien im Auge behalten werden sollten, sind einige Verstöße gegen diese Prinzipien in diesem Stadium erlaubt, da die anfängliche Vermutung nicht die Antwort ist. Der Sprecher erklärt, dass die Verwendung der Zeilen- und Spaltennummern für die xi- und yi-Koordinaten und das Ausdrücken von f in Pixelgröße für den Prozess der Bestimmung der anfänglichen Schätzung bequem ist. Die äußere Orientierung wird ebenfalls diskutiert, einschließlich der Rotation und Translation des Kalibrierungsobjekts, die genau bekannt ist. Die Gleichungen, die typischerweise verwendet werden, um eine Position im Kalibrierungsobjekt in eine Position im Kameraobjekt zu transformieren, werden invertiert und verwendet, um zu versuchen, die unbekannten Rotations- und Translationsparameter wiederherzustellen.

  • 00:40:00 In diesem Abschnitt des Videos erörtert der Sprecher die Herausforderungen beim Umgang mit radialer Verzerrung und beim Erhalten von f und tz. Die vorgeschlagene Lösung besteht darin, in Polarkoordinaten zu arbeiten, wobei die radiale Verzerrung nur die Länge und nicht den Winkel ändert, und eine Gleichung mit weniger Unbekannten zu verwenden. Die Gleichung beinhaltet Koordinatenkomponenten des Kalibrierungsobjekts und Bildkoordinaten, die bekannt sind, und die unbekannten Komponenten von r und tx und ty. Eine lineare Gleichung kann gebildet werden, um die Position des Hauptpunktes anzunähern, was für die Lösung notwendig ist.

  • 00:45:00 In diesem Abschnitt erörtert der Referent den Prozess der Bestimmung des Hauptpunktes eines Bildsensors und die Verwendung homogener Gleichungen in der Bildverarbeitung. Um den Hauptpunkt zu bestimmen, schlägt der Sprecher vor, einen Mittelpunkt anzunehmen und Korrespondenzen zu verwerfen, die zu nahe am Mittelpunkt liegen, da kleine Fehler ihre Richtung erheblich beeinflussen können. Sobald der Mittelpunkt angenommen ist, erklärt der Sprecher, dass acht Gleichungen benötigt werden, um die acht Unbekannten für jede Korrespondenz zu finden, und dass diese Gleichungen homogen sind, was zu Null führt. Während homogene Gleichungen in der traditionellen Ausbildung oft übersehen werden, sind sie in der Bildverarbeitung von entscheidender Bedeutung, und es ist wichtig zu wissen, wie man mit ihnen arbeitet.

  • 00:50:00 In diesem Abschnitt erörtert der Sprecher die Methode zur Lösung der homogenen Gleichungen, indem eine der Unbekannten festgelegt und auf einen frei wählbaren Wert gesetzt wird, wodurch die Anzahl der Unbekannten auf sieben reduziert wird. Dies bedeutet, dass mindestens sieben Entsprechungen erforderlich sind und es wünschenswert ist, mehr zu haben, um den Fehler abzuschätzen. Das überbestimmte System linearer Gleichungen kann dann mit Techniken wie der Pseudo-Inversen gelöst werden. Schließlich wird ein Skalierungsfaktor berechnet, um die berechneten Vektoren zu Einheitsvektoren zu machen, was als Plausibilitätsprüfung für die identifizierten Entsprechungen dient. Das Verfahren liefert eine erste Schätzung für alle Unbekannten mit Ausnahme von F, Tz, radialer Verzerrung und Tz, was eine weitere Analyse erfordert.

  • 00:55:00 In diesem Abschnitt erläutert die Vorlesung den Prozess der Ermittlung von f und tz in Bezug auf relative Orientierung, binokulares Stereo, Struktur, Quadriken, Kalibrierung und Neuprojektion. Die Vorlesung betont die Bedeutung orthogonaler Einheitsvektoren bei der Bestimmung der vollständigen Rotationsmatrix. Wenn zwei nicht orthogonale Vektoren vorhanden sind, ist eine kleine Anpassung erforderlich, die zu einem Paar orthogonaler Vektoren führt. Die Vorlesung fährt dann fort zu erklären, wie die quadratische Gleichung problematisch sein kann, um k zu finden, also wird eine andere Formel verwendet, die stabiler ist.

  • 01:00:00 In diesem Abschnitt geht der Dozent auf die Formel zur Lösung einer quadratischen Gleichung und den möglichen Genauigkeitsverlust ein, der bei der Berechnung durch die Subtraktion nahezu gleich großer Größen auftreten kann. Der Dozent stellt ein Näherungsverfahren mit Iteration vor, das eine einfache Lösung liefern kann. Die Erörterung umfasst auch den Planar-Target-Fall, der aufgrund seiner hohen Genauigkeit und Benutzerfreundlichkeit häufig in Kalibrierungs- und Bildverarbeitungsanwendungen eingesetzt wird. Der Dozent erklärt, dass ein Muster mit genau bestimmten Merkmalsecken auf dem Ziel angebracht wird, um die Drehung von Komponenten entlang zweier verschiedener Achsen zu messen, was eine hochgenaue Achsvermessung ermöglicht.

  • 01:05:00 In diesem Abschnitt erörtert der Dozent die Verwendung eines planaren Ziels für die Kalibrierung, was die Konstruktion eines Koordinatensystems mit bekannten x-, y- und z-Werten ermöglicht. Die Gleichung für diesen Ansatz hat weniger Unbekannte und erfordert nur fünf Korrespondenzen statt sieben, was sie zu einer effizienteren Methode macht. Wenn die y-Translation jedoch Null ist, kann diese Methode ungenau werden, und für genauere Lösungen wird empfohlen, tx gleich eins zu setzen. Die Vorlesung berührt auch die Wiederherstellung der oberen zwei mal zwei Teile der Rotationsmatrix für den planaren Fall.

  • 01:10:00 In diesem Abschnitt erklärt der Dozent, wie schwierig es früher war, den Zusammenhang zwischen dem Seitenverhältnis des Steppings in x- und y-Richtung zu finden. Es wurde ein weiterer Parameter benötigt, der x relativ zu y skalieren würde, da verschiedene Dinge den horizontalen und vertikalen Abstand steuern. Der Vortrag erwähnt die Verwendung von Algebra, die ein Durcheinander macht, daher können die Datenblätter der Hersteller verwendet werden, um das Seitenverhältnis genau zu finden. Der Dozent erklärt auch, dass es mit der perspektivischen Projektionsgleichung und der Kenntnis der Unbekannten f und tz möglich ist, beide mit einer Korrespondenz zu berechnen. Es gibt jedoch ein Problem mit der Tiefenvariation, wenn versucht wird, eine Kalibrierungszielebene zu verwenden.

  • 01:15:00 In diesem Abschnitt diskutiert der Dozent die Mehrdeutigkeit der Kalibrierung der äußeren Orientierung in Computer Vision. Aufgrund der Mehrdeutigkeit des Skalierungsfaktors ist es unmöglich, Brennweite und Verschiebung separat zu bestimmen, und daher sind Variationen in der Tiefe erforderlich. Der Dozent erklärt, dass die Außenorientierung mehrdeutig ist, wenn das Kalibrierungsziel nicht in einem 45-Grad-Winkel montiert ist. Schließlich werden der Hauptpunkt und die radiale Verzerrung diskutiert, und eine nichtlineare Optimierung ist erforderlich, um den Fehler zwischen vorhergesagten und tatsächlichen Bildkoordinaten zu minimieren. Hierfür empfiehlt sich das in MATLAB eingebaute Paket LM Diff.

  • 01:20:00 In diesem Abschnitt des Vortrags diskutiert der Moderator das Problem der Redundanz bei der Darstellung von Rotationsparametern und schlägt Lösungen wie Euler-Winkel, Gibbs-Vektor und Einheitsquaternionen vor. Die Einheitsquaternionen sind jedoch redundant mit vier Zahlen für drei Freiheitsgrade. Der Moderator schlägt vor, eine weitere Gleichung und einen Fehlerterm hinzuzufügen, der proportional zur Differenz zwischen der Größe der Quaternion und einem ist, um die Einschränkung durchzusetzen. Der Vortrag erwähnt auch das Problem der Rauschverstärkung und die Verwendung von Monte-Carlo-Methoden, um dieses Problem in Ermangelung einer analytischen Methode anzugehen.

  • 01:25:00 In diesem Abschnitt erklärt der Referent, wie man die statistischen Eigenschaften einer gegebenen Antwort durch das Rauschverstärkungsverhältnis bestimmt, indem man viele Male an Eingaben herumfummelt. Es erlaubt einem, die Antwortverteilung im Parameterraum zu analysieren und herauszufinden, dass bestimmte Faktoren wie die Koeffizienten höherer Ordnung der radialen Verzerrung aufgrund der Empfindlichkeit gegenüber Rauschmessungen schlecht bestimmt werden. Das nächste zu diskutierende Thema ist die Repräsentation von Form und Erkennung und Haltungsbestimmung im 3D-Raum unter Verwendung des bisher aufgebauten Wissens in 2D-Erkennung und Haltungsbestimmung in Mustern.
Lecture 21: Relative Orientation, Binocular Stereo, Structure, Quadrics, Calibration, Reprojection
Lecture 21: Relative Orientation, Binocular Stereo, Structure, Quadrics, Calibration, Reprojection
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 22: Äußere Orientierung, Wiederherstellung der Position und Orientierung, Bündelanpassung, Objektform



Vorlesung 22: Äußere Orientierung, Wiederherstellung der Position und Orientierung, Bündelanpassung, Objektform

Die Vorlesung untersucht das Konzept der Außenorientierung in der Photogrammetrie, bei der die Position und Orientierung von Kameras in einer 3D-Umgebung bestimmt werden. Der Dozent diskutiert verschiedene Methoden zur Lösung von Problemen im Zusammenhang mit der äußeren Orientierung, wie z. B. die Wiederherstellung der Position und Orientierung eines Objekts mithilfe der Dreiecksregel der Zeichen und der Kosinusregel. Das Video untersucht auch die Verwendung von verallgemeinerten Zylindern und Netzen zur Darstellung von 3D-Objekten und deren Ausrichtung in Computer Vision. Der Dozent stellt auch das erweiterte Gaußsche Bild vor, ein Abbildungsverfahren für konvexe Objekte beliebiger Form auf eine Einheitskugel, und erklärt seine Grenzen bei der Behandlung nicht-konvexer Objekte. Darüber hinaus berührt das Video die nichtlineare Optimierung und ihre Anwendung bei der Erstellung genauer 3D-Modelle für die Photogrammetrie.

Die Vorlesung behandelt die Parametrisierung von Kurven und die Berechnung der Krümmung in 2D- und 3D-Szenarien. In 2D kann eine geschlossene konvexe Kurve auf einem Einheitskreis durch den Winkel eta und eine zur Krümmung proportionale Dichte dargestellt werden, die der Kehrwert des Radius der Kurve ist. Die Vorlesung zeigt, wie man eta integriert und xy-Gleichungen verwendet, um das konvexe Objekt für das kreisförmige Bild zu erhalten, und erweitert die Darstellung auf andere Formen wie Ellipsen. In 3D wird das Konzept der Gauss-Abbildung eingeführt, um Punkte auf einer Oberfläche mit Punkten auf einer Einheitskugel zu verbinden, und die Krümmung von Oberflächen wird diskutiert, wobei die Gaußsche Krümmung eine bequeme einzelne skalare Größe ist, die die Krümmung misst. Die Vorlesung endet mit einer Diskussion über das Verhältnis zweier Flächen k und g und wie es mit der Krümmung einer Kugel zusammenhängt.

  • 00:00:00 In diesem Abschnitt wird das Konzept der äußeren Orientierung in der Photogrammetrie diskutiert. Es wird durch eine mit einer Kamera ausgestattete Drohne demonstriert, die mit einem detaillierten Modell über ein Gelände fliegt. Die Außenorientierung beinhaltet die Bestimmung, wo sich die Kamera der Drohne befindet und aus welchem Winkel sie die Objekte in der 3D-Umgebung sieht. Dies erfordert sechs Freiheitsgrade, darunter drei für die Rotationsbewegung und drei für die Translation. Das Modell erfordert drei oder mehr Punkte in den Bilddaten, um genügend Beschränkungen bereitzustellen, um das Problem zu lösen.

  • 00:05:00 In diesem Abschnitt erklärt der Dozent, wie man die Länge der Stativbeine ermittelt, um R1, R2 und R3 zu bestimmen. Durch die Konstruktion von Strahlen und die Berechnung von Winkeln sind die einzigen unbekannten Faktoren die Längen der drei Stäbe. Sobald diese Längen gefunden sind, kann P0 entdeckt werden, indem die drei Kugeln geschnitten werden. Bei der Lösung kann es zu Mehrdeutigkeiten kommen, die jedoch durch ein Spiegelbild oder die zyklische Reihenfolge der Bilder aufgelöst werden können. Der Dozent erklärt, dass Bücher früher voller Formeln waren, um dieses Problem zu lösen, aber jetzt kann dieser Prozess durch Bündelanpassung erreicht werden.

  • 00:10:00 In diesem Abschnitt diskutiert der Dozent die Verwendung verschiedener Regeln und Gleichungen zur Lösung von Problemen im Zusammenhang mit der äußeren Orientierung, nämlich der Wiederherstellung der Position und Orientierung eines Objekts. Die Verwendung dieser Regeln war in der Navigation und Vermessung wichtig, wird aber heutzutage nicht mehr so häufig verwendet. Die Dreiecksregel der Vorzeichen und die Kosinusregel sind die einzigen zwei Regeln, die benötigt werden, aber andere Regeln können der Einfachheit halber nützlich sein. Das diskutierte Problem besteht darin, einen Winkel und Abstand in einem Dreieck zu haben und nach r1 und r2 unter Verwendung von drei nichtlinearen Gleichungen zu lösen. Sobald die Position der Ebene gefunden ist, können Vektoren konstruiert werden, um die Orientierung des Objekts relativ zum Bodenkoordinatensystem zu bestimmen. Least-Squares- und RANSAC-Methoden können auch verwendet werden, um Lösungen zu finden und mit Ausreißern umzugehen.

  • 00:15:00 In diesem Abschnitt erörtert der Dozent die äußere Ausrichtung von Kameras und wie man die drei Vektoren im Kamerakoordinatensystem mit denen im Weltkoordinatensystem über eine Rotationsmatrix in Beziehung setzt. Der Dozent erklärt, dass wir dieses Gleichungssystem als 3x3-Matrixgleichung darstellen können, um die Rotationsmatrix zu lösen, die wir als orthonormale Matrix darstellen können. Wenn wir mehr Übereinstimmungen haben, können wir die kleinsten Quadrate verwenden, um den Fehler in der Bildebene zu minimieren und eine genauere Lösung zu erhalten. Der Dozent erwähnt auch, wie diese Methode für die Bündelanpassung verwendet werden kann, bei der mehrere Kameras dasselbe Objekt oder dieselbe Szene aus verschiedenen Positionen erfassen, und wie es eine Lösung für das damit verbundene Problem bietet, das Hunderte von Kameras umfasst.

  • 00:20:00 In diesem Abschnitt diskutiert der Referent das Problem der nichtlinearen Optimierung in der Photogrammetrie und seine Lösungen durch Methoden wie Levenberg Markart. Bei dieser Optimierung gibt es unbekannte Umgebungsparameter wie Punkte in der Umgebung, Position der Kameras, Kameraeigenschaften und radiale Verzerrung. Unter Verwendung vieler Einschränkungen und Bilder konnten Forscher genaue 3D-Modelle verschiedener Objekte erstellen, manchmal sogar mit einer einzigen Drohnenkamera, die über einen Vulkan flog. Der Redner erwähnt auch interessante Punkte in Bildern, beschreibt eine Online-Ressource von Lowe, um sie zu identifizieren, und geht kurz auf die Bündelanpassung ein, die eine ganze Branche innerhalb der Photogrammetrie ist.

  • 00:25:00 In diesem Abschnitt diskutiert der Sprecher verschiedene Darstellungen von 3D-Objekten, darunter Polyeder und Netze. Polyeder sind relativ einfach zu beschreiben, aber für gekrümmte Oberflächen sind Netze eine bessere Option. Das Ausrichten von Meshes ist jedoch nicht sehr sinnvoll, da die Scheitelpunkte keine bestimmte Bezeichnung oder Bedeutung haben. Der Redner schlägt vor, erweiterte Gaußsche Bilder zu verwenden, eine Online-Ressource, die helfen kann, die Position und Ausrichtung von 3D-Objekten wiederherzustellen.

  • 00:30:00 In diesem Abschnitt des Videovortrags untersucht der Referent das Konzept, eine gute Darstellung für Objekte in der Computervision zu finden, die bestimmte Invarianzbedingungen wie Translation und Rotation erfüllt. Der Referent diskutiert die Grenzen bestimmter Versuche, eine solche Repräsentation zu finden, und geht weiter, um eine Repräsentation im Besonderen zu untersuchen, den verallgemeinerten Zylinder. Bei dieser Darstellung wird eine Generatorform genommen und entlang einer Linie bewegt, um kompliziertere Formen mit der Eigenschaft zu erzeugen, dass der Querschnitt überall entlang der Länge gleich ist. Der Referent erörtert, wie diese Darstellung bestimmte Invarianzbedingungen erfüllt und bei der Objekterkennung und -ausrichtung helfen kann.

  • 00:35:00 In diesem Abschnitt erörtert der Dozent die Verwendung von verallgemeinerten Zylindern zur Darstellung von Objekten und wie sie kombiniert werden können, um ein 3D-Modell zu erstellen. Diese Methode hat jedoch ihre Grenzen, da eine eindeutige Darstellung schwierig zu erreichen ist, wenn es unendlich viele Möglichkeiten gibt, dasselbe Objekt zu beschreiben. Daher kehrt die Vorlesung zu Polyedern als Ausgangspunkt für die 3D-Darstellung zurück, wobei eine Liste von Scheitelpunkten mit 3D-Koordinaten und eine Graphenstruktur verwendet werden, um die Verbindungen zwischen Scheitelpunkten und Flächen zu beschreiben.

  • 00:40:00 In diesem Abschnitt erläutert der Sprecher, wie ein Objekt dargestellt wird, indem Einheitsvektoren gezeichnet werden, die senkrecht zu den Flächen des Objekts stehen, und diese dann mit den Flächen multipliziert werden. Diese Darstellung kann für konvexe Objekte oder komplexe Polyeder eindeutig sein, solange die Summe dieser Vektoren Null ist. Der Sprecher merkt an, dass diese Darstellung eher für die Erkennung und Ausrichtung von Objekten als für die Rekonstruktion nützlich ist. Obwohl es sich um einen nicht-konstruktiven Beweis handelt, ist die Darstellung nicht abschreckend, wie der Sprecher erklärt.

  • 00:45:00 In diesem Abschnitt des Vortrags erläutert der Referent, wie man ein nicht-polyedrisches Objekt, z. B. eine zylindrische und konische Form mit einem flachen Teil, approximiert, indem man es in Scheiben zerschneidet und einen Einheitsvektor unter Berücksichtigung von konstruiert Bereich. Der Sprecher konstruiert dann eine Einheitskugel und trägt an entsprechenden Punkten auf der Kugel Massen auf, die die Oberfläche des Objekts darstellen. Die zylindrische Oberfläche entspricht einem großen Kreis auf der Kugel, und die konische Oberfläche entspricht einem kleinen Kreis auf der Kugel, und die Platte am Ende entspricht einer großen Masse an einem einzigen Punkt. Der Referent erläutert, dass diese Darstellung für die jeweilige Aufgabenstellung vielfältig genutzt werden kann.

  • 00:50:00 In diesem Abschnitt erörtert der Dozent die Verwendung von Repräsentationen zum Ausrichten und Erkennen von Objekten. Die Darstellung beinhaltet die Berechnung einer Orientierungsdichte für jedes Objekt, wobei jeder Punkt auf dem Objekt einen entsprechenden Punkt auf einer Einheitskugel hat. Der Dozent erklärt, dass die Darstellung invariant gegenüber Translation und Rotation ist, wodurch sie einfach zu implementieren ist. Die Dichte kann verwendet werden, um die Krümmung zu bestimmen, wobei eine hohe Dichte einer geringen Krümmung entspricht und eine niedrige Dichte einer starken Krümmung entspricht. Anschließend führt der Dozent das erweiterte Gaußsche Bild ein, das anhand von Flächennormalen den entsprechenden Punkt auf der Kugel für einen gegebenen Punkt auf dem Objekt bestimmt. Der Dozent schlägt vor, mit einer 2D-Version zu beginnen, um das Konzept zu verstehen, bevor er zu 3D übergeht.

  • 00:55:00 In diesem Abschnitt wird eine Abbildungsmethode für konvexe Objekte beliebiger Form auf eine Einheitskugel erklärt. Gauß schlug diese Methode vor, die einen Punkt vom Objekt auf den Punkt auf der Kugel mit der gleichen Richtung der Normalen abbildet. Diese Methode wird verwendet, weil es einfach ist, den nördlichen Himmelspol zu bestimmen oder zu sehen, wo die Sonne steht und zu welcher Jahreszeit es ist, um den Winkel zu messen. Diese Abbildung ist invertierbar, sodass die Entsprechung zwischen dem Punkt mit gleicher Orientierung von einer Kugel zu einem Objekt möglich ist. Die Einschränkung dieser Methode besteht jedoch darin, dass sie einige Probleme mit nicht konvexen Objekten hat.

  • 01:00:00 In diesem Abschnitt geht der Referent auf die Parametrisierung eines Einheitskreises in der Ebene durch den Winkel eta und die Dichte einer zur Krümmung proportionalen Masse ein. Die Krümmung ist die Drehrate einer konvexen geschlossenen Kurve, die die Richtungsänderungsrate oder der Kehrwert des Radius der Kurve ist. Die Dichte ist die Umkehrung der Krümmung, und diese Darstellung auf einem Einheitskreis ist einzigartig für eine geschlossene konvexe Kurve in 2D. Der Referent erklärt, wie man eine Kurve in kleine Facetten aufteilt, die zur Dichte der Kurve beitragen, was zu dem stetigen Fall der Darstellung der Kurve auf einem Einheitskreis führt. Obwohl es in 3D keine Inversion gibt, veranschaulicht der Sprecher Inversion und Integration, um die Ideen weiter zu erläutern.

  • 01:05:00 In diesem Abschnitt erörtert der Dozent die Integration von eta und die Verwendung von x- und y-Gleichungen, um das konvexe Objekt für das kreisförmige Bild in 2D-Fällen zu erhalten. Derselbe Prozess kann jedoch nicht in 3D-Szenarien verwendet werden. Der Dozent führt dann das Konzept des Schwerpunkts der Massenverteilung ein und stellt fest, dass er der Ursprung einer geschlossenen, konvexen Kurve sein sollte. Er erklärt auch die Einschränkung, dass nur bestimmte Arten von Massenverteilungen legitim sind. Zur Veranschaulichung der Theorie ermittelt der Dozent am Beispiel eines Kreises mit Radius r die Krümmung.

  • 01:10:00 In diesem Abschnitt der Vorlesung erklärt der Professor, wie man den Krümmungsradius für einen Kreis und jede andere gekrümmte Form berechnet, auch wenn sie nicht kreisförmig ist. Die Krümmung ist einfach das Inverse des Krümmungsradius, wobei der Radius der Radius des am besten passenden Kreises an einer bestimmten Position ist. Der Professor demonstriert, wie man Mathematik verwendet, um eine Ellipse der Einfachheit halber als gestauchten Kreis darzustellen, und erklärt, dass es viele verschiedene Möglichkeiten gibt, Kurven mathematisch darzustellen. Der Professor stellt jedoch fest, dass diese Methode zur Bestimmung der Orientierung nicht funktioniert, da die Symmetrie zu mehrdeutig ist.

  • 01:15:00 In diesem Abschnitt der Vorlesung erklärt der Referent, wie man Kreise parametrisch mit der Gleichung (x/a)^2 + (y/b)^2 = 1 darstellt. Sie zeigen, wie man damit einen Kreis erzeugt Gleichung, was bequemer ist, als alle möglichen x- und y-Werte auszuprobieren. Anschließend erklärt der Referent, wie sich diese parametrische Darstellung auf die Erde bezieht, die als in vertikaler Richtung gequetschte Kugel betrachtet werden kann. Sie behandeln auch, wie man den Kreis auf die Oberfläche der Kugel abbildet, indem man die Normale zur Kurve durch Differentiation berechnet, x und y umdreht und das Vorzeichen ändert. Der letzte Schritt besteht darin, die Normalenrichtung an die Tangentenrichtung anzupassen.

  • 01:20:00 In diesem Abschnitt wird die Krümmung oder eins über k einer Ellipse in Bezug auf eta, den Winkel auf dem Einheitskreis, analysiert. Die Extrema oder Maximal- und Minimalwerte treten bei eta gleich null und pi über zwei auf, was den Enden der Halbachsen entspricht. Die Krümmung variiert kontinuierlich und hängt von den Halbachsen a und b ab. Sobald die kontinuierliche Verteilung von Extrema für eine Ellipse berechnet wurde, die nicht mit einem Koordinatensystem ausgerichtet ist, kann sie gedreht werden, um sie an eine andere Ellipse zur Objekterkennung anzupassen. Wenn es eine gute Übereinstimmung gibt, ist das Objekt eine Ellipse; ansonsten ist es nicht.

  • 01:25:00 In diesem Abschnitt diskutiert der Sprecher die Anwendung der 2D-Außenorientierung und interessante Filteroperationen, die durch Faltung auf Kreisen durchgeführt werden können. Das Hauptaugenmerk liegt jedoch auf der äußeren 3D-Orientierung, und das Konzept der Gauss-Abbildung wird eingeführt, um Punkte auf der Oberfläche mit Punkten auf der Einheitskugel basierend auf der Orientierung der Oberflächennormalen zu verbinden. Dieses Konzept wird auf Formen ausgedehnt, und die Krümmung von Oberflächen wird diskutiert, wobei die Gaußsche Krümmung eine bequeme einzelne skalare Größe ist, die die Krümmung misst. Bei konvexen Oberflächen wird eine positive Krümmung berücksichtigt, während bei nicht konvexen Oberflächen die Krümmung negativ ist.

  • 01:30:00 In diesem Abschnitt diskutiert der Sprecher das Verhältnis zweier Flächen, k und g, die 1 über r zum Quadrat bzw. r zum Quadrat sind. Das Verhältnis stimmt mit der Krümmung einer Kugel überein, wobei eine kleine Kugel eine hohe Krümmung hat, und umgekehrt für eine große Kugel. Die Diskussion berührt dann die Gaußsche Krümmung und wie sie eng mit den durchgeführten Berechnungen verbunden ist. Es wird auch die integrale Krümmung erwähnt, die für nicht glatte Oberflächen gilt und in der folgenden Vorlesung weiter diskutiert wird, wie sie bei der Erkennung und Ausrichtung verwendet wird.
Lecture 22: Exterior Orientation, Recovering Position & Orientation, Bundle Adjustment, Object Shape
Lecture 22: Exterior Orientation, Recovering Position & Orientation, Bundle Adjustment, Object Shape
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

MIT 6.801 Machine Vision, Herbst 2020. Vorlesung 23: Gaussian Image, Solids of Revolution, Direction Histograms, Regular Polyeder



Vorlesung 23: Gaußsches Bild, Rotationskörper, Richtungshistogramme, Regelmäßige Polyeder

Der Dozent in diesem Video diskutiert das erweiterte Gaußsche Bild (EGI) als Darstellung für 3D-Objekte, die nicht als Polyeder dargestellt werden können. Der Redner erklärt, wie sich die integrale Krümmung auf einen Fleck auf der Oberfläche einer Form bezieht, diskutiert das Konzept von EGI in abstrakten und diskreten Implementierungen und untersucht das Gaußsche Bild verschiedener Formen, einschließlich Ellipsoide, Rotationskörper wie Zylinder und Kegel und nicht konvex Objekte wie Tori. Das EGI kann bei der Bestimmung der Lage eines Objekts im Raum helfen und kann zur Ausrichtung mit Bildverarbeitungsdaten verwendet werden. Methoden zum Ermitteln der Krümmung und der Gaußschen Krümmung von Rotationskörpern werden ebenfalls diskutiert, zusammen mit Herausforderungen bei der Berechnung des EGI von nicht konvexen Objekten.

In Vorlesung 23 eines Informatikkurses erklärt der Dozent, wie man Gaussian Image zur Objekterkennung und -ausrichtung verwendet und wie man ein Richtungshistogramm erstellt, um die wahre Form eines Objekts in einer Bibliothek darzustellen. Sie diskutieren auch die Herausforderungen beim Binning von Histogrammen, beim Aufteilen einer Kugel und beim Ausrichten eines Rotationskörpers sowie regelmäßiger Muster und Körper. Die Vorlesung gibt Einblicke in die Darstellung von Objekten durch Massenverteilung auf einer Kugel, die Vermeidung verdeckter Oberflächenelemente und das Verständnis des Einflusses der Krümmung auf die Massenverteilung. Außerdem werden die Vor- und Nachteile der Verwendung verschiedener Formen für das Klassieren von Histogrammen und die Bedeutung regelmäßiger Muster und Formen für eine gute Qualität erörtert.

  • 00:00:00 In diesem Abschnitt wird das erweiterte Gaußsche Bild als Darstellung für 3D-Objekte diskutiert, die nicht als Polyeder dargestellt werden können. Das Gaußsche Bild ist eine Entsprechung zwischen der Oberfläche des Objekts und Punkten auf der Einheitskugel, basierend auf der Gleichheit der Oberflächennormalen. Indem die Umkehrung der Gaußschen Krümmung als Funktion der Position auf der Kugel aufgetragen wird, kann sie verwendet werden, um zu definieren, wie viel der Oberfläche eine Normale hat, die in diese Richtung zeigt. Die Integration der Gaußschen Krümmung über einen Fleck auf dem Objekt ergibt die Fläche des entsprechenden Flecks auf der Kugel, die als integrale Krümmung bezeichnet wird. Dagegen ergibt die Integration der Gaußschen Krümmung über k auf der Kugel die der wichtigeren Größe entsprechende Fläche auf dem Objekt.

  • 00:05:00 In diesem Abschnitt erörtert der Sprecher das Konzept der integralen Krümmung und ihre Beziehung zu einem Fleck auf der Oberfläche einer Form. Sie erklären, dass durch das Integral der Krümmung über einen bestimmten Bereich die gesamte Orientierungsänderung in diesem Fleck erfasst werden kann, und das ist es, was das Integral berechnet. Der Sprecher wendet dieses Konzept dann auf einen Würfel an und erklärt, dass die integrale Krümmung der Ecke eines Würfels Pi über zwei ist. Sie diskutieren auch die Verteilung auf der Kugel (als "g" bezeichnet), die von der Ausrichtung abhängt, und wie sie einige Einschränkungen haben kann, ähnlich denen, die bei Polyedern zu sehen sind.

  • 00:10:00 In diesem Abschnitt des Vortrags diskutiert der Referent die scheinbare Fläche eines konvexen Objekts, wenn es aus einer bestimmten Richtung betrachtet wird, basierend auf dem Kosinus des Winkels. Der Referent erklärt, dass aus diesem Winkel nur die Facetten mit einem positiven Skalarprodukt sichtbar sind, und stellt fest, dass die Summe aller Facetten Null ist. Dies führt zu dem Schluss, dass der Schwerpunkt im Ursprung liegt und dass die Egis Verteilungen auf der Einheitskugel mit dem Massenschwerpunkt im Zentrum sind.

  • 00:15:00 In diesem Abschnitt wird das Konzept von EGI (Extended Gaussian Image) in abstrakten und diskreten Implementierungen weiter diskutiert. Der Schwerpunkt von EGI entspricht der geschlossenen Objektoberfläche und dem Ursprung der Kugel. Der EGI kann auch für geometrisch definierte Objekte wie das Beispiel einer Kugel, bei der der EGI aufgrund der symmetrischen Natur einfach R zum Quadrat ist, genau berechnet werden. Komplexere Objekte wie ein Ellipsoid können durch die implizite Gleichung der Oberfläche dargestellt werden, was für das Erzeugen von Visualisierungen oder das Integrieren über die Oberfläche nicht praktikabel ist, aber es können alternative Wege zum Beschreiben derselben Oberfläche verwendet werden.

  • 00:20:00 In diesem Abschnitt diskutiert der Dozent eine Methode, um eine parametrische Beschreibung einer Oberfläche zu erhalten, indem Theta und Phi als Parameter verwendet werden. Durch Differenzieren der Gleichung nach diesen Parametern erhält er Tangenten, mit denen er dann die Flächennormale berechnen kann. Er zeigt auch, wie man Krümmung definiert. Anschließend erläutert der Dozent eine Parametrisierung der Einheitskugel anhand von Breiten- und Längenkoordinaten. Dies beinhaltet das Finden der Größe des Vektors, der senkrecht zur Einheitskugel steht, sowie das Definieren eines anderen Vektors. Die Vorlesung erläutert ausführlich den Herleitungsprozess.

  • 00:25:00 In diesem Abschnitt wird das Konzept des erweiterten Gaußschen Bildes eines Ellipsoids untersucht. Die Krümmung in Bezug auf die Normale beinhaltet das Auffinden der Schnittpunkte der Halbachsen auf der Oberfläche des Objekts. Obwohl die Antwort nicht das ist, worauf sich die Theta-Phi-Koordinaten beziehen, dient sie der Erkennung und Orientierung. Innerhalb des Modells gibt es Maxima und Minima, die auf der Kugel verteilt sind. Es gibt drei orthogonale Richtungen, die symmetrisch zur anderen Seite sind. Mit experimentellen Daten kann das Gaußsche Bild bei der Bestimmung der Lage eines Objekts im Raum helfen.

  • 00:30:00 In diesem Abschnitt der Vorlesung liegt der Schwerpunkt auf Rotationskörpern, bei denen es sich um Objekte handelt, die einfacher zu berechnen sind als kompliziertere Formen wie Ellipsoide. Rotationskörper wie Zylinder, Kegel, Kugeln, Hyperboloide aus einer oder zwei Schichten haben einen Generator, der um eine Achse gedreht wird, um das Objekt zu erzeugen, das dann auf eine Kugel abgebildet werden kann, um das Egi zu berechnen. Die Oberflächennormale und der Winkel des Objekts zum Äquator werden berücksichtigt, und das Band des Objekts wird verwendet, um das entsprechende Band auf der Kugel zu erhalten, wodurch die 3D-Form des Objekts auf 2D reduziert wird. Die Fläche des Objektbandes ist 2 pi multipliziert mit dem Radius des Objekts multipliziert mit der Breite des Bandes, während der Radius der Kugel vom Breitengrad abhängt, wobei der Radius umso kleiner ist, je höher der Breitengrad ist.

  • 00:35:00 In diesem Abschnitt diskutiert der Dozent die Bestimmung der Krümmung eines Rotationskörpers mit der Formel k=cos(eta)/r*kg, wobei kg die Krümmung des Generators ist. Der Dozent erklärt, dass die Krümmung die Änderungsrate der Richtung der Oberflächennormalen ist, wenn sie sich entlang des Bogens bewegt, was die 2D-Krümmung des Generators ist. Der Dozent zeigt auch, dass die Formel unterschiedliche Versionen hat, je nachdem, ob die Kurve implizit oder als Funktion von s oder Höhe z gegeben ist. Schließlich bietet die Vorlesung eine praktische Formel zum Bestimmen der Krümmung eines Rotationskörpers, wenn r als Funktion von s gegeben ist.

  • 00:40:00 In diesem Abschnitt beschreibt der Sprecher zwei Möglichkeiten, die Gaußsche Krümmung eines Rotationskörpers zu erhalten. Die erste Methode besteht darin, den Kurvengenerator als r als Funktion der Bogenlänge zu definieren, mit einer der 12 gebräuchlichsten Arten, eine Kurve anzugeben. Die zweite Methode betrachtet die andere angegebene Variable z und verwendet trigonometrische Terme, um die Krümmung zu erhalten. Der Referent zeigt den Schritt-für-Schritt-Prozess des Differenzierens in Bezug auf z und wie sich dies auf Tangenten- und Sekantenterme bezieht. Die endgültige Formel für die Gaußsche Krümmung wird bereitgestellt, die am Ende etwas chaotischer ist als die erste Methode, aber immer noch nützlich für Fälle ist, in denen die Generatorkurve als r als Funktion von z angegeben ist.

  • 00:45:00 In diesem Abschnitt erläutert der Referent, wie man erweiterte Gaußsche Bilder von Rotationskörpern erzeugt, und geht ein Beispiel mit einem Torus oder einer Ringform durch. Sie erklären, dass es bei nicht konvexen Objekten wie dem Torus mehr als einen Punkt auf dem Objekt mit derselben Oberflächenorientierung geben kann, wodurch die Abbildung nicht invertierbar wird. Der Torus hat zwei solche Punkte, einen konvexen und einen Sattelpunkt, der seine eigenen Herausforderungen mit sich bringt.

  • 00:50:00 In diesem Abschnitt erörtert der Referent die Berechnung des erweiterten Gaußschen Bildes eines nicht konvexen Objekts unter Verwendung von Formeln für den Radius und die zweite Ableitung. Sie beobachten, dass sich die Oberflächenkrümmung an bestimmten Stellen von positiv zu negativ ändert, wodurch das Objekt in zwei Teile mit unterschiedlichen Krümmungen geteilt wird. Der Referent schlägt hierfür zwei Möglichkeiten vor, entweder die Gaußsche Krümmung an allen Punkten mit gleicher Flächenorientierung zu berechnen und aufzusummieren oder eine Formel für die Summe der Gaußschen Krümmungen zu verwenden, die einige Terme kürzt.

  • 00:55:00 In diesem Abschnitt erörtert der Sprecher das Extended Gaußian Image (EGI) und wie es zur Ausrichtung verwendet werden kann. Der Referent erklärt, dass der EGI für einen Torus glatt variiert und am Pol eine Singularität aufweist, die durch Einbetten der Einheitskugel in einen Einheitszylinder sichtbar gemacht werden kann. Diese Variation kann verwendet werden, um das Modell des Objekts mit Bildverarbeitungsdaten auszurichten, indem die beiden Sphären mit einer Verteilung zusammengebracht werden, die sich gleichmäßig ändert, aber zu den Polen hin schnell wächst. Dies ergibt jedoch nicht die vollständige Lage, da das Objekt immer noch um die Achse gedreht werden kann, ohne etwas zu ändern, was für einen Rotationskörper angemessen ist. Der Redner erwähnt auch, wie Leute versucht haben, das EGI für den diskreten polyedrischen Fall iterativ zu rekonstruieren.

  • 01:00:00 In diesem Abschnitt erklärt der Sprecher, dass die Rekonstruktion eines Objekts aus seinem Gaußschen Bild ein kompliziertes Problem ist, das einen großen Such- oder Optimierungsprozess erfordern würde, mit den Abständen aller Ebenen vom Ursprung als Parameter. Dieser Ansatz ist jedoch für die Erkennung und Ausrichtung unter Verwendung von Gaußschen Bildern nicht erforderlich, da das Verfahren den Vergleich von Verteilungen auf der Kugel und das Drehen einer Kugel relativ zur anderen beinhaltet, bis eine gute Übereinstimmung erzielt wird. Der Referent stellt auch ein neues Verständnis der Bänder auf der Kugel vor, das die Berechnung der Krümmung und eine Beschreibung des Quetscheffekts in der Nähe der Pole ermöglicht.

  • 01:05:00 In diesem Abschnitt diskutiert der Dozent die Fläche eines Torus und wie er mit dem Gaußschen Bild zusammenhängt. Er erklärt, dass zwei Donuts mit unterschiedlichen Formen, aber derselben Fläche denselben EGI haben, was ein Nachteil der Zulassung nicht-konvexer Objekte ist. Dieser Verlust an Eindeutigkeit kann in einer Anwendung von Bedeutung sein oder auch nicht, aber er zeigt, dass die Dinge nicht ganz so schön sind, wenn wir dies auf nicht konvexe Objekte ausdehnen. Darüber hinaus gibt es Probleme mit verborgenen Oberflächenelementen in nicht konvexen Objekten, und beim Konstruieren des EGI unter Verwendung numerischer Daten können kleine Fehler auftreten.

  • 01:10:00 In diesem Abschnitt erörtert der Dozent, wie man mit unvollkommenen realen Objekten numerisch umgeht und sie basierend auf ihrer wahren Form in eine Bibliothek einfügt. Sie erklären, wie man die Oberflächennormale und den Flächeninhalt eines dreieckigen Flecks auf der Oberfläche eines Objekts mit Hilfe von photometrischen Stereodaten oder Mesh-Modellen berechnet. Anschließend beschreiben sie, wie man eine Massenverteilung auf einer Kugel basierend auf der Oberflächennormalen erstellt, die ein Richtungshistogramm darstellt. Diese Methode bietet eine Möglichkeit, die Auswirkung der Krümmung auf die Massenverteilung zu verstehen und warum es vorteilhaft ist, Massenbeiträge hinzuzufügen, anstatt sie zu subtrahieren. Insgesamt ermöglicht diese Technik die Erstellung von Richtungshistogrammen und die Darstellung von Objekten in einer Bibliothek basierend auf ihrer wahren Form.

  • 01:15:00 In diesem Abschnitt erörtert der Sprecher das Konzept der Richtungshistogramme, bei denen die Kugel in Kästchen unterteilt und die Ereignisse in jeder Zelle gezählt werden. Die Methode wird verwendet, um eine starke Konzentration in einer bestimmten Richtung anzuzeigen, z. B. parallele Muskelfasern und Fließrichtungen von Wasser im Gehirn. Es wird auch in Bereichen wie der Bildgebung von Tumoren eingesetzt, wo eine gleichmäßige Verteilung in Orientierungshistogrammen auf ein unregelmäßiges Gewebe hinweist. Die Nachteile der Verwendung von Quadraten zum Teilen der Ebene werden erklärt, wobei abgerundetere Formen wie ein Sechseck vorteilhafter sind als Dreiecke.

  • 01:20:00 In diesem Abschnitt erörtert der Dozent die Herausforderungen bei der Auswahl von Zellen für das Binning von Histogrammen und wie zufälliges Rauschen beim Vergleich von Histogrammen berücksichtigt werden kann. Das Konzept, ein zweites verschobenes Histogramm zu haben, wird eingeführt, aber diese Lösung wird teurer, wenn die Dimensionalität zunimmt. Eine andere Lösung besteht darin, die Verteilung mit einer Spread-Funktion zu falten, und dies kann billiger sein als die vorherige Lösung. Die Vorlesung befasst sich dann mit dem Problem der Aufteilung einer Kugel und den gewünschten Eigenschaften einer Tessellation, wie z. B. gleiche Fläche, gleiche Formen, abgerundete Formen, ein regelmäßiges Muster und die Leichtigkeit des Binnings. Es wird darauf hingewiesen, dass diese gewünschten Eigenschaften in ebenen Fällen leicht zu erreichen sind, aber auf einer gekrümmten Oberfläche wie einer Kugel komplizierter werden.

  • 01:25:00 In diesem Abschnitt diskutiert der Dozent das Problem der Ausrichtung eines Rotationskörpers mit sich selbst nach der Rotation und den Vorteil der Ausrichtung bei Rotation. Er erklärt, wie eine Kugel durch die Projektion eines Dodekaeders auf ihre Oberfläche in zwölf Abschnitte unterteilt werden kann und jeder dieser Abschnitte durch eine Zahl dargestellt werden kann. Wenn die Kugel gedreht wird, werden die Nummern, die die Abschnitte darstellen, einfach permutiert, und es gibt keinen Qualitätsverlust. Wenn sich die Abschnitte jedoch nach der Drehung überlappen, wäre es notwendig, das Gewicht in jedem Abschnitt neu zu verteilen, was zu einem Qualitätsverlust führen würde. Der Dozent erwähnt dann kurz regelmäßige Muster und regelmäßige Körper als Ausgangspunkte für Orientierungshistogramme, weist aber darauf hin, dass dies in der nächsten Vorlesung ausführlicher behandelt wird.
Lecture 23: Gaussian Image, Solids of Revolution, Direction Histograms, Regular Polyhedra
Lecture 23: Gaussian Image, Solids of Revolution, Direction Histograms, Regular Polyhedra
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...