Maschinelles Lernen und neuronale Netze - Seite 12

 

Vorlesung 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution



Vorlesung 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution

In Vorlesung 4 des Kurses zur visuellen Wahrnehmung für Autonomie behandelt der Dozent Themen wie Fixed Optical Flow, Optical Mouse, Constant Brightness Annahme, Closed Form Solution und Time to Contact. Die Annahme einer konstanten Helligkeit führt zu der Bedingungsgleichung für die Helligkeitsänderung, die die Bewegung im Bild mit dem Helligkeitsgradienten und der Helligkeitsänderungsrate in Beziehung setzt. Der Dozent demonstriert auch, wie man Situationen modelliert, in denen die Kamera oder die Oberfläche geneigt ist, und erörtert den Vorteil der Multiskalen-Mittelwertbildung bei der Handhabung großer Bewegungen. Darüber hinaus untersucht der Vortrag die Nutzung der Kontaktzeit in verschiedenen autonomen Situationen und vergleicht verschiedene Steuerungssysteme für die Landung in planetaren Raumfahrzeugen. Abschließend geht der Vortrag auf die Projektion einer Linie ein und wie diese mittels perspektivischer Projektion definiert werden kann.

Der Referent diskutiert die Anwendungen der Bildverarbeitung, einschließlich der Verwendung von Fluchtpunkten zur Wiederherstellung der Transformationsparameter für die Kamerakalibrierung und wie Kalibrierungsobjekte mit bekannter Form die Position eines Punktes im kamerazentrierten System bestimmen können. Die Vorlesung behandelt auch die Vor- und Nachteile der Verwendung verschiedener Formen als Kalibrierungsobjekte für optische Flussalgorithmen, wie Kugeln und Würfel, und wie man das unbekannte Projektionszentrum mit einem Würfel und drei Vektoren findet. Der Vortrag endet mit der Hervorhebung der Bedeutung der Berücksichtigung radialer Verzerrungsparameter für die reale Roboterkamerakalibrierung.

  • 00:00:00 In diesem Abschnitt spricht der Dozent über Bildentstehung und Bewegungsverfolgung. Sie diskutieren perspektivische Projektionsgleichungen und den Fokus der Expansion, das ist der Punkt, auf den hin Bewegung stattfindet. Es wird die Annahme konstanter Helligkeit eingeführt, was bedeutet, dass sich die Helligkeit eines Bildes eines Punktes in der Umgebung unter vielen Umständen im Laufe der Zeit nicht ändert. Der Dozent erklärt, wie diese Annahme zur Bedingungsgleichung für die Helligkeitsänderung führt, die die Bewegung im Bild mit dem Helligkeitsgradienten und der Helligkeitsänderungsrate in Beziehung setzt. Die Vorlesung behandelt auch, wie das Lösen nach Geschwindigkeit zusätzliche Einschränkungen erfordert und wie alles, was sich mit der gleichen Geschwindigkeit bewegt, eine extreme Form der Einschränkung sein kann.

  • 00:05:00 In diesem Abschnitt des Vortrags erörtert der Referent die Technik der Fehlerminimierung zur Schätzung von u und v bei Problemen mit optischem Fluss, bei denen es ein konstantes u und v für das gesamte Bild gibt, wie im Fall einer optischen Maus . Dieser Prozess ist stark überbeschränkt, aber wir können eine lineare Gleichung in den Unbekannten mit einer symmetrischen Zwei-mal-Zwei-Koeffizientenmatrix erhalten. Der Referent zeigt, wie man die Ableitungen berechnet und unter welchen Bedingungen diese Methode nicht funktioniert. Sie erklären auch einen bestimmten Bildtyp, bei dem e_x und e_y überall im gleichen Verhältnis stehen, und diese Bedingung gilt.

  • 00:10:00 In diesem Abschnitt spricht der Dozent über das Isofoto, bei dem exy konstant ist, das eine gerade Linie mit parallelen Linien ist, die sich nur in c unterscheiden. Diese Art von Bild stellt optische Maussysteme vor Probleme, da sie das Gleiten in eine Richtung nicht messen können, wodurch es unmöglich ist, den anderen Teil davon zu bestimmen. Die Vorlesung führt dann in das Konzept der Kontaktzeit ein, das eher von Verhältnissen von Bruchteilen als von absoluten Werten abhängt, wodurch das System ohne Kalibrierung arbeiten kann. Der Dozent demonstriert auch, wie man die Gleichung ableiten kann, indem er zeigt, dass die Größe des Objekts konstant ist, was dazu führt, dass die Ableitung des Produkts Null ist.

  • 00:15:00 In diesem Abschnitt erläutert der Dozent eine einfache Beziehung, die eine bestimmte prozentuale Größenänderung zwischen Einzelbildern in eine bestimmte prozentuale Änderung des Abstands umwandelt, die sich direkt in die Kontaktzeit (TTC) umwandelt. Der Dozent betont, wie wichtig es ist, die Bildgröße bei der Schätzung der TTC mit der Bildgrößenmethode genau zu messen, da die fraktionelle Änderung des Bildes von Frame zu Frame bei einer hohen TTC relativ gering ist. Der Dozent diskutiert auch die Annahmen, die bezüglich der Kontaktzeit relativ zu einer ebenen Oberfläche getroffen wurden, wobei er feststellt, dass die Annahme, dass z immer noch konstant ist, gilt.

  • 00:20:00 In diesem Abschnitt erläutert der Dozent, wie Situationen modelliert werden, in denen die Kamera oder die Oberfläche geneigt ist. Bei einer geneigten Ebene ist die Tiefe im Bild nicht mehr konstant. Die Gleichung für eine Ebene ist eine lineare Gleichung in x und y, was ein komplizierter zu betrachtendes Modell sein kann. Im Allgemeinen könnten dort Gleichungen zu kompliziert werden und es könnte keine geschlossene Lösung geben. Es ist jedoch besser, sich zuerst auf Fälle zu konzentrieren, in denen es eine Lösung in geschlossener Form gibt. Wenn die Oberfläche nicht planar ist, können wir sie durch Polynome annähern, um ein Problem der kleinsten Quadrate aufzustellen. Leider werden wir keine geschlossene Lösung finden, also brauchen wir eine numerische Lösung. Nichtsdestotrotz müssen wir vorsichtig sein, mehr Variablen einzuführen, da dies die Lösung in eine andere Richtung kringeln lässt und jeden Vorteil gegenüber der Modellierung verliert, dass die Oberfläche planar ist.

  • 00:25:00 In diesem Abschnitt erörtert der Referent die Probleme bei der Multiskalenimplementierung im optischen Fluss. Trotz der erfolgreichen Implementierung erwähnt er, dass die Genauigkeit der Ergebnisse abnimmt, wenn die Bewegung im Bild größer wird. Eine Möglichkeit, dieses Problem zu lösen, besteht darin, mit kleineren Bildern zu arbeiten, wodurch die Bewegung pro Frame reduziert wird. Der Redner erörtert auch den Vorteil der Multiskalen-Mittelwertbildung, bei der mit immer kleineren Bildsätzen gearbeitet wird, um große Bewegungen zu bewältigen. Der Arbeitsaufwand steigt mit der Anzahl der Teilmengen, der Gesamtrechenaufwand sinkt jedoch. Der Referent betont, dass der Prozess der Multiskalenoptimierung komplizierter ist als die einfache Zwei-mal-Zwei-Blockmittelung, die in der vorherigen Vorlesung verwendet wurde.

  • 00:30:00 In diesem Abschnitt des Vortrags erörtert der Referent, wie das Arbeiten mit mehreren Skalen die Ergebnisse von Berechnungen des optischen Flusses erheblich verbessern kann. Er erklärt, dass die Unterabtastung nach der Tiefpassfilterung erfolgen sollte, um Aliasing zu verhindern, und obwohl man mit einem weniger aggressiven Faktor wie der Quadratwurzel aus 2 unterabtasten könnte, wird dies oft zugunsten des einfacheren Zwei-mal-Zwei-Blocks ignoriert Mittelungsmethode. Der Redner erwähnt auch mehrere interessante Anwendungen des optischen Flusses, wie etwa die Nutzung der Zeit bis zum Kontakt, um Flugzeugunfälle zu verhindern und die Landung von Raumfahrzeugen auf dem Jupitermond Europa zu verbessern. Er erklärt, wie ein Steuersystem Time-to-Contact-Messungen nutzen kann, um die Beschleunigung des Raketentriebwerks zu ändern und ein Raumfahrzeug zuverlässiger zum Absturz zu bringen.

  • 00:35:00 In diesem Abschnitt behandelt der Vortrag ein einfaches System zur Aufrechterhaltung einer konstanten Zeit bis zum Kontakt während des Abstiegs, das in verschiedenen autonomen Situationen wie Autos oder Raumfahrzeugen verwendet werden kann. Die Grundidee besteht darin, die auf den Motor ausgeübte Kraft basierend darauf anzupassen, ob die gemessene Kontaktzeit kürzer oder länger als gewünscht ist, um sie konstant zu halten. Diese Methode hängt nicht von einer bestimmten Textur oder Kalibrierung ab, sondern verlässt sich einfach auf das Verhältnis zwischen Höhe und Geschwindigkeit. Die Gleichung für dieses System kann als gewöhnliche Differentialgleichung gelöst werden, deren Lösung proportional zu z ist.

  • 00:40:00 In diesem Abschnitt diskutiert der Dozent ein konstantes Time-to-Contact-Kontrollsystem und vergleicht es mit einem traditionelleren Ansatz für die Landung in planetaren Raumfahrzeugen. Das konstante Time-to-Contact-Steuerungssystem ist vorteilhaft, da es energieeffizienter ist, da es die Time-to-Contact konstant konstant hält und keine detaillierten Kenntnisse über den Abstand zur Oberfläche und die Geschwindigkeit erfordert. Der Dozent zeigt die Berechnungen der Kontaktzeit unter konstanter Beschleunigung und betont, dass die Zeit bis zum Kontakt immer die Hälfte dessen ist, was bei einer Strategie mit konstanter Höhe beobachtet wird.

  • 00:45:00 In diesem Abschnitt erörtert der Dozent das Konzept der konstanten Beschleunigungskontrolle und wie es im Vergleich zu herkömmlichen Ansätzen zur Schätzung von Entfernung und Geschwindigkeit abschneidet. Anschließend führt er die Verallgemeinerung des optischen Flusses ein, der als fester Fluss bezeichnet wird, und erklärt, dass er davon ausgeht, dass die Bewegung aller Teile des Bildes gleich ist. In Fällen, in denen es jedoch unabhängige Bewegungen oder eine kleine Anzahl von Unbekannten gibt, kann das System überbestimmt sein. Er diskutiert auch das schlecht gestellte Problem von unterbeschränkten Systemen und wie eine starke Beschränkung verwendet werden kann, um es zu lösen.

  • 00:50:00 In diesem Abschnitt erörtert der Dozent, wie benachbarte Punkte in einem Bild sich nicht unabhängig voneinander bewegen, sondern dazu neigen, sich mit ähnlichen Geschwindigkeiten zu bewegen, was Einschränkungen für den optischen Fluss schafft. Diese Einschränkung ist jedoch keine einfache Gleichung und erfordert präzisere Werkzeuge, um sie zu lösen. Wenn diese Werkzeuge nicht verfügbar sind, kann das Bild in kleinere Teile unterteilt werden, bei denen die Annahme einer konstanten Geschwindigkeit in diesem Bereich weniger wichtig ist. Diese Aufteilung führt jedoch auch zu Kompromissen zwischen der Auflösung und der Gleichmäßigkeit der Helligkeit in diesen Bereichen. Der Vortrag geht auch auf die Idee von Fluchtpunkten ein und wie sie zur Kamerakalibrierung oder zur Bestimmung der relativen Orientierung zweier Koordinatensysteme verwendet werden können.

  • 00:55:00 In diesem Abschnitt der Vorlesung diskutiert der Professor die Projektion einer Linie und wie sie auf verschiedene Weise definiert werden kann, einschließlich algebraisch und geometrisch. Er erklärt, dass eine Linie in 3D durch einen Punkt und eine Richtung unter Verwendung eines Einheitsvektors definiert werden kann und dass verschiedene Punkte auf der Linie unterschiedliche Werte von s haben. Der Professor erklärt weiter, wie dies durch perspektivische Projektion in das Bild projiziert werden kann, was zu einer unordentlichen Gleichung mit den Variablen x, y und z führt. Indem s jedoch sehr groß gemacht wird, kann die Gleichung vereinfacht werden und die Auswirkungen der Kamerakalibrierung und der Abbildungssysteme können untersucht werden.

  • 01:00:00 In diesem Abschnitt spricht der Referent über Fluchtpunkte, die entstehen, wenn Linien in der Bildebene zu einem Punkt zusammenlaufen. Diese Fluchtpunkte können verwendet werden, um etwas über die Geometrie des Bildes zu lernen, was in realen Szenarien wie der Warnung von Polizisten, Bauarbeitern und anderen Personen, die durch ein entgegenkommendes Auto gefährdet sein könnten, angewendet werden kann. Die Kamera kann die Drehung ihres kamerazentrischen Koordinatensystems relativ zur Straße bestimmen, indem sie einen Fluchtpunkt findet. Parallele Linien haben denselben Fluchtpunkt, was bedeutet, dass bei einer Reihe von parallelen Linien, die eine rechteckige Form bilden, drei Fluchtpunkte erwartet werden.

  • 01:05:00 In diesem Abschnitt erörtert der Dozent zwei Anwendungen der Bildverarbeitung: das Finden der Fluchtpunkte zur Wiederherstellung der Transformationsparameter für die Kamerakalibrierung und die Verwendung von Kalibrierungsobjekten mit bekannten Formen zur Bestimmung der Position eines Punktes in der Kamerazentrik System. Der Dozent erklärt, dass das Auffinden der Fluchtpunkte die Wiederherstellung der Schwenk- und Neigebewegung der Kamera relativ zur Richtung der Straße und zum Horizont ermöglicht. Der Vortrag behandelt auch die Notwendigkeit, die Position des Objektivs über der Bildebene und die Höhe der Mittelprojektion für eine genaue Kamerakalibrierung wiederherzustellen. Der Dozent schlägt vor, zur Bestimmung der Position eines Punktes im kamerazentrierten System ein Kalibrierobjekt mit bekannter Form, zB eine Kugel, zu verwenden.

  • 01:10:00 In diesem Abschnitt diskutiert der Dozent die Vor- und Nachteile der Verwendung verschiedener Formen als Kalibrierungsobjekte für optische Flussalgorithmen. Während Kugeln relativ einfach herzustellen und zu beschaffen sind, können sie verrauscht und nicht sehr genau sein, wenn sie in die Bildebene projiziert werden. Andererseits haben Würfel aufgrund ihrer rechten Winkel und parallelen Linien, die den Fluchtpunkten entsprechen, erhebliche Vorteile. Der Dozent erklärt, wie das Finden der Fluchtpunkte helfen könnte, die Bildprojektionen von drei Vektoren zu bestimmen, die in 3D entlang der Linien zeigen. Diese Informationen können verwendet werden, um optische Flussalgorithmen genauer zu kalibrieren.

  • 01:15:00 In diesem Abschnitt spricht der Sprecher über das Finden des unbekannten Projektionszentrums P, indem ein Kalibrierungsobjekt wie ein Würfel und drei Vektoren verwendet werden: A, B und C. Die drei Vektoren stehen im rechten Winkel zu einander, was hilft, drei Gleichungen zu erstellen, die die drei Unbekannten von P lösen. Die Terme zweiter Ordnung in den quadratischen Gleichungen ermöglichen jedoch mehrere Lösungen, und hier kommt der Satz von Zoot ins Spiel. Der Sprecher zeigt, dass die maximale Anzahl von Lösungen das Produkt der Ordnung der Gleichungen ist. Um die Gleichungen zu vereinfachen, subtrahiert der Sprecher sie paarweise, was zu drei linearen Gleichungen führt, die verwendet werden können, um die Unbekannten zu finden.

  • 01:20:00 In diesem Abschnitt erfahren wir, dass es zwar drei lineare Gleichungen gibt, diese aber nicht linear unabhängig sind und es daher nur zwei Lösungen gibt. Die linearen Gleichungen definieren Ebenen im 3D-Raum und ergeben, wenn sie geschnitten werden, eine Linie, die die dritte Ebene enthält, die keine zusätzlichen Informationen liefert. Diese Technik ist hilfreich, um eine Kamera zu kalibrieren und die Position des Projektionszentrums zu finden. Echte Kameras haben jedoch radiale Verzerrungsparameter, die für die Kalibrierung echter Roboterkameras berücksichtigt werden müssen.
Lecture 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution
Lecture 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vortrag 5: TCC und FOR MontiVision Demos, Fluchtpunkt, Verwendung von VPs in der Kamerakalibrierung



Vortrag 5: TCC und FOR MontiVision Demos, Fluchtpunkt, Verwendung von VPs in der Kamerakalibrierung

Die Vorlesung behandelt verschiedene Themen im Zusammenhang mit der Kamerakalibrierung, darunter die Verwendung von Fluchtpunkten in der perspektivischen Projektion, die Triangulation zum Auffinden des Projektionszentrums und des Hauptpunkts in der Bildkalibrierung und das Konzept der Normalmatrizen zur Darstellung der Rotation in einer orthonormalen Matrix. Der Dozent erklärt auch die mathematische Bestimmung der Brennweite einer Kamera und wie man Fluchtpunkte verwendet, um die Ausrichtung einer Kamera relativ zu einem Weltkoordinatensystem zu bestimmen. Darüber hinaus wird die Verwendung von TCC und FOR MontiVision Demos diskutiert, zusammen mit der Bedeutung des Verständnisses der Geometrie hinter Gleichungen bei der Lösung von Problemen.

Der Vortrag behandelt verschiedene Themen im Zusammenhang mit Computer Vision, darunter den Einfluss der Beleuchtung auf die Oberflächenhelligkeit, wie matte Oberflächen mit zwei verschiedenen Lichtquellenpositionen gemessen werden können, und die Verwendung von Albedo zur Lösung des Einheitsvektors. Der Vortrag behandelt auch den Fluchtpunkt bei der Kamerakalibrierung und eine einfache Methode zur Helligkeitsmessung mit drei unabhängigen Lichtquellenrichtungen. Abschließend geht der Referent auf die orthografische Projektion als Alternative zur perspektivischen Projektion und die Voraussetzungen für deren Einsatz bei der Flächenrekonstruktion ein.

  • 00:00:00 In diesem Abschnitt demonstriert der Referent die Verwendung von TCC und FOR MontiVision Demos auf einer Webcam, die auf eine Tastatur gerichtet ist. Sie diskutieren die Bedeutung von Time-to-Contact-Berechnungen und die Faktoren, die diese Berechnungen beeinflussen. Der Referent diskutiert auch das Konzept der Fluchtpunkte in der perspektivischen Projektion und wie sie bei der Kamerakalibrierung verwendet werden können. Sie erklären die Gleichung für Time-to-Contact-Berechnungen und wie sich das Vorzeichen von dzdt auf das Bild von sich bewegenden Objekten auswirkt.

  • 00:05:00 In diesem Abschnitt erörtert der Dozent das Konzept eines Fluchtpunkts bei der Kamerakalibrierung, das ist der Punkt auf der Bildebene, an dem eine spezielle parallele Linie durch das Projektionszentrum geht. Auch die anderen parallelen Linien haben Fluchtpunkte, und je weiter sie sich entfernen, desto näher kommt ihre Projektion auf das Bild der Projektion der speziellen Linie. Dieses Konzept ermöglicht die Bestimmung von Beziehungen zwischen Koordinatensystemen und Kamerakalibrierung, was für die Objekterkennung in Computer-Vision-Anwendungen nützlich ist. Der Dozent liefert ein Beispiel für eine Welt rechteckiger Objekte mit Sätzen paralleler Linien, die ein Koordinatensystem definieren, das zur Kalibrierung auf die Bildebene projiziert werden kann.

  • 00:10:00 In diesem Abschnitt spricht der Sprecher über Fluchtpunkte und ihre Verwendung bei der Kamerakalibrierung. Der Referent erklärt, dass es drei Fluchtpunkte gibt, die durch Verlängerung paralleler Linien genau bestimmt werden können, und diese Punkte können verwendet werden, um das Projektionszentrum zu finden. Das Projektionszentrum ist dort, wo die Beziehung zwischen dem Koordinatensystem im Objekt und dem Koordinatensystem in der Bildebene hergestellt wird. Durch Verbinden des Projektionszentrums mit den Fluchtpunkten in der Bildebene können drei Vektoren erzeugt werden, und diese Vektoren können verwendet werden, um den Punkt zu finden, an dem die Richtungen zu den Fluchtpunkten rechtwinklig zueinander sind. Der Sprecher merkt an, dass der Ort aller Orte, an denen Sie sich befinden könnten, von denen aus die Fluchtpunkte im rechten Winkel zueinander stehen, ein Kreis ist.

  • 00:15:00 In diesem Abschnitt geht der Dozent auf die 3D-Version von TCC und die Kamerakalibrierung ein. Er erklärt, dass die Einschränkung für die Position des Projektionszentrums darin besteht, dass es auf einer Kugel liegt, und wie man Kugeln verwendet, um die Möglichkeiten für das Projektionszentrum einzugrenzen. Anschließend geht der Dozent auf lineare Gleichungen und Geraden ein sowie auf die Parametrisierung von Geraden durch Theta und Rho. Die Parametrisierung ist nützlich, da sie Singularitäten vermeidet und eine Welt mit zwei Freiheitsgraden für Linien bereitstellt.

  • 00:20:00 In diesem Abschnitt behandelt der Dozent die Darstellung von Ebenen in drei Dimensionen durch lineare Gleichungen mit drei Unbekannten. Er erklärt, dass es aufgrund eines Skalierungsfaktors tatsächlich nur drei statt vier Freiheitsgrade gibt. Diese Dualität bedeutet, dass es eine Abbildung zwischen Ebenen und Punkten in 3D gibt, ähnlich wie die Abbildung zwischen Linien und Punkten in 2D. Der Dozent führt dann in das Problem der Kamerakalibrierung ein und vergleicht es mit dem Problem der Multilateration in der Robotik, bei dem es darum geht, drei Sphären zu schneiden.

  • 00:25:00 In diesem Abschnitt erklärt der Sprecher, wie man nach dem Schnittpunkt zweier Kugeln im 3D-Raum auflöst. Die erste Sphäre ist definiert als eine Gleichung mit Termen zweiter Ordnung, die zu bis zu acht möglichen Lösungen führen könnte. Durch Subtrahieren dieser Gleichung von einer zweiten Sphäre kann jedoch stattdessen eine lineare Gleichung erhalten werden. Durch Wiederholen dieses Vorgangs für alle Kugelpaare können drei lineare Gleichungen mit drei Unbekannten erstellt werden, die dann gelöst werden können. Obwohl dies eine perfekte Lösung zu sein scheint, ist es wichtig zu beachten, dass die durch diese Methode erstellte Matrix oft singulär und daher in ihrer Lösung nicht eindeutig ist.

  • 00:30:00 In diesem Abschnitt erörtert der Sprecher das Problem der Manipulation von Gleichungen und des Verlusts wichtiger Informationen in diesem Prozess. Er erklärt, dass es zwar völlig in Ordnung ist, neue Gleichungen abzuleiten, man aber darauf achten muss, die ursprünglichen Gleichungen nicht wegzuwerfen, da sie möglicherweise noch entscheidende Informationen enthalten, die zur Lösung des Problems erforderlich sind. Er demonstriert dies am Beispiel von linearen und quadratischen Gleichungen und wie einige Gleichungen verworfen werden können, während andere beibehalten werden müssen, um die gewünschte Anzahl von Lösungen zu erhalten. Der Referent betont auch, wie wichtig es ist, die Geometrie hinter den Gleichungen zu verstehen, da dies wertvolle Erkenntnisse liefern kann, die möglicherweise nicht sofort aus der Algebra ersichtlich sind.

  • 00:35:00 In diesem Abschnitt des Transkripts erörtert der Sprecher die Triangulation und wie man das Projektionszentrum und den Hauptpunkt bei der Bildkalibrierung findet. Sie erklären, dass das Projektionszentrum anhand von drei bekannten Punkten gefunden werden kann, die drei Ebenen ergeben, und dass das Zentrum an ihrem Schnittpunkt gefunden werden kann. Um den Hauptpunkt zu finden, lassen sie die Senkrechte vom Projektionszentrum in die Bildebene fallen. Sie diskutieren auch die Fluchtpunkte, die verwendet werden können, um zu erkennen, ob ein Bild modifiziert oder beschnitten wurde.

  • 00:40:00 In diesem Abschnitt diskutiert der Dozent die Verwendung von Fluchtpunkten in der Photogrammetrie und Kamerakalibrierung. Er erklärt, wie Fluchtpunkte verwendet werden können, um die Authentizität von Bildern zu bestimmen, und untersucht die verschiedenen Hoaxes im Zusammenhang mit der Erforschung. Dann vertieft er sich in die Mathematik, wie man die dritte Komponente eines Vektors findet und eine quadratische Gleichung löst, um die Brennweite zu bestimmen. Er erläutert einen Sonderfall, in dem die Brennweite bestimmt werden kann, ohne dass eine quadratische Gleichung gelöst werden muss. Das Video ist Teil einer Vortragsreihe zu den technischen Aspekten von Computer Vision.

  • 00:45:00 In diesem Abschnitt erörtert der Referent die Anwendung von Fluchtpunkten bei der Kamerakalibrierung speziell zur Bestimmung der Ausrichtung einer Kamera relativ zu einem Weltkoordinatensystem. Der Referent erklärt, dass durch die Identifizierung von vermeintlich parallelen Merkmalen wie Bordstein und Fahrbahnmarkierungen im Bild ein Fluchtpunkt erzeugt werden kann, der im Bild erkennbar ist. Der Referent erläutert außerdem, dass im Idealfall, wenn alle drei Fluchtpunkte zur Verfügung stehen, die Kanten des von der Kamera erfassten rechteckigen Objekts zur Definition der x- und y-Achse verwendet werden können und anschließend die Drehung zwischen dem Kamerakoordinatensystem und dem bestimmt werden kann Weltkoordinatensystem.

  • 00:50:00 In diesem Abschnitt erläutert der Referent den Prozess der Ermittlung der Einheitsvektoren im Objektkoordinatensystem gemessen im Kamerakoordinatensystem. Die Einheitsvektoren müssen im rechten Winkel zueinander stehen und werden dann zur Berechnung der TCC und FOR MontiVision Demos verwendet. Die Transformationsmatrix stellt die Orientierung eines Koordinatensystems relativ zum anderen dar, und der Referent sagt, dass sie dies in Zukunft mehr tun werden.

  • 00:55:00 In diesem Abschnitt erörtert der Dozent das Konzept einer normalen Matrix, bei der die Zeilen senkrecht zueinander stehen und die Größe jeder Zeile eins ist. Der Zweck davon ist, die Drehung in einer orthonormalen Matrix darzustellen. Durch die Bestimmung der Richtung der Koordinatenachsen im Objekt kann relativ einfach zwischen zwei Koordinatensystemen hin- und hergewechselt werden, was besonders für die Kamerakalibrierung hilfreich ist. Schließlich berührt die Vorlesung das Konzept der Helligkeit, wobei die beobachtete Helligkeit von der Materialoberfläche, der Lichtquelle, den Einfalls- und Austrittswinkeln sowie den Azimutwinkeln abhängt.

  • 01:00:00 In diesem Abschnitt des Videos erläutert der Sprecher das Beleuchtungskonzept und wie es die scheinbare Helligkeit von Oberflächen beeinflusst. Sie erklären, dass die Leistung, die eine Oberfläche von einer Lichtquelle erhält, durch den Winkel beeinflusst wird, in dem die Oberfläche relativ zur Richtung der Lichtquelle geneigt ist, was mit dem Kosinus des Winkels berechnet werden kann. Anschließend stellt der Referent die Idee einer matten Oberfläche vor, die das Licht in verschiedene Richtungen reflektiert, aber die besondere Eigenschaft hat, dass sie aus allen Richtungen gleich hell erscheint. Sie diskutieren weiter, wie man die Orientierung einer solchen Oberfläche bestimmen kann, indem man ihre Helligkeit mit zwei verschiedenen Lichtquellenpositionen misst.

  • 01:05:00 In diesem Abschnitt erörtert der Sprecher die Nichtlinearität, die beim Auflösen nach n, einem Einheitsvektor, beteiligt ist. Anhand von Helligkeitsmessungen kann Cosinus Theta i abgeschätzt und der Kegel möglicher Richtungen der Flächennormalen bestimmt werden. Wenn zwei getrennte Messungen vorgenommen werden, werden zwei Richtungskegel erstellt, und nur der Schnittpunkt dieser Kegel, der aus zwei möglichen Richtungen besteht, ergibt eine normale Richtung. Die Einschränkung, dass es sich um eine Einheitsnormale handeln muss, bedeutet jedoch, dass diese beiden möglichen Richtungen nun mit einer Einheitskugel geschnitten werden müssen, um eine endgültige Bestimmung vorzunehmen. Der Referent erklärt, dass durch die Verwendung von Albedo, die das Reflexionsvermögen einer Oberfläche definiert, ein lineares Gleichungsproblem erstellt werden kann, um zu bestimmen, wie hell etwas in der Bildebene ist. Der Albedo-Wert reicht von null bis eins und gibt an, wie viel der Energie, die in ein Objekt eindringt, zurückreflektiert wird, im Vergleich dazu, wie viel absorbiert und verloren geht.

  • 01:10:00 In diesem Abschnitt behandelt die Vorlesung die Verwendung des Fluchtpunkts (VP) bei der Kamerakalibrierung. Die Vorlesung stellt einen Dreiervektor vor, der die Unbekannten kapselt und durch die Matrixmultiplikation des Vektors mit den Lichtquellenpositionen nach Albedo und Einheitsvektor auflöst. Dieses Verfahren ist jedoch begrenzt, wenn die Lichtquellen koplanar sind, was bedeutet, dass sie sich in derselben Ebene befinden, oder wenn zwei Reihen der Matrix gleich sind, in welchem Fall es unmöglich ist, die Matrix zu invertieren. Der Vortrag weist auch auf die Auswirkungen dieser Einschränkungen für Astronomen hin, da sie sicherstellen müssen, dass sich Lichtquellen nicht in derselben Ebene befinden.

  • 01:15:00 In diesem Abschnitt diskutiert der Referent eine einfache Methode zur Helligkeitsmessung mit drei unabhängigen Lichtquellenrichtungen, die vorberechnet und effizient implementiert werden kann. Es wird vorgeschlagen, dass die Nutzung der drei Sensorsätze in einer Kamera (RGB) für diesen Zweck nützlich sein kann. Eine Nachschlagetabelle kann erstellt werden, um Oberflächen basierend auf der bekannten Form einer Kugel zu kalibrieren, und ihre Oberflächenorientierung kann berechnet werden, um die Helligkeit in drei Bildern zu messen. Reale Oberflächen folgen dieser einfachen Regel jedoch nicht, und eine Nachschlagetabelle kann verwendet werden, um die numerischen Werte für die Oberflächenorientierung umzukehren. Abschließend spricht der Referent die orthografische Projektion als Alternative zur perspektivischen Projektion an.

  • 01:20:00 In diesem Abschnitt erläutert der Referent die Bedingungen, die für die Verwendung der orthografischen Projektion bei der Rekonstruktion von Oberflächen aus Bildern erforderlich sind. Er teilt mit, dass die Annahme darauf beruht, dass der Tiefenbereich im Vergleich zur Tiefe selbst sehr klein ist, was die konstante Vergrößerung ermöglicht, die für diese Projektion erforderlich ist. Die orthografische Projektion wird zur Vereinfachung bei der Rekonstruktion von Oberflächen aus Bildern verwendet.
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 6: Photometrisches Stereo, Rauschverstärkung, Fehlerverstärkung, Eigenwerte und Eigenvektoren Review



Vorlesung 6: Photometrisches Stereo, Rauschverstärkung, Fehlerverstärkung, Eigenwerte und Eigenvektoren Review

Während des gesamten Vortrags erläutert der Referent die Konzepte von Rauschverstärkung, Eigenwerten und Eigenvektoren beim Lösen linearer Gleichungssysteme in photometrischem Stereo. Die Vorlesung behandelt die Bedingungen für singuläre Matrizen, die Relevanz von Eigenwerten in der Fehleranalyse und die Bedeutung der linearen Unabhängigkeit zur Vermeidung singulärer Matrizen. Der Vortrag endet mit einer Diskussion des Lambertschen Gesetzes und der Oberflächenorientierung und hebt die Notwendigkeit hervor, Oberflächen mit einem Einheitsnormalenvektor oder Punkten auf einer Einheitskugel darzustellen. Insgesamt bietet die Vorlesung einen Einblick in die mathematischen Prinzipien, die dem photometrischen Stereo zugrunde liegen, und beleuchtet die Herausforderungen bei der genauen Wiederherstellung der Topographie des Mondes aus Erdmessungen.

In Vorlesung 6 eines Kurses zur computergestützten Fotografie erörtert der Referent, wie man den Einheitsnormalenvektor und die Gradienten einer Oberfläche verwendet, um die Oberflächenorientierung zu finden und die Helligkeit als Funktion der Oberflächenorientierung darzustellen. Sie erklären, wie die pq-Parametrisierung verwendet wird, um mögliche Oberflächenorientierungen abzubilden, und zeigen, wie eine Neigungsebene verwendet werden kann, um die Helligkeit bei verschiedenen Orientierungswinkeln darzustellen. Der Redner erörtert auch, wie das Skalarprodukt des Einheitsvektors der Lichtquelle und des Einheitsnormalenvektors in Bezug auf die Gradienten neu geschrieben werden kann, um die Kurven im pq-Raum zu finden, wo diese Größe konstant ist. Der Vortrag endet mit einer Erklärung, wie Kegel, die durch Drehen der Linie zur Lichtquelle erzeugt werden, verwendet werden können, um Kegelschnitte verschiedener Formen zu finden.

  • 00:00:00 In diesem Abschnitt des Videos erörtert der Dozent die Rauschverstärkung im 1D-Fall, bei dem es eine Unbekannte und eine Messung gibt, und erklärt, dass bei einer geringen Steigung der Kurve ein kleiner Fehler zu einem großen verstärkt werden kann Bereich. Beim 2D-Fall verlagert sich die Diskussion auf Eigenvektoren und Eigenwerte, die für eine Matrix charakteristisch sind und angeben, ob der aus der Multiplikation der Matrix erhaltene Vektor in die gleiche Richtung zeigt wie der Vektor, der zur Multiplikation der Matrix verwendet wurde. Der Dozent gibt Details darüber, wie man diese Vektoren findet und wie viele es gibt, und erklärt, dass die Größe und der Maßstab der Vektoren keine Rolle spielen und dass es mehr als einen Eigenvektor geben kann.

  • 00:05:00 In diesem Abschnitt diskutiert der Referent das Konzept einer singulären Matrix und ihre Bedeutung beim Lösen linearer Gleichungssysteme. Eine singuläre Matrix ist eine Matrix, in der die Determinante Null ist. Für eine reelle symmetrische n-mal-n-Matrix ist die Determinante ein Polynom n-ter Ordnung in Lambda mit n Wurzeln. Das bedeutet, dass es im Fall eines homogenen Gleichungssystems mehrere Lösungen statt einer eindeutigen Lösung gibt, wenn die Determinante Null ist. Dies ist wichtig, wenn es um mehrdimensionale Probleme wie die Wiederherstellung optischer Mäuse geht, bei denen sich der Fehler in bestimmten Richtungen von anderen Richtungen unterscheiden kann. Daher ist ein differenzierteres Bild erforderlich, das über die Identifizierung einer kleinen Determinante als problematisch hinausgeht.

  • 00:10:00 In diesem Abschnitt der Vorlesung diskutiert der Referent homogene Gleichungen und ihre interessanten Eigenschaften, einschließlich der Bedingung, dass ein Satz homogener Gleichungen eine nicht-triviale Lösung hat. Die Determinante der Matrix wird ebenso diskutiert wie die Eigenwerte und Eigenvektoren. Die Eigenvektoren sind spezielle Richtungen, in denen die Eigenschaft der Eigenwerte gilt, und sie sind orthogonal. Die Eigenwerte bestimmen, wie stark der Fehler verstärkt wird, was für die Fehlermessung in der Praxis wichtig ist. Obwohl das Auffinden von Eigenwerten und Eigenvektoren für große Matrizen häufig mithilfe von Software erfolgt, ist es hilfreich, den Prozess auf einer grundlegenden Ebene zu verstehen.

  • 00:15:00 In diesem Abschnitt diskutiert der Referent Eigenvektoren und Eigenwerte beim Lösen homogener Gleichungen für einen 2x2-Fall. Um Eigenvektoren zu finden, zeigt der Sprecher, dass die Lösungen senkrecht zu den Zeilen der Matrix stehen sollten. Das Ergebnis ergibt vier Eigenvektoren, die für unterschiedliche Werte von Lambda in die gleiche Richtung zeigen, und sie können normalisiert werden, um Einheitseigenvektoren zu erhalten. Die Technik kann auf eine n-mal-n-Matrix erweitert werden, die n Eigenvektoren und entsprechende Eigenwerte bereitstellt, um die Fehlerverstärkung zu diskutieren.

  • 00:20:00 In diesem Abschnitt erklärt der Dozent, wie man die Skalarproduktnotation auf Matrizen erweitert und zeigt, dass, wenn die Eigenwerte alle verschieden sind, alle Eigenvektoren orthogonal sind. Er erwähnt auch, dass, wenn einige der Wurzeln gleich sind, dies die Eigenvektoren nicht dazu zwingt, orthogonal zu sein, aber er kann zwei aus allen möglichen Eigenvektoren auswählen, die orthogonal zueinander sind. Dies hilft bei der Konstruktion einer Basis für den Vektorraum. Der Dozent spricht auch darüber, wie man sich Vektoren als Spaltenvektoren oder dünne Matrizen vorstellt und zeigt, wie das Skalarprodukt auf beide Arten geschrieben werden kann.

  • 00:25:00 In diesem Abschnitt diskutiert der Dozent Eigenvektoren und wie sie verwendet werden können, um jeden Vektor in ihren Begriffen neu auszudrücken. Indem eine willkürliche Vektormessung durchgeführt und die Matrix mit dieser Messung multipliziert wird, um unbekannte Variablen zu erhalten, können verschiedene Komponenten um verschiedene Beträge entlang der speziellen Richtungen der Eigenvektoren vergrößert werden. Dies ist als Fehlergewinn bekannt. Allerdings beschäftigen sie sich auch mit inversen Problemen, bei denen die inverse Matrix verwendet wird, und so führt der Dozent das dyadische Produkt von n Vektoren ein, um die Idee anzuwenden.

  • 00:30:00 In diesem Abschnitt spricht der Sprecher über Eigenvektoren und Eigenwerte und wie sie verwendet werden können, um eine Matrix auf verschiedene Weise umzuschreiben. Sie erklären, dass diese Terme alle abhängig sind, die Eigenvektoren selbst jedoch nicht, sodass sie herausgerechnet werden können. Anschließend diskutieren sie, wie dieser Ansatz verwendet werden kann, um die Eigenschaften der Eigenwerte zu überprüfen, und warum dies für die Lösung eines Sehproblems wichtig ist. Insbesondere erklären sie, dass die zur Lösung dieses Problems verwendete Matrix häufig Komponenten des Signals mit 1 über Lambda i multipliziert. Wenn also Lambda i klein ist, kann dies zu einem schlecht gestellten Problem führen, das nicht stabil ist.

  • 00:35:00 In diesem Abschnitt geht der Dozent auf Eigenvektoren und Eigenwerte im Kontext der Fehleranalyse ein. Er erklärt, dass, wenn einer der Eigenvektoren einen kleinen Eigenwert hat, selbst ein kleiner Messfehler zu einer großen Änderung des Ergebnisses führen kann. Die Richtung der Isophote entspricht dem Eigenvektor mit einem kleinen Eigenwert, was es schwierig macht, eine genaue Bewegung zu erkennen, während die Richtung des Gradienten nachsichtiger ist. Der Dozent fährt dann fort, photometrisches Stereo zu diskutieren, eine Technik zur Wiederherstellung der Oberflächenorientierung, indem mehrere Bilder eines Objekts unter verschiedenen Lichtbedingungen aufgenommen werden. Er erklärt, dass der Albedo-Parameter verwendet wird, um zu beschreiben, wie viel Licht die Oberfläche reflektiert, und dass er helfen kann, die Oberflächenorientierung einzuschränken.

  • 00:40:00 In diesem Abschnitt erklärt der Dozent den Prozess der Verwendung verschiedener Lichtquellen, um drei Messungen zu erhalten, sodass ein Problem mit drei Unbekannten und drei Messungen eingeführt werden kann. Dies ermöglicht die Disambiguierung der Ausrichtung des Bildes durch Verwendung linearer Gleichungslösungsverfahren, was zu einer einfachen und kostengünstigen Möglichkeit zur Berechnung der Lösung führt. Der Dozent merkt an, dass das Finden der beiden Lösungen aus einer Quadratik resultiert, was vermieden werden kann, indem der Einheitsvektor in der Punktproduktnotation in einen beliebigen 3-Vektor umgewandelt wird. Darüber hinaus erwähnt das Video die Bedeutung linear unabhängiger Zeilen, um singuläre Matrizen zu vermeiden.

  • 00:45:00 In diesem Abschnitt der Vorlesung werden photometrisches Stereo, Fehlerverstärkung und Eigenwerte und Eigenvektoren behandelt. Die Redundanz von Messungen, wenn die Summe der Lichtquellen Null ist, wird untersucht, und es wird gezeigt, dass das Verfahren fehlschlägt, wenn drei Vektoren im dreidimensionalen Raum koplanar sind. Wenn sie jedoch nicht koplanar sind und im rechten Winkel zueinander platziert werden, sind die Ergebnisse zuverlässiger. Der Vortrag bezieht sich auch auf die Verwendung von photometrischem Stereo, um topografische Karten des Mondes basierend auf verschiedenen Beleuchtungen von der Sonne zu erstellen.

  • 00:50:00 In diesem Teil der Vorlesung geht der Professor auf die Herausforderung ein, die Topographie des Mondes aus Erdmessungen zu gewinnen. Es ist zwar möglich, Messungen an verschiedenen Positionen in der Umlaufbahn des Mondes vorzunehmen, aber diese Methode funktioniert nicht, weil die Vektoren nahezu koplanar sind. Der Professor spricht auch über die Lambertsche Annahme, die davon ausgeht, dass ein Objekt eine perfekt diffuse und gleichmäßige Reflexion hat, merkt aber an, dass dies bei der Mondoberfläche nicht der Fall ist. Diese Annahme ist jedoch nützlich, um zwei Beleuchtungsstärken zu vergleichen, was erreicht werden kann, indem eine Seite mit einer Quelle und die andere Seite mit einer anderen Quelle beleuchtet und dann so ausbalanciert wird, dass beide Seiten gleich hell erscheinen, wenn sie aus dem gleichen Winkel betrachtet werden.

  • 00:55:00 In diesem Abschnitt der Vorlesung geht der Professor auf die von Lambert durchgeführten Experimente ein, die zur Entdeckung des Lambertschen Gesetzes führten, das erklärt, wie Oberflächen Licht reflektieren, wenn sie aus verschiedenen Winkeln beleuchtet werden. Das Gesetz besagt, dass die Helligkeit proportional zum Kosinus des Einfallswinkels ist. Die Diskussion unterstreicht auch die Notwendigkeit, über die Oberflächenorientierung zu sprechen und wie sie mit einem Einheitsnormalenvektor oder durch Punkte auf einer Einheitskugel dargestellt werden kann. Der Professor erwähnt, dass dieses phänomenologische Modell ein postuliertes Verhalten und keine exakte Darstellung realer Oberflächen ist. Der Abschnitt endet mit der Einführung einer Taylor-Reihenentwicklung.
  • 01:00:00 In diesem Abschnitt des Videos erörtert der Sprecher die Beziehung zwischen der Einheitsnormalnotation und der Gradientennotation bei Berechnungsproblemen. Sie erklären, wie man zwischen den beiden Notationen hin- und herwechselt und geben Beispiele dafür, wie dies hilfreich ist, um Probleme in verschiedenen Bereichen zu lösen, wie z. B. kartesische Koordinaten und Polarkoordinaten. Der Referent zeigt auch, wie man Tangenten in einer Oberfläche findet, und erklärt, wie man die Richtung dieser Tangenten verwendet, um die Beziehung zwischen der Einheitsnormalen und p und q zu finden, die die Gradienten auf der Oberfläche darstellen.

  • 01:05:00 In diesem Abschnitt erläutert der Dozent, wie alle möglichen Oberflächenorientierungen mithilfe des Einheitsnormalenvektors der Oberfläche abgebildet werden können und wie diese Informationen für das maschinelle Sehen nützlich sind. Das Kreuzprodukt zweier in der Oberfläche liegender Tangentenvektoren ergibt die Richtung des Einheitsnormalenvektors, der dann normalisiert werden kann, um die Richtung der Oberfläche zu erhalten. Durch Projizieren der Oberflächenorientierungen in eine 2D-Ebene unter Verwendung der pq-Parametrisierung kann man alle möglichen Oberflächenorientierungen visualisieren. Punkte auf dieser Ebene entsprechen unterschiedlichen p- und q-Werten und daher unterschiedlichen Oberflächenausrichtungen, einschließlich des Bodens und jeder Oberfläche über dem Boden mit derselben Ausrichtung. Der Dozent stellt fest, dass das maschinelle Sehen zwar die Oberflächenorientierung wiederherstellen kann, das Zusammenfügen dieser Orientierungen zu einer vollständigen Oberfläche jedoch ein separates, aber überbestimmtes Problem darstellt.

  • 01:10:00 In diesem Abschnitt des Videos erklärt der Sprecher, wie eine Neigungsebene als Werkzeug verwendet werden kann, um die Helligkeit als Funktion der Oberflächenorientierung in der Bildverarbeitung darzustellen. Jeder Punkt auf der Ebene entspricht einer bestimmten Oberflächenorientierung, und die Helligkeitswerte können experimentell von einem Materialstück bei unterschiedlichen Orientierungswinkeln bestimmt werden. Eine einzelne Helligkeitsmessung kann jedoch nicht zwei Unbekannte wiederfinden, und es sind mehrere Messungen erforderlich, um die Ausrichtung des Oberflächenelements zu bestimmen. Dieses Konzept wird dann mit photometrischem Stereo und der Lambertschen Oberfläche in Beziehung gesetzt, wobei die Helligkeit proportional zum Kosinus des Einfallswinkels ist und in der Neigungsebene nach Isophoten gesucht wird.

  • 01:15:00 Hier bespricht er das Umschreiben der Richtung zur Lichtquelle auf eine andere Weise, um die gleiche Transformation auf dem Einheitsvektor wie auf n vollständig durchzuführen. Dies führt einen Punkt ein, an dem die einfallenden Lichtstrahlen parallel zur Oberflächennormalen sind, genannt psqs, der in der Ebene liegt und die hellste Oberfläche für den Lamborghini ergibt. Indem sie die n Punkte s in eine bestimmte Form umschreiben, können sie die Kurven im pq-Raum bestimmen, wo diese Größe konstant ist. Nachdem sie alles multipliziert haben, bleibt ihnen eine Gleichung zweiter Ordnung in p und q, die einem Kegelschnitt entspricht. Beispiele sind Parabel und Ellipse.

  • 01:20:00 In diesem Abschnitt erörtert der Referent ein Diagramm, das für Grafiken verwendet werden kann, bei dem eine Oberfläche zusammen mit einem Diagramm dargestellt wird, das eine Reihe von Isolasten für verschiedene Arten von Oberflächen enthält, darunter Parabeln, Ellipsen, Kreise und Linien , Punkte und Hyperbeln. Die Helligkeit der Oberfläche wird aus dem Diagramm abgelesen und als Grauwert oder Farbe im gezeichneten Bild verwendet. Die Einheitsnormale kann von der Oberfläche erhalten und verwendet werden, um den Punkt auf den Isolasten zu bestimmen. Das Diagramm ändert sich, wenn die Lichtquelle bewegt wird, daher ist es wichtig, den Schnittpunkt zweier Sätze von Isowellen zu bestimmen, um eine eindeutige Lösung zu erhalten. Es werden drei Lichtquellen anstelle von zwei verwendet, da das Vorhandensein von zwei Lichtquellen zu endlichen Lösungen anstelle einer einzigen Lösung führen kann.

  • 01:25:00 In diesem Abschnitt erklärt der Sprecher, wie die Linie zur Lichtquelle gedreht werden kann, um Kegel und verschiedene Winkel zu erzeugen, wodurch verschachtelte Kegel entstehen. Diese Kegel können mit einer Ebene geschnitten werden, wodurch Kegelschnitte entstehen, die nicht immer Ellipsen, sondern auch Hyperbeln und sogar Parabeln sind. Der Referent stellt auch klar, dass Cosinus Theta in der Praxis nicht negativ sein kann und lässt die Frage, wo die Kurve von einer geschlossenen Kurve in eine offene Kurve übergeht, als Rätsel für zukünftige Hausaufgabenprobleme. Die Vorlesung endet mit einer Erinnerung, sich auf Piazza für Hausaufgaben und Ankündigungsaktualisierungen anzumelden.
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection



Vorlesung 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection

In dieser Vorlesung werden Gradientenraum, Reflexionskarten und Bildbestrahlungsstärkegleichungen behandelt. Der Dozent erklärt, wie man eine Reflexionskarte verwendet, um Oberflächenorientierung und Helligkeit für Grafikanwendungen zu bestimmen, und wie man eine numerische Zuordnung von Oberflächenorientierung zu Helligkeit erstellt, indem er drei Bilder verwendet, die unter verschiedenen Lichtbedingungen aufgenommen wurden. Sie stellen auch das Konzept der Bestrahlungsstärke und ihre Beziehung zu Intensität und Strahldichte sowie die Bedeutung der Verwendung einer endlichen Apertur bei der Messung der Helligkeit vor. Darüber hinaus behandelt der Vortrag die drei Regeln, wie sich Licht nach dem Durchgang durch eine Linse verhält, das Konzept der Verkürzung und wie die Linse Strahlen fokussiert, um zu bestimmen, wie viel Licht von einem Fleck auf der Oberfläche im Bild konzentriert wird.

In diesem Vortrag erläutert der Referent die Gleichung zur Bestimmung der auf eine kleine Fläche in einem Bild abgegebenen Gesamtleistung, die Raumwinkel und Cosinus Theta berücksichtigt. Sie beziehen diese Gleichung auf die Blendenzahl in Kameras und darauf, wie die Blendengröße die empfangene Lichtmenge steuert. Der Redner erörtert auch die Bildstrahlung, die proportional zur Strahlung von Objekten in der realen Welt ist, und wie die Helligkeit abnimmt, wenn wir von der Achse weggehen. Anschließend diskutieren sie die bidirektionale Reflexionsverteilungsfunktion, die bestimmt, wie hell eine Oberfläche in Abhängigkeit von der Einfalls- und Emissionsrichtung erscheint. Der Dozent erklärt, dass die Reflexion mit einem Goniometer gemessen werden kann und dass es wichtig ist, realistisch zu modellieren, wie ein Objekt Licht reflektiert. Sie erklären auch das Konzept der Helmholtz-Reziprozität für die bidirektionale Reflexionsverteilungsfunktion. Die Vorlesung geht dann weiter, um die Anwendung des Gradientenraums auf Oberflächenmaterialmodelle zu diskutieren, und erinnert die Studenten daran, sich über Hausaufgabeninformationen auf dem Laufenden zu halten.

  • 00:00:00 In diesem Abschnitt wird das Konzept des Verlaufsraums eingeführt, um zu untersuchen, was die Helligkeit in einem Bild bestimmt. Die Helligkeit ist in der Regel abhängig von der Beleuchtung und der Geometrie, wie der Oberflächenorientierung, wodurch es notwendig wird, die Orientierung des Oberflächenflecks zur Bestimmung der Helligkeit zu erwähnen. Erwähnt werden auch Einheitsnormalen und p und q, die nur praktische Abkürzungen für die Steigungen im Bild sind. Die Helligkeit einer Lambertschen Oberfläche ist umstritten, abhängig von der Ausrichtung der betreffenden Oberfläche. Viele matte Oberflächen sind Annäherungen an eine Lambertsche Oberfläche, und solche Annäherungen können praktisch erscheinen. Die meisten kosmischen und mikroskopischen Situationen sind jedoch für solche Annäherungen nicht geeignet.

  • 00:05:00 In diesem Abschnitt des Vortrags geht der Referent auf das Konzept der Reflexionskarte ein, einem Diagramm, das zeigt, wie hell eine Oberfläche aufgrund ihrer Ausrichtung aussehen soll. Dieses Diagramm kann verwendet werden, um die Oberflächenorientierung und -helligkeit für Grafikanwendungen zu bestimmen. Der Referent erklärt dann, wie dieses Konzept auf nicht-lambertsche Oberflächen erweitert werden kann und wie man eine Nachschlagetabelle zur Bestimmung der Helligkeit basierend auf der Oberflächenorientierung erstellt. Zusätzliche Informationen und Beschränkungen können verwendet werden, um die Schätzung der Oberflächenorientierung weiter zu verfeinern.

  • 00:10:00 In diesem Abschnitt erläutert der Dozent, wie ein Kalibrierungsobjekt, z. B. eine Kugel, für die Bildkalibrierung verwendet wird. Indem man ein Bild einer beleuchteten Kugel von allen Seiten aufnimmt und einen Kreis daran anpasst, kann man den Mittelpunkt und den Radius des Bildes abschätzen. Für Kugeln gibt es eine bequeme Beziehung, bei der ein Punkt zur Oberfläche und ein Einheitsvektor parallel sind, was es einfach macht, die Oberflächenorientierung zu bestimmen. Diese Methode kann auch für die Erde verwendet werden, mit einigen Änderungen an der Definition des Breitengrades. Durch Berechnen von p und q unter Verwendung der Formel aus der vorherigen Vorlesung kann man n und die Oberflächenorientierung für jeden Punkt im Bild bestimmen.

  • 00:15:00 In diesem Abschnitt diskutiert der Vortrag den Prozess der Erstellung einer numerischen Abbildung von der Oberflächenorientierung zur Helligkeit in drei Bildern, die unter verschiedenen Lichtbedingungen aufgenommen wurden. Ziel ist es, diese Informationen zur Berechnung der Oberflächenorientierung zu verwenden, wenn später drei Bilder eines Objekts unter denselben Lichtbedingungen aufgenommen werden. Der Dozent erklärt die Implementierung dieses Prozesses, bei dem im Computer ein dreidimensionales Array erstellt wird, in dem jedes Kästchen p- und q-Werte enthält. Die Bilder werden dann in diskrete Intervalle quantisiert und verwendet, um Informationen in das Array zu bringen. Der Vortrag behandelt auch Themen wie Quantisierungseffekte und leere Zellen, die möglicherweise nie ausgefüllt werden.

  • 00:20:00 In diesem Abschnitt erklärt der Sprecher den Gradientenraum, bei dem es sich um einen 2D-Raum handelt, der in einen 3D-Raum abgebildet wird, ohne diesen Raum tatsächlich zu füllen. Stattdessen wird in diesem Raum eine Fläche gebildet, und wir können Punkte auf dieser Fläche mit p und q adressieren. Wenn wir von zwei auf drei Bilder gehen, führen wir den Albedo-Faktor ein, der linear mit e1 e2 e3 skaliert. Kalibrierungsobjekte werden weiß gestrichen, und es werden Messungen durchgeführt, wodurch Definitionen der Oberfläche für rho gleich eins erzeugt werden. Für andere Zeilen können wir jedoch die Würfel ausfüllen und andere Oberflächen erzeugen. Die Nachschlagetabelle, in der Einträge platziert werden, enthält pqand row, eine 3D-zu-3D-Nachschlagetabelle. Wenn etwas schief geht, wird dies als ein anderer Wert als eins für die Albedo Rho wiedergegeben, was auf einen Fehler oder eine unerwartete Blockierung einer der drei Lichtquellen hinweist. Das Verfahren hilft dabei, Schattenwürfe zu erkennen oder bei reflektierenden Oberflächen, die zu nahe beieinander liegen oder wie in überlappenden Donut-Formen platziert sind, das Bild zu segmentieren und in Teile zu zerlegen.

  • 00:25:00 In diesem Abschnitt des Vortrags erörtert der Referent Methoden zum Segmentieren von Schlagschatten und Bereichen mit hoher Reflexion mithilfe von Gradientenraum- und Reflexionskarten. Es gibt einen methodischen Weg, Tabellenwerte mit entsprechenden Voxelwerten zu füllen. Der Referent stellt auch das Konzept der Bestrahlungsstärke vor, die die Leistung pro Flächeneinheit einer Lichtquelle ist, die auf eine Oberfläche trifft. Dieses Konzept ist im Zusammenhang mit der Bildverarbeitung nicht sehr nützlich, da wir den Sensor nicht direkt der Beleuchtung aussetzen. Der Referent erklärt, dass es eine Terminologie für die Menge der abgestrahlten Leistung geteilt durch die Fläche gibt, die jedoch für die Bildverarbeitung unbrauchbar ist.

  • 00:30:00 In diesem Abschnitt erläutert der Referent das Konzept der Intensität und seine Bedeutung in Bezug auf die Messung der Strahlungsmenge in eine bestimmte Richtung mit einer Punktquelle. Der Raumwinkel wird definiert, um die Messung zu normalisieren, und seine Einheiten werden in Steradianten gemessen, was dem Bogenmaß in 2D ähnlich ist, aber in den dreidimensionalen Raum projiziert wird. Der Raumwinkel ermöglicht die Messung einer Reihe von Richtungen in beliebiger Form, wobei die möglichen Richtungen um den Lautsprecher herum vier Steradianten in Pi entsprechen. Darüber hinaus spricht der Sprecher die Bedeutung der Berücksichtigung von Fällen an, in denen der Oberflächenbereich aufgrund des Verkürzungsphänomens des Objekts relativ zum Mittelpunkt der Kugel geneigt ist, z. B. wenn das Objektiv einer Kamera relativ zu einem außermittigen Objekt geneigt ist.

  • 00:35:00 In diesem Abschnitt des Videos werden die Konzepte von Intensität und Ausstrahlung erklärt. Die Intensität wird als Leistung für einen Raumwinkel definiert, während die Strahlung die Leistung pro Flächeneinheit pro Raumwinkeleinheit ist. Strahlung ist die nützlichere Größe, wenn es darum geht, zu messen, was einen Beobachter oder eine Kamera von einer Oberfläche erreicht. In der Bildebene wird die Helligkeit als Bestrahlungsstärke gemessen, die wir als Strahlungsdichte der Oberfläche messen.

  • 00:40:00 In diesem Abschnitt erörtert der Dozent die Beziehung zwischen der Messung von Energie und Leistung und wie sie zueinander proportional sind. Er spricht auch über die Bedeutung der Verwendung einer endlichen Apertur bei der Helligkeitsmessung und die Probleme, die bei der Verwendung des Pinhole-Modells auftreten. Der Dozent stellt die ideale dünne Linse und ihre drei Regeln vor, darunter den nicht abgelenkten Zentralstrahl und den parallel zur optischen Achse austretenden Strahl aus dem Fokuszentrum. Er erklärt, wie Linsen die gleiche Projektion wie die Lochblende liefern, während sie eine endliche Anzahl von Photonen liefern, und die Strafe für ihre Verwendung bei einer bestimmten Brennweite und Entfernung.

  • 00:45:00 In diesem Abschnitt erklärt das Video die drei Regeln, wie sich Licht verhält, nachdem es durch eine Linse getreten ist. Regel Nummer eins besagt, dass jeder Strahl aus dem Brennpunkt, nachdem er durch die Linse gegangen ist, parallel zur optischen Achse verläuft. Regel Nummer zwei besagt, dass eine parallele Reihe von rechts durch das Fokuszentrum geht. Schließlich ist Regel Nummer drei eine Kombination der ersten beiden Regeln. Das Video verwendet ähnliche Dreiecke, um die Linsenformel abzuleiten, die es ermöglicht, den Fokus und die Länge der Linse zu bestimmen. Obwohl Objektive beeindruckende analoge Computer sind, die Lichtstrahlen umleiten können, können sie aufgrund der physikalischen Einschränkungen des Objektivs keine perfekte Umleitung erreichen.

  • 00:50:00 In diesem Abschnitt erläutert das Video, wie Linsen mit Strahlen umgehen, die aus verschiedenen Richtungen kommen, und wie Kompromisse zwischen verschiedenen Arten von Defekten, wie z. B. radialer Verzerrung, bestehen. Das Video erklärt auch das Konzept der Bestrahlungsstärke und der Objektstrahlung und wie ein Diagramm eines einfachen Bildgebungssystems verwendet werden kann, um zu bestimmen, wie viel Leistung von einem Objektfeld abgegeben wird und wie viel durch Beleuchtung in einem Bildfeld landet. Darüber hinaus stellt das Video die Annahme fest, dass in Kameras flache Bildebenen und Linsen verwendet werden.

  • 00:55:00 In diesem Abschnitt des Vortrags erörtert der Referent, wie man den Perspektiveffekt des Einheitsvektors auf der Oberfläche eines Objekts mit dem auf den Bildsensor einfallenden Licht in Beziehung setzt. Er schreibt eine Formel für den Raumwinkel auf und berücksichtigt den Verkürzungseffekt, indem er mit Cosinus alpha multipliziert und durch f Sekante alpha zum Quadrat dividiert. Dann bezieht er die Bestrahlungsstärke im Bild auf die Gesamtenergie, die von diesem Fleck kommt, und auf das Flächendelta i. Schließlich spricht er darüber, wie die Linse die Strahlen fokussiert und wie der Raumwinkel, den die Linse einnimmt, wenn sie vom Objekt aus betrachtet wird, bestimmt, wie viel Licht von diesem Fleck auf der Oberfläche im Bild konzentriert wird.
  • 01:00:00 In diesem Abschnitt des Vortrags erläutert der Referent die Gleichung für die Gesamtleistung, die auf eine kleine Fläche in einem Bild abgegeben wird, die den Raumwinkel und Kosinus Theta berücksichtigt. Die Leistung pro Flächeneinheit erhält man dann, indem man die Gesamtleistung durch die tatsächlich gemessene Fläche dividiert. Der Referent bezieht diese Gleichung auch auf die Blendenzahl in Kameras, die bestimmt, wie offen die Blende ist und damit die Menge des empfangenen Lichts steuert. Die Blendengröße wird normalerweise in Quadratwurzelschritten von 2 gemessen, und die Bildbestrahlungsstärke verhält sich umgekehrt zum Quadrat der Blende.

  • 01:05:00 In diesem Abschnitt erörtert der Referent, wie die Bildbestrahlung, also die Helligkeit im Bild, proportional zur Strahlung von Objekten in der realen Welt ist. Die Helligkeit der Oberflächenstrahlung ist proportional zur Helligkeit der Bildstrahlung, was es uns leicht macht, die Helligkeit im Bild zu messen. Allerdings nimmt die Helligkeit ab, wenn wir von der Achse weggehen, dargestellt durch den Kosinus zum vierten Alpha, was bei der Verwendung eines Weitwinkelobjektivs berücksichtigt werden muss. Dieser Effekt ist zwar nicht sehr auffällig, kann aber in der Bildverarbeitungskette kompensiert werden. Diese Formel rechtfertigt die Idee, die Helligkeit anhand von Graustufen im Bild zu messen, und zeigt, dass es etwas mit dem zu tun hat, was in der realen Welt ist.

  • 01:10:00 In diesem Abschnitt erklärt der Dozent das Konzept der bidirektionalen Reflexionsverteilungsfunktion, die bestimmt, wie hell eine Oberfläche in Abhängigkeit von der Einfalls- und Emissionsrichtung erscheint. Der Dozent erklärt, dass das Reflexionsverhältnis nicht so einfach ist, wie zu sagen, dass Weiß alles einfallende Licht reflektiert und Schwarz nichts davon. Der Dozent ging auch auf die übliche Verwendung von Polar- und Azimutwinkeln ein, um die Richtung des einfallenden oder austretenden Lichts anzugeben. Die bidirektionale Reflexionsverteilungsfunktion ist wesentlich für die Bestimmung des Reflexionsgrads und misst die ausgehende Leistung dividiert durch die eingehende Leistung.

  • 01:15:00 In diesem Abschnitt des Vortrags erörtert der Referent das Reflexionsvermögen, das definiert ist als wie hell ein Objekt erscheint, wenn es von einer bestimmten Position aus betrachtet wird, dividiert durch die Energie, die aus der Richtung der Quelle zugeführt wird. Der Referent erklärt, dass die Reflexion mit einem Goniometer gemessen werden kann, einem Winkelmessgerät, das dabei hilft, einen vierdimensionalen Raum zu erkunden. Der Referent merkt an, dass viele Oberflächen nur die Differenz zwischen zwei Winkeln benötigen, um den Reflexionsgrad genau zu messen, was den Prozess für bestimmte Objekte vereinfacht. Es ist wichtig, realistisch zu modellieren, wie ein Objekt Licht reflektiert, und die Messung des Reflexionsgrads ermöglicht diese realistische Modellierung, anstatt nur eine Annäherung an ein bekanntes Modell vorzunehmen.

  • 01:20:00 In diesem Abschnitt diskutiert der Professor Materialien, die das vollständige vierdimensionale Modell benötigen, um ihr Aussehen zu berechnen, wie schillernde Gegenstände mit Mikrostrukturen, die durch Interferenz Farbe erzeugen, und Halbedelsteine wie Tigeraugen, die eng anliegen gepackte Mikrostrukturen auf der Skala der Lichtwellenlänge. Der Professor stellt auch das Konzept der Helmholtz-Reziprozität für die bidirektionale Reflexionsverteilungsfunktion vor, die besagt, dass Sie den gleichen Wert erhalten sollten, wenn Sie das einfallende und das emittierte Licht austauschen, was die Datenerfassung vereinfacht.

  • 01:25:00 In diesem Abschnitt diskutiert der Sprecher eine Technik, die von einem Professor während einer Debatte verwendet wird. Der Sprecher dachte zunächst, der Professor würde seinen Mangel an Wissen hervorheben, indem er auf ein Buch auf Deutsch verwies, stellte aber später fest, dass es sich nur um eine Debattentechnik handelte. Der Vortrag geht dann weiter, um die Anwendung des Gradientenraums auf Oberflächenmaterialmodelle zu diskutieren, um den Oberflächenschatten auf Objekten wie dem Mond und felsigen Planeten in unserem Sonnensystem zu bestimmen. Der Sprecher erinnert die Schüler auch daran, sich über Erweiterungen oder wichtige Informationen zu den Hausaufgaben über Piazza auf dem Laufenden zu halten.
Lecture 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection
Lecture 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 8: Schattierung, Sonderfälle, Mondoberfläche, Rasterelektronenmikroskop, Theorem von Green




Vorlesung 8: Schattierung, Sonderfälle, Mondoberfläche, Rasterelektronenmikroskop, Theorem von Green

In dieser Vorlesung behandelt der Professor mehrere Themen rund um Photometrie und Schattierung. Er erklärt die Beziehung zwischen Bestrahlungsstärke, Intensität und Strahlung und wie sie gemessen und in Beziehung gesetzt werden. Die Vorlesung stellt auch die bidirektionale Reflexionsverteilungsfunktion (BRDF) vor, um zu erklären, wie die Beleuchtung die Orientierung und das Material einer Oberfläche beeinflusst. Der Dozent erörtert ferner die Eigenschaften einer idealen Lambertschen Oberfläche und ihre Auswirkungen auf die Messung des einfallenden Lichts und vermeidet Verwirrung im Umgang mit der Helmhotz-Reziprozität. Die Vorlesung behandelt auch den Prozess der Umwandlung von Gradienten in Einheitsvektoren und wie dies mit der Position der Lichtquelle zusammenhängt. Abschließend erläutert der Vortrag, wie durch die Messung der Helligkeit die Steilheit oder Neigungsrichtung einer Oberfläche bestimmt werden kann.

Die Vorlesung behandelt verschiedene Themen rund um Optik und Computer Vision. Der Professor erörtert die Verwendung von Formen aus Schattierungstechniken, um ein Profil der Oberfläche eines Objekts zu erhalten, um seine Form zu bestimmen. Dann geht er auf die Diskussion von Linsen über und begründet die Verwendung der orthographischen Projektion. Der Dozent spricht auch über das Entfernen der perspektivischen Projektion in der Bildverarbeitung durch den Bau telezentrischer Objektive und demonstriert verschiedene Tricks, um Aberrationen aufgrund der Brechungsindexvariation von Glas mit der Wellenlänge zu kompensieren. Abschließend stellt der Referent das Konzept der orthografischen Projektion vor, das einige der mit der perspektivischen Projektion verbundenen Probleme vereinfacht.

  • 00:00:00 In diesem Abschnitt wiederholt der Dozent Schlüsselkonzepte aus der vorherigen Vorlesung über Photometrie. Er definiert Bestrahlungsstärke, Intensität und Strahldichte und erklärt, wie sie gemessen und in Beziehung gesetzt werden. Anschließend führt er die Beziehung zwischen der Strahlkraft einer Oberfläche und der Bestrahlungsstärke des entsprechenden Teils eines Bildes ein, die verwendet werden kann, um über Helligkeit sowohl draußen in der Welt als auch in einer Kamera zu sprechen. Der Dozent erklärt, wie dieses Verhältnis durch die Öffnung am Objektiv beeinflusst wird, die den Raumwinkel und die Fläche des Bildes begrenzt.

  • 00:05:00 In diesem Abschnitt geht es darum, die Strahlkraft einer Oberfläche in Abhängigkeit von Beleuchtungsstärke, Geometrie und Material zu bestimmen. Die bidirektionale Reflexionsverteilungsfunktion (BRDF) wird eingeführt, um zu erklären, wie die Beleuchtung die Orientierung und das Material einer Oberfläche beeinflusst. Die BRDF ist eine Funktion der Einfallsrichtung und der Emissionsrichtung des Lichts, die berechnet werden kann, indem die Gesamtausgangsleistung dividiert durch die Gesamteingangsleistung berechnet wird. Außerdem muss das BRDF eine Bedingung erfüllen, bei der es gleich herauskommen muss, wenn die Richtungen zur Quelle und zum Betrachter vertauscht werden. Obwohl einige Modelle der Oberflächenreflexion gegen diese Einschränkung verstoßen, ist sie für das menschliche oder maschinelle Sehen nicht kritisch, was sie zu einer Abkürzung bei der Verringerung der Anzahl der erforderlichen Messungen macht.

  • 00:10:00 In diesem Abschnitt der Vorlesung geht der Professor auf die Eigenschaften einer idealen Lambert-Fläche ein: Sie erscheint aus allen Blickrichtungen gleich hell, und wenn es eine ideale Lambert-Fläche ist, reflektiert sie auch das gesamte einfallende Licht. Der Professor erklärt, dass dies die Formel vereinfacht, da sie nicht von zwei der vier Parameter abhängt. Anschließend erörtert er den Umgang mit verteilten Quellen wie den Lichtern in einem Raum und der Integration über eine Hemisphäre von Einfallsrichtungen. Der Professor erklärt, dass wir über alle emittierten Richtungen integrieren müssen und wie man die Fläche des Patches berechnet, indem man Polarwinkel und Azumith verwendet. Schließlich erwähnt er, dass der f-Term konstant ist.

  • 00:15:00 In diesem Abschnitt behandelt der Vortrag das Konzept der Abschattung und der Reflexion von Licht auf einer Oberfläche. Der Vortrag verdeutlicht, dass das auf eine Fläche fallende Licht von der einfallenden Strahlung und dem Einfallswinkel abhängt. Es wird gesagt, dass das gesamte Licht reflektiert wird, und die auf der Oberfläche deponierte Leistung ist e cosinus theta i mal der Fläche der Oberfläche. Wenn daher das reflektierte Licht integriert wird, ist es gleich dem einfallenden Licht. Die Vorlesung berechnet den konstanten Wert von f für die Inversionsfläche und kommt zu dem Schluss, dass f für die Lambertsche Fläche 1 über pi ist. Es wird darauf hingewiesen, dass die reflektierte Energie nicht gleichmäßig in alle Richtungen abgestrahlt wird, und es wird erklärt, wie sich die Verkürzung auf die von einer Oberfläche emittierte Leistung auswirkt.

  • 00:20:00 In diesem Abschnitt der Vorlesung diskutiert der Professor das Konzept einer Lambertschen Oberfläche, einer Oberfläche, die Licht gleichmäßig in alle Richtungen abstrahlt. Handelt es sich jedoch um eine große und schräg zur Lichtquelle stehende Fläche, schrumpft die Fläche des Flächenelements, wodurch die Leistung pro Flächeneinheit unendlich wird. Um Netzhautschäden zu vermeiden, strahlt die Oberfläche in bestimmte Richtungen weniger, die Leistung pro Flächeneinheit bleibt jedoch konstant. Diese Bedingung bedeutet, dass die Oberfläche in bestimmten Bereichen tatsächlich mehr und in anderen weniger strahlt, was zu einem Verhältnis von eins zu pi anstelle von eins zu 2 pi führt. Anschließend erläutert der Vortrag, wie dieses Wissen genutzt werden kann, um einfallendes Licht zu messen und Verwirrung im Umgang mit der Helmhotz-Reziprozität zu vermeiden.

  • 00:25:00 In diesem Abschnitt stellt der Dozent eine Art von Oberfläche vor, die sich von einer Lambertschen Oberfläche unterscheidet und in vielen Anwendungen sehr wichtig ist. Diese Art von Oberfläche ist eine über der Quadratwurzel von Cosinus Theta i mal Cosinus Theta e und erfüllt die Helmholtz-Reziprozität. Die Ausstrahlung dieses Oberflächentyps wird durch die Verkürzung beeinflusst und wird verwendet, um die Oberflächen von Mond- und Gesteinsplaneten sowie einiger Asteroiden zu modellieren. Der Vortrag erklärt, wie man die Isophoten dieser Oberfläche bestimmt, die im 3D-Raum verschachtelte Kreise sind, aber in der Bildebene als Ellipsen projiziert werden, und gibt einen Einblick in Helligkeitskonturkarten.

  • 00:30:00 In diesem Abschnitt erörtert der Sprecher die Schwierigkeit, einen Weg zu finden, ein bestimmtes Material im 3D-Raum zu schattieren. Sie erklären, dass die frühere Methode, die in einem Labor verwendet wurde, für dieses Material nicht funktioniert, sodass ein neuer Ansatz erforderlich ist. Der Sprecher demonstriert dann die Verwendung von Einheitsnormalen, um die konstanten Werte aller Punkte auf der Oberfläche zu finden, die senkrecht zu einem festen Vektor sein müssen. Er zeigt dann, dass dies impliziert, dass alle Einheitsvektoren auf der Oberfläche mit der gleichen Helligkeit in einer Ebene liegen müssen, was nützliche Informationen über das Material preisgibt. Schließlich verwendet der Sprecher sphärische Koordinaten, um zu versuchen, ein besseres Verständnis zu erlangen.

  • 00:35:00 In diesem Abschnitt erörtert der Dozent, wie man ein Koordinatensystem wählt, wenn man sich mit der Schattierung der Mondoberfläche befasst, da ein gutes System ein algebraisches Durcheinander verhindern kann. Sie empfehlen die Verwendung eines Koordinatensystems, in dem sich Sonne und Erde bei z=0 befinden, was die Berechnungen auf nur eine Unbekannte vereinfacht. Der Vortrag streift auch kurz das Erscheinungsbild des Vollmondes, wo die Scheibe gleichmäßig hell sein sollte, aber aufgrund ihrer nicht-Lambertschen Mikrostruktur nicht vollständig kugelförmig aussieht. Das Hakka-Modell ist gut geeignet, um diese Art von Verhalten vorherzusagen. Abschließend taucht die Vorlesung in die Formel für n Punkt s über n Punkt v ein und gelangt schließlich zu einer vereinfachten Version unter Verwendung von Kugelkoordinatenvektoren.

  • 00:40:00 In diesem Abschnitt diskutiert der Dozent die Beziehung zwischen der Helligkeit und dem Azimut der Mondoberfläche. Sie erklären, dass alle Punkte auf der Oberfläche mit gleicher Helligkeit den gleichen Azimut haben und Linien konstanter Länge Isophoden sind. Dies unterscheidet sich stark von einer Lambertschen Oberfläche. Obwohl der Mond eine Albedo hat, die der von Kohle entspricht, erscheint er am Himmel sehr hell, da es an Vergleichsobjekten zur Messung seines Reflexionsgrads mangelt. Wir können jedoch photometrisches Stereo verwenden, um die Oberflächenorientierung des Mondes und möglicherweise sogar seine Form zu bestimmen, indem wir mehrere Bilder der Oberfläche unter verschiedenen Beleuchtungsbedingungen aufnehmen. Das Hopkin-Modell wird verwendet, um die Oberflächenorientierung in Bezug auf den Gradienten zu beschreiben.

  • 00:45:00 In diesem Abschnitt erläutert der Dozent den Prozess der Umwandlung von Gradienten in Einheitsvektoren und wie er mit der Position der Lichtquelle zusammenhängt. Sie erklären, dass die Quadratwurzel notwendig ist, um Helmholtz zu erfüllen, und indem man das Verhältnis bestimmter Skalarprodukte nimmt, erhält man eine lineare Gleichung für die Isophoten, die im pq-Raum aufgetragen werden können. Der Dozent stellt fest, dass diese Linien zwar aufgrund der Quadratwurzel nicht gleichmäßig beabstandet sind, aber parallel verlaufen und dass es eine Linie gibt, bei der die Helligkeit Null ist, was eine 90-Grad-Drehung von der einfallenden Strahlung weg anzeigt. Insgesamt behandelt dieser Abschnitt die mathematischen Konzepte, die der Berechnung von Isophoten und der Beziehung zwischen Position und Helligkeit von Lichtquellen in einem bestimmten Raum zugrunde liegen.

  • 00:50:00 In diesem Abschnitt diskutiert der Dozent die Vorteile der linearen Schattierung in photometrischem Stereo, die eine einfache Lösung verschiedener Probleme ermöglicht. Bei zwei unterschiedlichen Lichtverhältnissen schneiden sich die beiden linearen Gleichungen, und der Schnittpunkt ist die Oberflächenorientierung. Der Dozent stellt fest, dass es bei der Lambertschen Schattierung keine Mehrdeutigkeit gibt, ein Problem bei der vorherigen Methode, bei der es bis zu vier Lösungen gab. Der Dozent zeigt auch, dass sich die ersten räumlichen Ableitungen genauso drehen wie das Koordinatensystem, und dies ist vorteilhaft, um die Oberflächenorientierung in eine bestimmte Richtung zu bestimmen, ohne die gesamte Orientierung der Oberfläche zu kennen.

  • 00:55:00 In diesem Abschnitt erklärt der Dozent, wie die Messung der Helligkeit die Steilheit oder Neigungsrichtung einer Oberfläche bestimmen kann, sodass Forscher ein Profil einer Oberfläche erstellen können, indem sie die Helligkeit oder das Reflexionsvermögen von Punkten vertikal und horizontal messen. Der Prozess erfordert zu Beginn eine Anfangsbedingung, nämlich das Messen der Helligkeit der Oberfläche und das inkrementelle Finden von z. Die Genauigkeit der Messung kann jedoch durch Schwankungen im Reflexionsvermögen und Ungenauigkeiten bei der Helligkeitsmessung beeinträchtigt werden.

  • 01:00:00 In diesem Abschnitt erläutert der Professor, wie man ein Profil der Oberfläche eines Objekts erhält, um seine Form mit Shape-from-Shading-Techniken zu bestimmen. Er erklärt, wie er, indem er ein Profil über ein Objekt laufen lässt, die Form des Profils erhalten kann, solange er den Anfangswert kennt. Er kann jedoch nicht die absolute vertikale Position des Profils erhalten, wenn er den Anfangswert nicht kennt. Anschließend wendet er diese Technik auf den Mond an, um verschiedene Profile der Oberfläche zu erhalten, um die Form des Objekts zu untersuchen. Der Professor spricht auch über Heuristiken, um 3D-Flächen aus den Profilen zusammenzufügen. Später wechselt er das Thema, um über Linsen zu sprechen, und rechtfertigt die Verwendung der orthografischen Projektion.

  • 01:05:00 In diesem Abschnitt erläutert der Dozent, wie zusammengesetzte Linsen, die aus mehreren Elementen bestehen, Aberrationen durch sorgfältig entworfene Anordnungen kompensieren. Er stellt fest, dass der Brechungsindex von Glas mit den Wellenlängen variiert und chromatische Aberrationen verursacht, aber Verbundlinsen aus verschiedenen Materialien können dies ausgleichen. Der Dozent erklärt, wie dicke Linsen durch Knotenpunkte und Hauptebenen angenähert werden können und wie ein geschickter Trick, t (Dicke zwischen Knotenpunkten) negativ zu machen, zu einem kurzen Teleobjektiv führen kann. Diese Technik kann die Länge eines Teleobjektivs erheblich reduzieren, während seine lange Brennweite und sein kleines Sichtfeld beibehalten werden.

  • 01:10:00 In diesem Abschnitt demonstriert der Dozent zwei Tricks, um die perspektivische Projektion in der Bildverarbeitung zu beseitigen. Der erste Trick besteht darin, einen der Knoten ins Unendliche zu verschieben, wodurch der Effekt der unterschiedlichen Vergrößerung mit der Entfernung verringert wird. Durch den Bau eines telezentrischen Objektivs mit einem weit entfernten Projektionszentrum wird der Richtungskegel paralleler und die Vergrößerung bleibt unabhängig von der Entfernung konstant. Der zweite Trick besteht darin, den anderen Knoten zu verschieben, was die Vergrößerung ändert, wenn die Bildebene nicht genau an der richtigen Stelle ist. Um ein scharfes Bild zu erzielen, muss das Objektiv fokussiert werden, indem die Brennweite des Glases geändert oder das Objektiv relativ zur Bildebene bewegt wird.

  • 01:15:00 In diesem Abschnitt des Vortrags diskutiert der Referent die Probleme mit dem Kosinus zum vierten Hauptsatz und der Änderung der Vergrößerung, wenn das Projektionszentrum nicht bei plus unendlich liegt. Er erklärt, wie das Verschieben des Nodalpunkts nach außen und die Verwendung von doppelt telezentrischen Objektiven diese Probleme beseitigen können, da die Strahlung einen bestimmten Sensor senkrecht zum Sensor erreicht. Darüber hinaus erörtert der Redner die Notwendigkeit kleiner Linsendeckel, um das einfallende Licht auf einen kleineren Bereich zu konzentrieren und Aliasing zu vermeiden, das auftreten kann, wenn Hochfrequenzkomponenten im Signal vorhanden sind. Abschließend erwähnt der Redner die Bedeutung der Tiefpassfilterung und die Wichtigkeit, das Signal nur mit der doppelten Bandbreite des Signals abzutasten, um es perfekt zu rekonstruieren.

  • 01:20:00 In diesem Abschnitt erörtert der Dozent, wie Tiefpassfilterung mit Blockmittelung Aliasing-Probleme reduzieren kann, wenn ein Lenslet-Array verwendet wird, um Licht von einem großen Bereich zu messen. Diese Methode funktioniert gut, wenn das Licht senkrecht auf den Sensor fällt, was durch telezentrische Objektive erreicht wird. Der Vortrag erklärt dann jedoch weiter, dass es in bestimmten Fällen, beispielsweise wenn die Tiefenänderungen in einer Szene kleiner als die Tiefe selbst sind, bequemer ist, die orthografische Projektion zu verwenden. Dies ermöglicht eine lineare Beziehung zwischen x und y in der Welt und x und y im Bild, wodurch Entfernungen und Größen von Objekten unabhängig von ihrer Entfernung gemessen werden können.

  • 01:25:00 In diesem Abschnitt stellt der Referent das Konzept der orthografischen Projektion vor, das für praktische Anwendungen mit telezentrischen Objektiven nützlich ist und einige der diskutierten Probleme vereinfacht. Sie stellen fest, dass einige vielleicht denken, dass diese Methode nur für Lamborghini funktioniert, sie tatsächlich für alles funktioniert, aber die Gleichungen für andere Versionen unordentlich werden. Der Referent erklärt, dass die Art der Rekonstruktion, auf die sie als nächstes eingehen werden, unter perspektivischer Projektion erfolgen kann, aber kompliziert und nicht sehr aufschlussreich ist. Durch den Wechsel zur orthografischen Projektion werden viele dieser Probleme jedoch deutlicher.
Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 9: Form aus Schattierung, allgemeiner Fall - Von der nichtlinearen PDE erster Ordnung zu fünf ODEs



Vorlesung 9: Form aus Schattierung, allgemeiner Fall - Von der nichtlinearen PDE erster Ordnung zu fünf ODEs

Dieser Vortrag behandelt das Thema Shape from Shading, eine Methode zur Interpretation der Formen von Objekten anhand von Variationen der Bildhelligkeit. Der Dozent erklärt den Prozess der Rasterelektronenmikroskopie, bei der ein Sekundärelektronenkollektor verwendet wird, um den Bruchteil eines einfallenden Elektronenstrahls zu messen, der ihn zurücklässt, wodurch die Oberflächenneigung geschätzt werden kann. Die Vorlesung behandelt auch die Verwendung von Konturintegralen, Momenten und kleinsten Quadraten, um Oberflächenableitungen zu schätzen und die kleinste Oberfläche bei gegebenem Messrauschen zu finden. Der Referent leitet fünf gewöhnliche Differentialgleichungen für das Shape-from-Shading-Problem ab und erläutert auch das Konzept des Laplace-Operators, der in Bildverarbeitungsoperationen verwendet wird.

In diesem Vortrag zum Thema „Shape from Shading“ diskutiert der Referent verschiedene Lösungsansätze zur Lösung von Gleichungen für die Least Square Solution to Shape from Shading. Der Dozent erklärt verschiedene Techniken, um die Laplace-Bedingung zu erfüllen, Pixelwerte anzupassen und Oberflächen mithilfe von Bildmessungen und Neigungsberechnungen von verschiedenen Punkten aus zu rekonstruieren. Die Vorlesung behandelt die Themen Anfangswerte, Transformation von Rotieren und Rücktransformation durch minus Theta. Der Dozent schließt mit einer Diskussion über die Verallgemeinerung dieser Gleichungen für beliebige Reflexionskarten und die Bedeutung der Untersuchung von Rasterelektronenmikroskopbildern, um konkrete Beispiele für die Interpretation von Schattierungen zu liefern.

  • 00:00:00 In diesem Abschnitt der Vorlesung stellt der Professor Shape from Shading vor, eine Methode zur Wiederherstellung der Formen von Objekten mithilfe von Bildhelligkeitsmessungen. Er erklärt, wie sich diese Methode von photometrischem Stereo unterscheidet, das Mehrfachbelichtungen erfordert. Der Professor geht auch auf verschiedene Arten von Oberflächenmaterialien und deren Reflexionseigenschaften ein, darunter Hapke, ein Modell für die Reflexion von Gesteinsplaneten, und ein drittes Modell für die Mikroskopie. Er stellt einen Vergleich zwischen elektronenmikroskopischen Methoden vor und erklärt, warum Rasterelektronenmikroskope aufgrund ihrer spezifischen Helligkeitsvariationen, die je näher man sich den Rändern nähert, heller werdende Bilder liefern, die für den Menschen leicht zu interpretieren sind.

  • 00:05:00 In diesem Abschnitt erörtert der Dozent die Bedeutung der Schattierung in Bildern, die bei der Interpretation der Form von Objekten eine wichtige Rolle spielt. Der Dozent präsentiert Bilder eines Mottenkopfes und einer eiförmigen, fußballähnlichen Form, die je nach Oberflächenorientierung unterschiedliche Helligkeiten aufweisen, sodass wir ihre Formen leicht interpretieren können. Interessanterweise sind Menschen trotz der nicht-lambertschen Oberfläche des fußballähnlichen Objekts immer noch in der Lage, seine Form genau zu interpretieren. Der Vortrag befasst sich dann mit der Funktionsweise von Rasterelektronenmikroskopen, die einen Strahl beschleunigter Elektronen verwenden, um Bilder der Objektoberfläche zu erstellen.

  • 00:10:00 In diesem Abschnitt wird der Prozess der Erstellung von schattierten Bildern mit der Rasterelektronenmikroskopie beschrieben. Elektronen mit mehreren Kiloelektronenvolt treffen auf ein Objekt und einige prallen als Rückstreuung davon ab, aber die meisten dringen ein und erzeugen Sekundärelektronen, indem sie Energie verlieren und Elektronen von ionisierenden Dingen abstoßen. Einige der Sekundärelektronen treten aus dem Objekt aus und werden von einer Elektrode gesammelt, um das Objekt rasterartig abzutasten. Der hier gemessene Strom wird dann verwendet, um einen Lichtstrahl in einem Display zu modulieren, der durch Ablenkung auf Tausende bis Zehntausende von Vergrößerungen vergrößert werden kann, was es leistungsfähiger als die optische Mikroskopie macht.

  • 00:15:00 In diesem Abschnitt des Vortrags erläutert der Referent den Prozess der Messung der Orientierung einer Oberfläche mit einem Sekundärelektronenkollektor. Der Kollektor misst den Anteil des einfallenden Strahls, der wieder herauskommt, wobei stark geneigte Oberflächen zu mehr Strom führen, da mehr Sekundärelektronen entweichen. Durch Auftragen einer Reflexionskarte, Helligkeit gegenüber Orientierung, kann die Neigung der Oberfläche bestimmt werden, aber nicht ihr Gradient, wodurch zwei Unbekannte und eine Einschränkung verbleiben. Dieses Problem ist ein Beispiel für das Form-aus-Schattierungs-Problem, bei dem das Ziel darin besteht, die Oberflächenform aus einem Helligkeitsmuster abzuschätzen.

  • 00:20:00 In diesem Abschnitt des Vortrags erörtert der Referent die Verwendung einer Reflexionskarte zur Bestimmung der Neigung oder des Gradienten einer Oberfläche. Sie erklären, dass diese Methode für verschiedene Oberflächen und nicht nur für bestimmte Arten verwendet werden kann. Die Diskussion behandelt auch Nadeldiagramme und wie sie verwendet werden können, um Oberflächenorientierung und -form zu bestimmen. Der Sprecher erklärt, dass dies zwar ein einfaches Problem ist, aber überdeterminiert ist, da es mehr Beschränkungen als Unbekannte gibt. Dies ermöglicht eine Verringerung des Rauschens und ein besseres Ergebnis. Die Vorlesung endet mit einer Demonstration der Integration von p zur Bestimmung der Höhenänderung vom Ursprung.

  • 00:25:00 In diesem Abschnitt erörtert der Referent, wie die bekannten Daten integriert werden können, um Höhen überall entlang der x- oder y-Achse zu schätzen, die kombiniert werden können, um die gesamte Fläche auszufüllen. Die verwendeten p- und q-Werte unterliegen jedoch Messrauschen, was bedeutet, dass es keine Garantie dafür gibt, dass die Messung von p und q auf unterschiedliche Weise zu demselben Ergebnis führt. Um dieses Problem zu lösen, muss eine Beschränkung für p und q eingeführt werden; p und q müssen diese Einschränkung für jede Schleife erfüllen, und die große Schleife kann in kleine Schleifen zerlegt werden, die sich gegenseitig aufheben, um sicherzustellen, dass die Einschränkung auch für die große Schleife gilt.

  • 00:30:00 In diesem Abschnitt diskutiert der Dozent den Zusammenhang zwischen einem Konturintegral und einem Flächenintegral im Zusammenhang mit der Messung der Ableitungen einer Oberfläche mit photometrischen Außen- oder anderen Sichtverfahren. Die Vorlesung zeigt, wie die Steigung basierend auf der Mitte einer Strecke geschätzt werden kann, wo die Steigung ziemlich konstant ist, und verwendet die Taylor-Reihenentwicklung, um eine Gleichung abzuleiten, die die Ableitungen der Oberfläche z von x y in Beziehung setzt. Es wird gesagt, dass es unmöglich ist, das genaue z von xy zu finden, das die gemessenen p und q ergibt, aber es wird ein eleganterer Weg vorgestellt, um eine Näherung der kleinsten Quadrate zu finden.

  • 00:35:00 In diesem Abschnitt des Vortrags erörtert der Referent den Vorteil, Berechnungen von allen Pixeln auf nur die Grenze einer Region in der maschinellen Bildverarbeitung zu reduzieren. Der Sprecher verwendet das Beispiel der Berechnung der Fläche und Position eines Flecks durch Konturintegrale und Momente, die effizient berechnet werden können, indem der Umriss verfolgt wird, anstatt Pixel zu zählen. Die Vorlesung wendet den Satz von Green an, um das Konturintegral an die Berechnung von Momenten anzupassen.

  • 00:40:00 In diesem Abschnitt erläutert der Dozent, wie man anhand unserer Messungen die kleinstmögliche Oberfläche findet. Idealerweise würden wir eine Oberfläche finden, deren x- und y-Ableitungen mit p und q übereinstimmen, die wir aus dem Bild erhalten haben. Aufgrund des Messrauschens wird dies jedoch nicht möglich sein, daher werden wir stattdessen versuchen, es so klein wie möglich zu machen, indem wir ein Problem der kleinsten Quadrate lösen. Z ist eine Funktion mit unendlichen Freiheitsgraden, daher können wir keine gewöhnliche Analysis verwenden. Stattdessen können wir in Bezug auf jede der endlichen Anzahl von Unbekannten auf einem Gitter differenzieren und das Ergebnis gleich Null setzen, um viele Gleichungen zu erhalten.

  • 00:45:00 In diesem Abschnitt des Vortrags erläutert der Referent den Prozess zum Finden eines Werts von z für jeden Gitterpunkt, um den Fehler zwischen beobachteten Werten und geschätzten Ableitungen sowohl in x- als auch in y-Richtung zu minimieren. Dazu erklärt der Sprecher, dass er differenzieren und das Ergebnis für alle möglichen Werte von i und j gleich Null setzen muss, was zu einem Satz linearer Gleichungen führt, die mit der Methode der kleinsten Quadrate lösbar sind. Der Sprecher warnt jedoch vor einem möglichen Problem, wenn die Bezeichnernamen i und j nicht durch andere Namen ersetzt werden, was zu einer falschen Antwort führen kann. Obwohl es eine große Anzahl von Gleichungen gibt, sind die Gleichungen spärlich, wodurch sie einfacher zu lösen sind.

  • 00:50:00 In diesem Abschnitt geht der Sprecher auf den Prozess der Verwendung nichtlinearer partieller Differentialgleichungen erster Ordnung ein, um fünf gewöhnliche Differentialgleichungen für das Form-aus-Schattierungs-Problem abzuleiten. Sie erklären die Differenzierungsschritte für die Terme innerhalb eines Quadrats, das Anpassen von Termen und die Berücksichtigung verschiedener Werte von k und l. Der Dozent vereinfacht die endgültige Gleichung und trennt die Terme, um die x- und y-Ableitungen von p bzw. q zu identifizieren. Ziel ist es, letztendlich eine Lösung für alle Punkte im Bild zu finden.

  • 00:55:00 In diesem Abschnitt erläutert der Referent das Computational Molecule Diagramm, das eine grafische Methode zur Abschätzung von Ableitungen in der Bildverarbeitung darstellt. Er verwendet dies, um zu zeigen, wie der Laplace-Operator abgeleitet wird, der in Bildverarbeitungsoperationen häufig verwendet wird. Er erklärt, dass der Laplace-Operator rotationssymmetrisch ist und dass es Ableitungsoperatoren gibt, die bei der Kantenerkennung sehr nützlich sind und ebenfalls rotationssymmetrisch sind.

  • 01:00:00 In diesem Abschnitt erörtert der Sprecher einen diskreten Ansatz zum Lösen von Gleichungen für die Lösung der kleinsten Quadrate, um sie aus Schattierung zu formen, anstatt die Variationsrechnung zu verwenden. Die resultierenden Gleichungen sind, obwohl sie viele Variablen haben, spärlich, was die iterative Lösung möglich macht. Der Referent erklärt, wie diese Gleichungen mithilfe eines iterativen Ansatzes gelöst werden können, bei dem lokale Mittelwerte benachbarter Pixel berechnet und eine Korrektur basierend auf Bildinformationen hinzugefügt werden. Der Redner merkt an, dass iterative Lösungen zwar leicht vorzuschlagen sind, der Nachweis, dass sie konvergieren, jedoch schwierig ist, aber Lehrbücher legen nahe, dass dies der Fall ist.

  • 01:05:00 In diesem Abschnitt erörtert der Dozent einen Ansatz zur Erfüllung der Laplace-Bedingung durch Anpassung der Pixelwerte mithilfe einer einfachen Gleichung mit wenigen Termen. Dieser Ansatz bezieht sich auf die Lösung der Wärmegleichung und kann effizient parallel durchgeführt werden, wodurch er auch bei Messrauschen stabil ist. Die Technik kann auf photometrische Stereodaten angewendet werden, um eine Oberfläche nach der Methode der kleinsten Quadrate zu rekonstruieren, wodurch eine vernünftige Lösung bereitgestellt wird, die mit experimentellen Daten übereinstimmt. Der Dozent räumt jedoch ein, dass dieser Ansatz über photometrisches Stereo hinaus nicht direkt nützlich ist und dass es anspruchsvollere Probleme zu lösen gilt, wie z. B. Einzelbildrekonstruktionen.

  • 01:10:00 In diesem Abschnitt diskutiert der Dozent einen einfachen Fall der Reflexionskarte mit parallelen Geraden als Isophoten. Die parallelen Linien ermöglichen es, zu einem nützlicheren Koordinatensystem zu rotieren und die Informationen in einer Richtung zu maximieren, während sie in einer anderen minimiert werden. Die Vorlesung liefert die Beziehung zwischen p, q, p prime und q prime, den Winkel Theta, der durch ein Dreieck gegeben ist, und die inverse Transformation der Rotation durch minus Theta. Letztendlich analysiert die Vorlesung den allgemeinen Fall mit verschnörkelten Linien und diskutiert das Konzept der Form aus Schattierung.

  • 01:15:00 In diesem Abschnitt spricht der Dozent darüber, wie man eine Oberfläche mithilfe von Bildmessungen und Neigungsberechnungen von verschiedenen Punkten aus rekonstruiert. Der Vortrag behandelt auch die Idee, dass der Ansatz, eine Konstante zur Höhe von z hinzuzufügen und Änderungen zu finden, den Laplace-Operator von z in keiner Weise angepasst hat, was impliziert, dass Höhenunterschiede nicht viele Informationen liefern, sondern nur relative Tiefe. Der Dozent weist jedoch darauf hin, dass für eine Rekonstruktion ein Anfangswert für z erforderlich ist.

  • 01:20:00 In diesem Abschnitt erörtert der Referent die Herausforderung, potenziell unterschiedliche Anfangswerte für jede Zeile bei der Berechnung von Lösungen für die Form einer Oberfläche mit Shape from Shading zu haben. Während es einfach wäre, mit einer Gesamthöhenänderung fertig zu werden, erfordern unterschiedliche Anfangswerte für jede Zeile eine andere Anfangskurve, die auf die ursprüngliche, nicht gedrehte Welt zurück abgebildet werden kann. Der Sprecher schlägt vor, eine Anfangskurve zu verwenden, die eine Funktion von eta ist, um die Oberfläche zu erkunden, indem man sich entlang dieser Kurven bewegt, sie unabhängig berechnet und dann die Geschwindigkeit ändert, mit der die Lösung untersucht wird.

  • 01:25:00 In diesem Abschnitt erklärt der Sprecher, dass durch die Multiplikation mit einer Konstanten die Gleichungen einfacher werden und die Bewegung in x- und y-Richtung proportional zu q s bzw. p s ist, während in z-Richtung a vorliegt einfache Formel. Der Vortrag schließt mit einer Diskussion über die Verallgemeinerung dieser Gleichungen für beliebige Reflexionskarten und die Bedeutung der Untersuchung von Rasterelektronenmikroskopbildern, um konkrete Beispiele für die Interpretation von Schattierungen zu liefern.
Lecture 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs
Lecture 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 10: Kennstreifenentwicklung, Shape from Shading, Iterative Lösungen



Vorlesung 10: Kennstreifenentwicklung, Shape from Shading, Iterative Lösungen

In dieser Vorlesung behandelt der Dozent das Thema Shape from Shading mit Hilfe von Helligkeitsmessungen im Konzept der Bildentstehung. Dazu gehört das Verständnis der Gleichung für die Bildbestrahlungsstärke, die die Helligkeit mit der Oberflächenorientierung, der Beleuchtung, dem Oberflächenmaterial und der Geometrie in Beziehung setzt. Sie erklären die Methode, p- und q-Variablen zu aktualisieren, indem sie zwei getrennte Gleichungssysteme verwenden, die sich gegenseitig beeinflussen, und einen ganzen Streifen mit dem Helligkeitsgradienten nachzeichnen. Der Vortrag behandelt auch die Herausforderungen beim Lösen von nichtlinearen PDEs erster Ordnung und verschiedene Methoden, um beim Erkunden der Oberfläche von einer Kontur zur anderen zu wechseln. Abschließend erörtert der Dozent die Implementierung der charakteristischen Streifenentwicklung und warum ein sequenzielles Vorgehen möglicherweise nicht die beste Methode ist, empfiehlt Parallelisierung und kontrolliert die Schrittweite.

In Vorlesung 10 diskutiert der Professor verschiedene Methoden zur Lösung von Shape-from-Shading-Problemen, einschließlich der Verwendung stationärer Punkte auf der Oberfläche und der Konstruktion einer kleinen Kappenform um sie herum, um die lokale Form abzuschätzen. Der Dozent führt auch in das Konzept der okkludierenden Grenze ein, die Startbedingungen für Lösungen liefern kann, und diskutiert die jüngsten Fortschritte bei der Berechnung von Lösungen für das Dreikörperproblem unter Verwendung ausgefeilter numerischer Analysemethoden. Darüber hinaus berührt die Vorlesung das Thema industrielle Bildverarbeitungsmethoden und die damit verbundenen Muster, die in der folgenden Vorlesung behandelt werden.

  • 00:00:00 In diesem Abschnitt gibt der Dozent Ankündigungen zum ersten Quiz und zur Einreichung von Vorschlägen für das Semesterprojekt. Das Semesterprojekt beinhaltet die Umsetzung einer Lösung für ein Bildverarbeitungsproblem, und die Studenten sollten bis zum 22. einen kurzen Vorschlag einreichen. Der Kursleiter spricht dann über die Änderung des Tempos bei der Berichterstattung über industrielle Bildverarbeitung, bei der er sich mit Patenten statt mit veröffentlichten Artikeln oder Lehrbüchern befasst. Dabei lernen die Studierenden die Patentsprache kennen, die für Unternehmer, die in Startups involviert sind, unerlässlich ist. Abschließend stellt der Dozent Beispiele für studentische Projekte vor, wie z. B. die Implementierung von Subpixel-Methoden zur Kantenerkennung oder Zeit bis zum Kontakt auf einem Android-Telefon.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent die verschiedenen Aspekte der Bildentstehung, wobei er sich speziell auf das Konzept der Form von Schattierung unter Verwendung von Helligkeitsmessungen konzentriert. Dies erfordert ein Verständnis der Gleichung für die Bildbestrahlungsstärke, die die Helligkeit mit der Oberflächenorientierung, der Beleuchtung, dem Oberflächenmaterial und der Geometrie in Beziehung setzt. Die Reflexionskarte wird zur Vereinfachung dieser Gleichung verwendet und dient als Möglichkeit, die detaillierten Reflexionseigenschaften zusammenzufassen, obwohl sie von der bidirektionalen Reflexionsverteilungsfunktion (BRDF) abgeleitet ist. Der Vortrag erklärt weiter, wie dieses Konzept auf die Reflexionseigenschaften des Mondes und anderer Gesteinsplaneten angewendet wurde, was zu einer Reihe von Gleichungen führte, die die Bestimmung der Oberflächenorientierung in bestimmten Richtungen ermöglichen.

  • 00:10:00 In diesem Abschnitt erörtert der Sprecher die Regel für einen kleinen Schritt im Bild, um einem kleinen Schritt in der Höhe unter Verwendung der orthografischen Projektion zu entsprechen. Er erklärt, dass dies die Mathematik vereinfacht und mit der Annahme einer telezentrischen Linse und einer weit entfernten Lichtquelle zusammenhängt, was Lambertsche Annahmen ermöglicht. Der Gesamtprozess umfasst das numerische Lösen von drei gewöhnlichen Differentialgleichungen mit dem Vorwärts-Euler-Verfahren und das Einspeisen der Helligkeit durch die Oberfläche vom Hapka-Typ. Der Referent zeigt, wie man dies in p und q ausdrückt und dann die Gleichung für das Strahlenbild herleitet.

  • 00:15:00 In diesem Abschnitt geht der Referent auf den direkten Zusammenhang zwischen der gemessenen Oberflächenhelligkeit und der für eine bestimmte Oberfläche benötigten Lösung ein. Er erklärt, dass es eine Konstante namens rs gibt, die von der Position der Quelle abhängt und zur Vereinfachung der Lösung verwendet wird. Die Technik besteht darin, die Helligkeit zu nehmen, sie zu quadrieren, sie mit rs zu multiplizieren und eins mit der Ableitung in z-Richtung zu subtrahieren. Der Referent erklärt auch, wie man eine Anfangsbedingung für die Differentialgleichungen erhält und wie man eine Kurve über Parameter definieren kann. Das Verfahren wird dann verallgemeinert, um den allgemeinen Fall anzugehen, bei dem die Steigung nicht lokal bestimmt werden kann.

  • 00:20:00 In diesem Abschnitt geht der Dozent auf die Konstruktion einer Lösung mit einer charakteristischen Streifenentwicklung ein. Dazu muss man die Höhenänderung berechnen, um zu wissen, wie sich z ändern wird. Sie gehen davon aus, dass wir mit x, y und z beginnen, zusammen mit der Oberflächenorientierung, p und q, und aktualisieren die Regeln für x, y und z, und die Änderung der Höhe von z wird durch eine Gleichung angegeben. Das Aktualisieren von p und q während des Vorgangs ist notwendig, was zu einem charakteristischen Streifen führt, der die Oberflächenorientierung trägt, was mehr Information ist als nur eine Kurve. Der Dozent erklärt, wie p und q aktualisiert werden, indem eine Zwei-mal-Zwei-Matrix und die zweiten partiellen Ableitungen der Höhe verwendet werden, die der Krümmung entsprechen.

  • 00:25:00 In diesem Abschnitt geht der Dozent darauf ein, wie man die Krümmungsmatrix für eine 3D-Oberfläche berechnet, was komplizierter ist als für eine Kurve in der Ebene. Die Krümmungsmatrix erfordert eine ganze Matrix von Ableitungen zweiter Ordnung, die Hesse-Matrix genannt wird. Die Verwendung von Ableitungen höherer Ordnung zur Fortsetzung der Lösung würde jedoch zu mehr Unbekannten führen. Daher wird die Bildbestrahlungsstärkegleichung benötigt, insbesondere der Helligkeitsgradient, da Änderungen in der Oberflächenorientierung einer Krümmung entsprechen, die die Bildhelligkeit beeinflusst. Durch Betrachten der gemeinsamen Matrix H sowohl in der Krümmungs- als auch in der Helligkeitsgradientengleichung würde die Berechnung von H eine Aktualisierung in x, y, z, p und q ermöglichen und das Verfahren vervollständigen.

  • 00:30:00 In diesem Abschnitt diskutiert der Dozent das Konzept der Lösung nach h unter Verwendung von zwei linearen Gleichungen. H kommt in beiden Gleichungen vor, aber da wir zwei Gleichungen und drei Unbekannte haben, können wir nicht nach h auflösen. Indem wir jedoch ein bestimmtes Delta x und Delta y verwenden, können wir die Schrittgröße steuern und eine bestimmte Richtung auswählen, um Delta p und Delta q zu berechnen. Der Dozent erklärt auch, dass sich die Richtung ändern kann, wenn die Oberfläche erkundet wird. Indem wir dies in die Gleichung einsetzen, können wir herausfinden, wie wir p und q ändern können, um das Problem zu lösen.

  • 00:35:00 In diesem Abschnitt erörtert der Dozent die fünf gewöhnlichen Differentialgleichungen, die zum Auflösen der z-Variablen in der Bildbestrahlungsstärkegleichung erforderlich sind, und stellt ein Verfahren zum Erzeugen eines Streifens unter Verwendung des Helligkeitsgradienten zum Aktualisieren der p- und q-Variablen vor. Der Dozent erklärt dann den interessanten Teil der Lösung, bei dem es um zwei ineinander greifende Gleichungssysteme geht, wie sie die Gradientenrichtung bestimmen und verwendet werden können, um einen ganzen Streifen nachzuzeichnen. Letztendlich wird die partielle Differentialgleichung auf einfache, gewöhnliche Differentialgleichungen reduziert, wobei p und q verwendet werden, um die Gleichung weniger einschüchternd aussehen zu lassen.

  • 00:40:00 In diesem Abschnitt erörtert der Referent die Herausforderungen nichtlinearer PDEs erster Ordnung bei der Lösung von Helligkeit im Zusammenhang mit der Form von Schattierung. Dies ist eine Abkehr von den in der Physik typischen linearen PDEs zweiter Ordnung, was bedeutet, dass eine spezielle Methode zum Lösen dieser Art von PDEs erforderlich ist. Der allgemeine Fall für jedes R von P und Q wird diskutiert und dann auf zwei spezifische Oberflächeneigenschaften angewendet: Hapke und das Rasterelektronenmikroskop. Es wird gezeigt, dass die Aktualisierungsregeln für X und Y proportional zu PS bzw. QS sind.

  • 00:45:00 In diesem Abschnitt erklärt der Dozent die Methode zur Aktualisierung der x-, y- und Höhenachsen unter Verwendung der charakteristischen Streifenausdehnung und -form aus Schattierung mit iterativen Lösungen. Das Verfahren umfasst das Differenzieren in Bezug auf p und q, um die Aktualisierung für x und y zu berechnen, und die Verwendung von prp plus qrq, um die Höhenachse zu aktualisieren. Der Vortrag weist darauf hin, dass diese Methode auf rasterelektronenmikroskopische Bilder angewendet werden kann, und berührt auch das Konzept der Basismerkmale, bei denen die charakteristischen Streifen auf die Bildebene projiziert werden, um so viel wie möglich vom Bild zu erkunden.

  • 00:50:00 In diesem Abschnitt geht der Referent auf die Implementierung der Kennstreifenerweiterung ein und warum ein sequentielles Vorgehen möglicherweise nicht die beste Methode ist. Aufgrund der unabhängigen Lösungen, die entlang jeder Kurve gefunden werden, kann ein Prozess entlang jeder Kurve ausgeführt werden, was die Berechnung parallelisierbar macht. Die Geschwindigkeit der Berechnung, die eine vernünftige Schrittweite haben muss, wird diskutiert, und ein einfacher Fall, bei dem die Schrittweite durch eine Konstante z gesteuert wird, wird untersucht. Durch Dividieren durch PRP und QRQ in der Gleichung für z wird die Änderungsrate eins, was zu konstanten Lösungen entlang jeder Kurve mit Konturen bei zunehmenden Werten von z führt.

  • 00:55:00 In diesem Abschnitt des Vortrags erörtert der Referent verschiedene Möglichkeiten, wie Sie beim Erkunden der Oberfläche von einer Kontur zur anderen wechseln können. Sie erwähnen die Möglichkeit, in Z-Richtung in Schritten mit konstanter Größe zu gehen oder eine konstante Schrittgröße im Bild zu haben, was das Dividieren aller Gleichungen durch einen konstanten Faktor erfordert. Eine weitere Option ist das schrittweise Inkrementieren konstanter Größe in 3D, wobei die Summe der Quadrate der Inkremente 1 ist, und schließlich die Möglichkeit, Isophoden in Konturen im Kontrast- oder Helligkeitsbild einzufügen. Bei einigen dieser Methoden können jedoch Probleme auftreten, z. B. unterschiedliche Kurven, die mit unterschiedlichen Raten verlaufen oder durch Null dividiert werden. Daher ist es wichtig, diese Einschränkungen zu beachten.

  • 01:00:00 In diesem Abschnitt der Vorlesung geht der Professor auf das Skalarprodukt der beiden Gradienten in Bild und Reflexionskarte ein, geht aber nicht zu sehr ins Detail. Das Bewegen von Kontur zu Kontur im Bild ermöglicht ein einfacheres Zusammenbinden benachbarter Lösungen, und grobe numerische Analysemethoden können ausreichende Ergebnisse liefern. Der Professor geht dann auf die jüngsten Fortschritte bei der Berechnung von Lösungen für das Dreikörperproblem ein und wie ausgefeilte numerische Analysemethoden verwendet werden, um Gleichungen zu lösen, die ansonsten schwierig, wenn nicht unmöglich, analytisch zu lösen wären.

  • 01:05:00 In diesem Abschnitt erörtert der Dozent die Herausforderung, eine Anfangskurve zu benötigen, um eine Oberfläche zusammen mit ihrer Ausrichtung mit optischen Bildverarbeitungsmethoden zu untersuchen. Glücklicherweise gibt es eine Gleichung für die Bildbestrahlungsstärke, die eine Einschränkung für die Ausrichtung der Kurve vorgibt, und wir wissen, dass sich die Kurve in der Oberfläche befindet, was es uns ermöglicht, die Ableitungen zu berechnen und eine lineare Gleichung zu lösen. Das bedeutet, dass wir die Orientierung finden und die Notwendigkeit eines anfänglichen Streifens auf dem Objekt beseitigen können, wenn wir spezielle Punkte auf dem Objekt finden können, wo wir die Form, Orientierung usw. kennen.

  • 01:10:00 In diesem Abschnitt erörtert der Redner das Konzept der Okklusionsgrenze, also der Stelle, an der sich ein Objekt krümmt, sodass der Teil auf der einen Seite sichtbar ist und der andere nicht. Wenn wir an diesem Punkt eine Oberflächennormale konstruieren, ist sie parallel zu einem Vektor, der entlang der Okklusionsgrenze konstruiert wird, was uns Startbedingungen gibt, um mit unseren Lösungen zu beginnen. Allerdings können wir die Verhältnisse von der Okklusionsgrenze nicht verwenden, um die Gleichungen zu lösen, da die Steigung unendlich ist. Der Redner führt auch das Konzept der stationären Punkte ein, die einzigartige, globale, isolierte Extrema sind und aus den hellsten Punkten auf der Oberfläche eines Objekts resultieren, wenn es beleuchtet wird. Diese Punkte liefern uns die Orientierung der Oberfläche an dieser Stelle, was wertvolle Informationen zum Lösen von Shape-from-Shading-Problemen ist.

  • 01:15:00 In diesem Abschnitt erörtert der Dozent die stationären Punkte auf der Reflexionskarte und dem Bild, die je nach verwendetem Bildgebungsverfahren Extrema oder Minima entsprechen. Stationäre Punkte erlauben jedoch keinen direkten Start der Lösung, da sich die abhängigen Variablen nicht ändern. Die Lösung kann sich nur dann vom stationären Punkt entfernen, wenn versucht wird, eine Annäherung an die Oberfläche zu konstruieren, um die Lösung zu starten. Die Idee ist, eine kleine Ebene unter Verwendung der Orientierung des stationären Punktes zu konstruieren und dann einen Radius zu machen, um die Lösung zu beginnen. Auf diese Weise kann die Lösung vom stationären Punkt wegkommen und mit der Iteration zu einer besseren Lösung beginnen.

  • 01:20:00 In diesem Abschnitt des Vortrags diskutiert der Referent das Konzept stationärer Punkte auf gekrümmten Oberflächen in Bezug auf Form aus Schattierung. Die Idee ist, eine eindeutige Lösung für die Krümmung einer Fläche zu finden, die einen stationären Punkt hat. Der Referent erklärt, dass diese Punkte in der menschlichen Wahrnehmung wichtig sind und die Einzigartigkeit einer Lösung beeinflussen können. Anschließend erläutert der Vortrag anhand eines Beispiels, wie die Krümmung einer Oberfläche ermittelt wird, wobei davon ausgegangen wird, dass die Oberfläche eine sem-artige Reflexionskarte und einen stationären Punkt im Ursprung hat. Der Gradient des Bildes ist am Ursprung Null, was das Vorhandensein eines Extremums an diesem Punkt bestätigt. Der Gradient kann jedoch nicht verwendet werden, um die lokale Form abzuschätzen, da er am Ursprung Null ist, wodurch eine zweite Ableitung erforderlich ist.

  • 01:25:00 In diesem Abschnitt erklärt der Sprecher, wie die zweite partielle Ableitung der Helligkeit Informationen über die Form liefern kann und wie man sie zurückgewinnen kann, indem man die lokale Form aus stationären Punkten schätzt und eine kleine Kappenform um sie herum konstruiert. Darüber hinaus führt der Referent in das Thema industrielle Bildverarbeitungsmethoden und die damit verbundenen Muster ein, die im anschließenden Vortrag behandelt werden.
Lecture 10: Characteristic Strip Expansion, Shape from Shading, Iterative Solutions
Lecture 10: Characteristic Strip Expansion, Shape from Shading, Iterative Solutions
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 11: Kantenerkennung, Subpixelposition, CORDIC, Linienerkennung (US-Patent 6408109)



Vorlesung 11: Kantenerkennung, Subpixelposition, CORDIC, Linienerkennung (US-Patent 6408109)

Dieses YouTube-Video mit dem Titel „Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)“ behandelt mehrere Themen im Zusammenhang mit der Kantenerkennung und der Subpixel-Position in Bildverarbeitungssystemen. Der Referent erläutert die Bedeutung von Patenten im Erfindungsprozess und wie sie in Patentkriegen eingesetzt werden. Sie diskutieren auch verschiedene Kantenerkennungsoperatoren und ihre Vorteile und Einschränkungen. Das Video enthält detaillierte Erklärungen der mathematischen Formeln, die verwendet werden, um kartesische Koordinaten in Polarkoordinaten umzuwandeln und die Kantenposition zu bestimmen. Das Video schließt mit einer Diskussion über die Bedeutung des Verfassens von breiten und engen Ansprüchen für Patente und die Entwicklung des Patentrechts im Laufe der Zeit.

In Vorlesung 11 konzentriert sich der Referent auf verschiedene computergestützte Moleküle zur Kantendetektion und Ableitungsschätzung, wobei der Schwerpunkt auf der Effizienz liegt. Es werden Sobel- und Roberts-Cross-Operatoren zur Berechnung der Summe der Quadrate von Gradienten vorgestellt, wobei Variationen in Formel und Technik besprochen werden. Um Subpixel-Genauigkeit zu erreichen, werden mehrere Operatoren verwendet, und Techniken wie das Anpassen einer Parabel oder die Verwendung eines Dreiecksmodells werden vorgestellt, um die Spitze der Kurve zu bestimmen. Darüber hinaus diskutiert die Vorlesung Alternativen zur Quantisierung und Probleme mit der Gradientenrichtung auf einem quadratischen Gitter. Insgesamt betont der Vortrag, wie wichtig es ist, viele Details zu berücksichtigen, um eine gute Leistung bei der Kantenerkennung zu erzielen.

  • 00:00:00 In diesem Abschnitt führt der Dozent in das Thema industrielles maschinelles Sehen und seine Bedeutung in Herstellungsprozessen ein, einschließlich der Verwendung von maschinellem Sehen für die Ausrichtung und Inspektion bei der Herstellung integrierter Schaltkreise und die Lesbarkeit von pharmazeutischen Etiketten. Der Dozent erklärt den Zweck von Patenten als Möglichkeit, ein begrenztes Monopol bei der Nutzung einer Erfindung zu erlangen, im Austausch dafür, wie sie funktioniert und der Gesellschaft langfristig zugute kommt. Auch die Struktur und Metadaten eines Patents werden diskutiert, darunter Patentnummer und -titel, das Patentdatum und die Verwendung von Patenten als Munition in Patentkriegen zwischen Unternehmen. Der Vortrag beschreibt dann kurz ein Patent von Bill Silver von Cognex, einem führenden Unternehmen für maschinelles Sehen, zur Erkennung und Lokalisierung von Subpixeln.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent den Prozess der Kantenerkennung in digitalen Bildern, wobei der Fokus auf den Übergang zwischen verschiedenen Helligkeitsstufen gelegt wird. Der Dozent merkt an, dass das Finden von Kanten mit Subpixel-Genauigkeit in der Welt der Fließbänder und integrierten Schaltkreise von entscheidender Bedeutung ist, da es die zur Beschreibung von etwas erforderlichen Bits erheblich reduziert. Der Vortrag erklärt weiter, dass dieser Prozess mit einer Kamera mit höheren Pixeln erreicht werden kann, aber kostspielig ist, und daher wäre eine Software, die ihn zu geringeren Kosten durchführen kann, von Vorteil. Der Dozent erklärt auch, dass ein 40stel Pixel erreicht werden kann, was ein erheblicher Vorteil ist, aber mit Herausforderungen verbunden ist. Der Vortrag schließt mit einer Diskussion über die Patentanmeldung und wie sich das Verfahren im Laufe der Zeit verändert hat, einschließlich der in den Dokumenten verwendeten geheimnisvollen Sprache und der Verzögerung bei der Einreichung einer Patentanmeldung.

  • 00:10:00 In diesem Abschnitt des Videos bespricht der Sprecher verschiedene technische Abhandlungen und Patente im Zusammenhang mit der Kantenerkennung in der maschinellen Bildverarbeitung, die bis in die 1950er Jahre zurückreichen. Die erste berühmte Veröffentlichung zu diesem Thema stammt von Roberts aus dem Jahr 1965, in der ein einfacher, aber irreführender Kantendetektor verwendet wurde. Der Redner erwähnt auch andere Veröffentlichungen und Patente im Zusammenhang mit der Kantenerkennung und erörtert die Vor- und Nachteile verschiedener Kantenerkennungsoperatoren, einschließlich des Sobel-Operators, des Roberts-Cross-Edge-Detektors und der alternativen Operatoren von Bill Silva für hexagonale Gitter. Der Referent betont die Bedeutung der Kantenerkennung in verschiedenen Anwendungen und die laufenden Bemühungen von Ingenieuren und Forschern, Kantenerkennungsalgorithmen zu verbessern.

  • 00:15:00 In diesem Abschnitt erläutert der Vortrag die Vor- und Nachteile der Verwendung von Kameras mit hexagonalem Raster in Bezug auf Auflösung und Rotationssymmetrie, weist jedoch darauf hin, dass der zusätzliche Aufwand für die Arbeit mit einem hexagonalen Raster für Ingenieure zu viel war. Der Vortrag geht dann auf die Umrechnung von kartesischen in Polarkoordinaten ein, wobei die Formel für die Größe des Gradienten und seine Richtung anstelle des Helligkeitsgradienten selbst verwendet wird, trotz der Kosten für das Ziehen von Quadratwurzeln und Arkustangens. Die Vorlesung untersucht dann alternative Lösungen, wie z. B. die Verwendung von Nachschlagetabellen oder die CORDIC-Methode, die eine Möglichkeit darstellt, die Größe und Richtung eines Vektors mit iterativen Schritten zu schätzen, um die Differenz mit minimalen erforderlichen Rechenoperationen zu reduzieren.

  • 00:20:00 In diesem Abschnitt des Vortrags diskutiert der Referent Kantenerkennung und Subpixel-Positionsalgorithmen. Sie erklären, wie man große Gradienten lokalisiert und die nicht maximale Unterdrückung verwendet, um die maximale Richtung des Gradienten zu finden. Der Referent spricht auch über die Quantisierung der Richtungen des Gradienten und stellt fest, dass ein Blick in die nähere Umgebung zu einem größeren Bereich von Richtungen führen kann. Um die tatsächliche Spitze des Gradienten zu finden, wird eine Parabel an die Daten angepasst und differenziert, um die Spitze zu finden. Abschließend diskutiert der Vortrag das zu erwartende Helligkeitsverhalten bei der Arbeit mit einem Weltmodell nach Mondrian.

  • 00:25:00 In diesem Abschnitt behandelt das Video Techniken zum Erzielen einer Subpixel-Genauigkeit bei der Kantenerkennung. Ein Ansatz beinhaltet das Quantisieren von Richtungen und das Finden des Peaks, aber es kann Unklarheit darüber geben, welcher Punkt entlang der Kante zu wählen ist. Ein weiteres Verfahren besteht darin, eine senkrechte Interpolation durchzuführen, um den Kantenpunkt mit der größten Nähe zum zentralen Pixel zu finden. Die tatsächliche Kantenposition passt jedoch möglicherweise nicht zu den angenommenen Modellen, was zu Verzerrungen führen kann. Das Video schlägt eine einfache Korrektur vor, um die Verzerrung auszugleichen und die Genauigkeit zu verbessern.

  • 00:30:00 In diesem Abschnitt erörtert der Dozent Möglichkeiten zur Verbesserung der Kantenerkennungsgenauigkeit in Bildverarbeitungssystemen. Das Patent, das er untersucht, schlägt vor, unterschiedliche Potenzen von "s" zu verwenden, um Verzerrungen zu beseitigen und die Genauigkeit basierend auf dem spezifischen verwendeten System zu erhöhen. Die Richtung des Gradienten wirkt sich auch auf die Vorspannung aus und erfordert eine Kompensation für eine noch höhere Genauigkeit. Das Gesamtdiagramm des Systems umfasst das Schätzen von Helligkeitsgradienten, das Auffinden von Größe und Richtung, die Nicht-Maximal-Unterdrückung und die Spitzenerkennung, um die Position zu interpolieren und die Verzerrung unter Verwendung des Punktes zu kompensieren, der dem Maximum an der Kante am nächsten liegt. Die Erfindung stellt eine Vorrichtung und ein Verfahren zur Subpixeldetektion in digitalen Bildern bereit und ist in einer Kurzfassung am Ende des Patents zusammengefasst.

  • 00:35:00 In diesem Abschnitt erörtert der Redner den Prozess der Patentierung einer Erfindung und wie er sich auf Patentstreitigkeiten bezieht. Sie erklären, wie Erfinder oft sowohl eine Vorrichtung als auch ein Verfahren schaffen, um alle Grundlagen abzudecken, und wie dies zu unnötigen Ansprüchen führen kann. Der Referent beschreibt einen Fall, in dem ein kanadisches Unternehmen, Matrox, beschuldigt wurde, ein Patent durch ihre Softwareimplementierung dessen, was im Patent enthalten war, zu verletzen. Sachverständige wurden hinzugezogen, um den Code zu analysieren, und am Ende kam man zu dem Schluss, dass es sich um Software handelte und nicht patentierbar war. Der Abschnitt befasst sich auch mit der Wichtigkeit, ein Patent so breit wie möglich zu gestalten und an alle möglichen Änderungen zu denken, die von Anwälten verfasste Patente schwer lesbar machen können.

  • 00:40:00 In diesem Abschnitt des Videos geht der Sprecher auf Formeln und eine detaillierte Erklärung zur Umwandlung kartesischer Koordinaten in Polarkoordinaten ein. Sie erklären auch die verschiedenen Formeln, die zum Auffinden von Spitzen in Parabeln und dreieckigen Wellenformen verwendet werden. Das Video geht dann in Patente und in den Prozess der Beanspruchung dessen, was Sie sich ausgedacht haben, um es zu schützen. Der Sprecher liest den ersten Anspruch vor, bei dem es sich um eine Vorrichtung zum Erkennen und Subpixelorten von Kanten in einem digitalen Bild handelt, und schlüsselt die verschiedenen Komponenten auf, aus denen der Anspruch besteht, einschließlich eines Gradientenschätzers, eines Spitzenwertdetektors und eines Subpixelinterpolators. Die Bedeutung mehrerer Ansprüche wird ebenfalls diskutiert, da dies vor zukünftigen Ansprüchen und Rechtsverletzungen schützt.

  • 00:45:00 In diesem Abschnitt des Vortrags geht der Referent darauf ein, wie Patentansprüche formuliert und strukturiert werden. Er erklärt, dass der erste Anspruch in einem Patent normalerweise ein breiter Anspruch ist, gefolgt von engeren Ansprüchen, die spezifischer sind, um sicherzustellen, dass die engeren Ansprüche auch dann bestehen bleiben, wenn der breite Anspruch für ungültig erklärt wird. Der Redner fährt dann mit der Untersuchung der Ansprüche im Patent zur Gradientenschätzung fort und hebt einige der Bedingungen hervor, die erfüllt sein müssen, damit jeder Anspruch gültig ist. Abschließend erläutert er, wie sich das Patentrecht im Laufe der Zeit in Bezug auf die Gültigkeitsdauer eines Patents und die Regeln für Prioritätsansprüche entwickelt hat.

  • 00:50:00 In diesem Abschnitt behandelt das Video die Kantenerkennung in der Bildverarbeitung. Das Mondrian-Modell der Welt wird eingeführt, bei dem Bilder verdichtet werden, um nur die Kanten zu diskutieren, um herauszufinden, wo sich etwas auf einem Förderband befindet, oder um verschiedene Schichten einer integrierten Schaltkreismaske auszurichten. Als Kantendetektion wird ein Verfahren zur Bestimmung der Lage von Grenzen zwischen Bildbereichen unterschiedlicher und annähernd gleicher Helligkeit bezeichnet. Eine Kante ist als ein Punkt in einem Bild definiert, wo die Größe des Bildgradienten ein lokales Maximum in der Richtung des Bildgradienten erreicht oder wo die zweite Ableitung der Helligkeit in der Richtung des Bildgradienten Null kreuzt. Das Video geht auch auf die Kantenerkennung in mehreren Maßstäben ein und erklärt die Nachteile einer unendlichen Auflösung für ein Bild.

  • 00:55:00 In diesem Abschnitt des Vortrags geht der Referent auf die Kantenerkennung und die Probleme beim Messen einer Kante ein, die perfekt auf ein Pixel ausgerichtet ist. Um dem entgegenzuwirken, erklärt der Referent die Verwendung eines Laplace-Kantendetektors, der nach Nulldurchgängen sucht und Konturen zeichnet, wodurch es einfacher wird, die Kante zu lokalisieren. Dieses Verfahren kann jedoch bei Vorhandensein von Rauschen zu einer schlechteren Leistung führen. Der Redner behandelt auch das Konzept eines Wendepunkts und seine Beziehung zum Maximum der Ableitung, die zur Definition der Kante verwendet werden kann. Die Vorlesung behandelt auch die Schätzung des Helligkeitsgradienten und die Verwendung von Operatoren in 45-Grad-Winkeln, um denselben Punkt zu referenzieren.

  • 01:00:00 In diesem Abschnitt der Vorlesung behandelt der Referent die Kantenerkennung und die Schätzung von Ableitungen unter Verwendung verschiedener Computermoleküle. Zwei von Roberts verwendete Operatoren werden eingeführt, die zur Berechnung der Summe der Quadrate von Gradienten im ursprünglichen Koordinatensystem verwendet werden können. Das Konzept der Sobel-Operatoren wird ebenfalls erwähnt, und die Schätzung der Ableitung unter Verwendung einer Mittelungstechnik wird diskutiert. Es wird gezeigt, dass der Fehlerterm niedrigster Ordnung der Schätzung zweiter Ordnung ist, was ihn für gekrümmte Linien nicht sehr zuverlässig macht. Die Terme höherer Ordnung werden ebenfalls eingeführt, um die Genauigkeit zu verbessern.

  • 01:05:00 In diesem Abschnitt beschreibt der Dozent die Verwendung eines Operators zur Approximation einer Ableitung für die Kantenerkennung, wodurch ein Fehlerterm höherer Ordnung ermöglicht wird, der für eine gekrümmte Linie funktionieren kann, solange seine dritte Ableitung nicht zu groß ist. Indem zwei Werte gemittelt werden und eine Schätzung der Ableitung gefunden wird, können sogar Ableitungen verwendet werden, die um ein halbes Pixel versetzt sind. Beim Vergleich zweier Operatoren mit demselben Fehlerterm niedrigster Ordnung erweist sich einer mit einem kleineren Multiplikator als vorteilhaft. Die Anwendung des Operators zum Schätzen sowohl der x- als auch der y-Ableitung führt jedoch zu Inkonsistenzen, die durch die Verwendung eines zweidimensionalen Operators behandelt werden können. Dieser Ansatz ist auch zum Berechnen der Ableitungen der y-Richtung für einen ganzen Datenwürfel in einem festen optischen Fluss nützlich.

  • 01:10:00 In diesem Abschnitt betont der Referent die Bedeutung der Effizienz für Bediener bei der Kantenerkennung mit Millionen von Pixeln. Durch geschicktes Anordnen von Berechnungen kann der Operator von sechs Operationen auf vier reduziert werden. Der Redner erwähnt den Roberts-Cross-Operator und Urbain Sobel, die den Operator auf besondere Weise nachgebildet haben, indem sie einen Mittelwert über einen 2x2-Block gemacht haben, um Rauschen zu reduzieren, aber auch das Bild zu verwischen.

  • 01:15:00 In diesem Abschnitt des Videos erläutert der Dozent, wie das Problem des halben Pixelversatzes bei der Kantenerkennung durch die Verwendung mehrerer Operatoren vermieden werden kann. Die Diskussion umfasst Formelvariationen und Implementierungspräferenzen. Der Vortrag erläutert auch die nächsten Schritte, darunter die Umwandlung von kartesischen in Polarkoordinaten für den Helligkeitsgradienten, die Richtungsquantisierung der Gradientengröße und das Scannen nach Maximalwerten. Subpixel-Genauigkeit ist aufgrund des Problems der Pixelquantisierung nicht erreichbar. Der Dozent erklärt, wie man nur die Maxima behält, indem man Nicht-Maxima im Bild ignoriert.

  • 01:20:00 In diesem Abschnitt erörtert das Video die Notwendigkeit asymmetrischer Bedingungen bei der Kantenerkennung und einen Tie-Breaker für Situationen, in denen g null gleich g plus oder gleich g minus ist. Um die Spitze der Kurve zu finden, beschreibt das Video das Anpassen einer Parabel an die Kante mit einem Tie-Breaker, und es wird gezeigt, dass die auf diese Weise berechnete Größe von s auf die Hälfte begrenzt ist. Eine andere gezeigte Methode ist ein kleines Dreiecksmodell, das davon ausgeht, dass die Steigungen der beiden Linien gleich sind, und die vertikale und horizontale Position schätzt, was zu der Formel für s führt. Beide Methoden dienen dazu, Subpixel-Genauigkeit zu erreichen, und das Video legt nahe, dass das Dreiecksmodell seltsam erscheinen mag, aber unter bestimmten Umständen effektiv ist.

  • 01:25:00 In diesem Abschnitt erörtert der Dozent die Form einer Kante im Fall einer Defokussierung, insbesondere wie sie sich auf die Methode zur Wiederherstellung der tatsächlichen Kantenposition auswirkt. Er spricht auch über Alternativen zur Quantisierung der Gradientenrichtung und wie sie problematisch sein kann, insbesondere auf einem quadratischen Gitter, wo es nur acht Richtungen gibt. Dieses Problem zeigt, dass viele Details zu berücksichtigen sind, wenn man eine gute Leistung erzielen möchte, z. B. einen guten Weg zur Berechnung von Ableitungen zu finden.
Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)
Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 12: Blob-Analyse, binäre Bildverarbeitung, Theorem von Green, Ableitung und Integral



Vorlesung 12: Blob-Analyse, binäre Bildverarbeitung, Theorem von Green, Ableitung und Integral

In dieser Vorlesung deckt der Professor eine Reihe von Themen ab, darunter geistiges Eigentum, Patente, Markenrechte und Bildverarbeitungstechniken zur Kantenerkennung. Der Vortrag betont die Bedeutung der Genauigkeit in der 2D-Bildverarbeitung und die Herausforderungen bei der Erkennung unscharfer oder defokussierter Kanten. Der Professor behandelt Methoden zum Auffinden gemischter partieller Ableitungen, Laplace-Operatoren und Kantenerkennung unter Verwendung von Subpixel-Interpolation sowie Techniken zur Bias-Kompensation und Korrekturkalibrierung bei der Peak-Suche. Insgesamt bietet die Vorlesung einen umfassenden Überblick über diese Themen und ihre praktischen Anwendungen.

In diesem Vortrag zur Bildverarbeitung diskutiert der Referent verschiedene Methoden, um die Quantisierung von Gradientenrichtungen zu vermeiden und die Genauigkeit bei der Bestimmung der Kantenposition zu verbessern. Interpolation wird als bevorzugtes Verfahren gegenüber Nachschlagetabellen und Quantisierung für eine genauere Bestimmung der Gradientenrichtung vorgeschlagen. Als alternative Methoden zur Gradientenberechnung werden außerdem die Fixierung der Schrittweite mit einem Kreis und die Verwendung der Multiskalenanalyse diskutiert. Der Referent erläutert auch einen iterativen Ansatz zum Drehen eines Bildes, um die y-Komponente des Gradienten auf Null zu reduzieren, und führt das Konzept der Akkorde zum Drehen um spezielle Winkel ein. Die Schüler werden daran erinnert, früh mit dem Quiz zu beginnen, da es mehr Arbeit bedeutet als das typische Hausaufgabenproblem.

  • 00:00:00 In diesem Abschnitt bespricht der Professor das bevorstehende Quiz, das länger ist und doppelt so viel zählt wie eine Hausaufgabe. Das Quiz deckt den Kursinhalt bis zu diesem Punkt ab, wobei der Schwerpunkt auf neueren Materialien liegt. Der Professor gibt dann eine kurze Diskussion über geistiges Eigentum und Patente und erwähnt die verschiedenen Arten von Patenten wie Gebrauchs- und Geschmacksmuster. Auch der Gesellschaftsvertrag zwischen Patentinhabern und der Regierung wird diskutiert, bei dem Patentinhaber für eine bestimmte Anzahl von Jahren ein begrenztes Monopol erhalten, wenn sie genau erklären, wie etwas zu tun ist. Die Diskussion schließt mit einer Auseinandersetzung mit dem Rechtsbegriff des besten Modus in Patentstreitigkeiten.

  • 00:05:00 Schützen Sie Ihre Marke oder Ihr Logo mit einer Marke. Ausnahmen bestehen für die Verwendung kleiner Teile von urheberrechtlich geschütztem Material, z. B. für Bildungszwecke, und für Reverse-Engineering-Software, ohne gegen Urheberrechtsgesetze zu verstoßen. Urheberrechtsgesetze schützten früher die Lebenszeit des Autors plus eine bestimmte Anzahl von Jahren, wurden aber inzwischen auf die Lebenszeit des Autors plus 75 Jahre oder mehr aktualisiert. Markengesetze schützen Marken und Logos, die restriktiver sind als Urheberrechte.

  • 00:10:00 In diesem Abschnitt erörtert der Redner die Regeln für die Markenrechte eines Firmennamens und -logos und betont, dass es in der Branche einzigartig sein muss und kein gemeinsames Wort sein darf. Die Marke kann auch Formen, Markierungen und Farben umfassen, die dem Schutz des Unternehmens dienen können. Der Referent geht auch auf das Konzept der Geschäftsgeheimnisse ein, bei denen das Unternehmen die Details seines Produkts geheim hält, obwohl es keinen Rechtsschutz gibt. Der Redner stellt dann ein Low-Level-Patent im Zusammenhang mit der Kantenfindung vor und erwähnt, dass, sobald Kanten gefunden sind, komplexere Bildverarbeitungsaufgaben zur Objekterkennung und Bestimmung von Position und Lage durchgeführt werden können. Der Referent merkt an, dass Genauigkeit in der Welt der 2D-Bildverarbeitung unglaublich wichtig ist und nahezu perfekt funktionieren muss.

  • 00:15:00 In diesem Abschnitt wiederholt der Dozent die Grundlagen der Blob-Analyse und der binären Bildverarbeitung, indem er verschiedene Methoden zur Schätzung von Ableitungen diskutiert. Die erste diskutierte Idee bestand darin, den Helligkeitsgradienten zu betrachten, um einen Wendepunkt als Kante zu identifizieren, und dann die Ableitung zu betrachten, die nach einer Spitze sucht. Verschiedene Methoden zum Schätzen von Ableitungen, wie etwa verschiedene Näherungen für e sub x, wurden untersucht, und der Fehlerterm niedrigster Ordnung wurde unter Verwendung einer Taylor-Reihenerweiterung gefunden. Schließlich befasst sich der Vortrag mit der Analyse elektrischer Muskelsignale und wie komplex der Prozess werden kann, wenn nach hochpräzisen ersten Ableitungen aufgrund von Rauschen und Signalverzerrung gesucht wird.

  • 00:20:00 In diesem Abschnitt erörtert der Dozent die Kompromisse, die bei der Wahl der Länge des Kantenoperators zur Erkennung von Kanten erforderlich sind. Er erklärt, dass die Verwendung eines zu langen Operators dazu führen kann, dass verschiedene Merkmale miteinander interagieren, was die Kantenerkennung erschwert. Dieser Kompromiss ist anwendbar, wenn Kanten in einem Bild eines Würfels erkannt werden, wo die Kanten ziemlich nahe beieinander liegen. Anschließend erklärt der Dozent, wie man Ableitungen zweiter Ordnung durch zweimalige Faltung erster Ableitungen berechnen kann und zeigt, wie man mit dieser Methode die Richtigkeit der Ergebnisse überprüfen kann. Abschließend erklärt er, wie wichtig es ist, die verschiedenen Arten des Entwurfs von Computermolekülen zu überprüfen, die zur Ableitung von Derivaten verwendet werden.

  • 00:25:00 In diesem Abschnitt der Vorlesung erklärt der Professor den Prozess, gemischte partielle Ableitungen mit einer 2D-Schablone zu finden. Bei der Schablone wird eine der Funktionen umgedreht und über die andere gelegt, um Überlappungsbereiche zu identifizieren, was zu einer 2x2-Schablone führt. Der Professor weist darauf hin, dass es wichtig ist, auf Vorzeichenumkehrungen zu achten, wenn Computerschablonen verwendet werden, die nicht umgedreht werden. Sie weisen auch darauf hin, dass die gemischte partielle Ableitung als zweite Ableitung in einem gedrehten Koordinatensystem betrachtet werden kann. Insgesamt bietet der Abschnitt eine klare und detaillierte Erklärung zum Auffinden gemischter partieller Ableitungen in 2D.

  • 00:30:00 In diesem Abschnitt wird das Thema des Laplace-Operators als zweiter Ableitungsoperator erneut eingeführt, wobei zwei Operatoren in orthogonalen Richtungen hinzugefügt werden, um eine Annäherung des Laplace-Operators für einen zentralsymmetrischen Differentialoperator zu erhalten. Eine gewichtete Summe dieser beiden Operatoren wird dann eingeführt, um eine glattere Version des Laplace-Operators für einen zentralsymmetrischen Differentialoperator zu erzeugen, und dieser neue Operator ist noch rechnerisch effizienter, wenn er auf ein Bild angewendet wird. Zusätzlich werden Techniken zum Bestimmen der Werte dieser gewichteten Koeffizienten erörtert, wie etwa der Fehlerterm niedrigster Ordnung oder Summen gleich Null.

  • 00:35:00 In diesem Abschnitt erörtert der Sprecher das Problem der Verwendung rechteckiger Pixel anstelle von sechseckigen. Er erklärt Situationen, in denen es um Effizienz geht, etwa bei der Abbildung des Schwarzen Lochs im Zentrum unserer Galaxie mit Hilfe von Radiofrequenzen. Der Referent unterscheidet auch zwischen linearen und nichtlinearen Operatoren und diskutiert Roberts Verwendung von Schablonen bei der Berechnung von Ableitungen im gedrehten Koordinatensystem. Darüber hinaus erklärt er die nicht maximale Unterdrückung, das Konzept, Kantenoperatoren überall anzuwenden, um überall eine schwache Reaktion, aber eine starke Reaktion an den Kanten zu erhalten.

  • 00:40:00 In diesem Abschnitt erörtert der Sprecher das Konzept der Kantenerkennung und betont die Nachteile der Anwendung eines Schwellenwerts für die Kantenerkennung. Stattdessen schlägt der Sprecher vor, alles außer dem Maximalwert in Gradientenrichtung zu entfernen, um den Kantenpunkt zu identifizieren. Der Redner spricht auch über die nicht maximale Unterdrückung und die Probleme der Asymmetrie beim Tie-Breaking. Abschließend erklärt der Referent, wie man eine Parabel an das Kantenantwortprofil anpasst, um die Subpixel-Kantenposition zu bestimmen. Der Sprecher räumt ein, dass die Wahl der Form der Kurve willkürlich ist, erklärt aber, dass die Anpassung eines Polynoms zweiter Ordnung in den meisten Fällen als gute Schätzung funktionieren könnte.

  • 00:45:00 In diesem Abschnitt lernen wir die Kantenerkennung mit Subpixel-Interpolation kennen. Die Gradientenrichtung sagt uns die Ausrichtung der Kante, die wir dann quantisieren, um die Projektion des potenziellen Kantenpunkts auf die tatsächliche Kantenposition zu unterstützen. Wir können dann eine Bias-Kompensation durchführen, um die Kantenposition unter Verwendung einer parabolischen oder dreieckigen Methode genauer abzuschätzen. Auf diese Weise können wir die Spitze der Kante finden und die Genauigkeit verbessern, indem wir den Punkt nehmen, der dem Ursprung am nächsten liegt.

  • 00:50:00 In diesem Abschnitt des Vortrags diskutiert der Referent ein Verfahren zur Korrekturkalibrierung der Peakfindung für die Subpixel-Kantenerkennung. Im Wesentlichen umfasst das Verfahren das experimentelle Bewegen der Kante und das Messen der Genauigkeit des Spitzenwertfindungsverfahrens gegenüber dem tatsächlichen Spitzenwert, um eine Korrektur-Nachschlagetabelle für das Verfahren zu erstellen. Der Referent spricht auch darüber, wie sich die Kantenformen unterscheiden können, und demonstriert, wie die Form mit einem Ein-Parameter-Fit angenähert werden kann. Trotz dieser Unterschiede ist für die Genauigkeit der Subpixel-Kantenerkennung nur eine kleine Korrektur des Verfahrens erforderlich.

  • 00:55:00 In diesem Abschnitt der Vorlesung erörtert der Professor das Konzept der Fuzzy-Kanten und warum sie für die Wiederherstellung von Subpixeln und die Vermeidung von Aliasing-Problemen wichtig sind. Der Professor erklärt, dass ein Grund für unscharfe Kanten Defokussierung ist. Am Beispiel eines Kameraobjektivs zeigt der Professor, dass ein scharfes Objekt als Punkt erfasst wird, während dasselbe leicht unscharfe Objekt als Kreis mit gleichmäßiger Helligkeit erfasst wird. Um dies zu kompensieren, führt der Professor die Einheitssprungfunktion und die Punktbildfunktion ein und erklärt, wie damit der Kreis gleichförmiger Helligkeit als Funktion von x und y beschrieben werden kann.

  • 01:00:00 In diesem Abschnitt erklärt der Sprecher den Effekt der Unschärfe und wie man die Antwort geometrisch berechnet, indem man die Kante und den Kreis überlagert. Die Fläche des Kreissektors und die Fläche des Dreiecks werden verwendet, um den Unterschied zwischen den beiden Formen zu finden. Theta wird verwendet, um die Fläche zu berechnen, und die Details werden erklärt, um die Reaktion zwischen Null und Eins zu demonstrieren.

  • 01:05:00 In diesem Abschnitt erörtert der Redner das Zeichnen eines Diagramms, um den Fehler bei der genauen Bestimmung der Kantenposition mithilfe eines Algorithmus zu berechnen. Sie erwähnen, dass dieser Fehler klein, aber nicht Null sein könnte und für eine hohe Genauigkeit unbedingt berücksichtigt werden muss. Der Sprecher spricht dann über Möglichkeiten zur Vermeidung der Quantisierung von Gradientenrichtungen, die aufgrund des Abstands, der in zwei Größen vorliegt, zu Unbeholfenheit führen kann. Sie diskutieren, dass dies leicht unterschiedliche Fehlerbeiträge verursachen kann, und schlagen einige Möglichkeiten vor, dies zu vermeiden. Der Abschnitt endet mit einer Diskussion über Patentverletzungen und Möglichkeiten, sie zu vermeiden, wobei der Schwerpunkt darauf liegt, die Erfindung anders und nicht besser zu machen.

  • 01:10:00 In diesem Abschnitt des Videos erläutert der Dozent eine bevorzugte Methode zur Vermeidung der Quantisierung von Gradientenrichtungen, die in bestimmten Patenten vorhanden sind. Anstatt dieses Verfahren zu verwenden, schlägt er vor, zu interpolieren, um die Quantisierung der Gradientenrichtungen zu vermeiden. Durch Interpolation können die Werte fließend angenähert und die Gradientenrichtung genau bestimmt werden. Der Dozent glaubt, dass dieses Verfahren eine Verbesserung der Genauigkeit darstellt, da es die Notwendigkeit beseitigt, eine Nachschlagetabelle zu erstellen oder das Bias-Diagramm zu quantisieren und Korrekturen vorzunehmen. Der Nachteil dieses Ansatzes besteht darin, dass eine Interpolation verwendet wird, sodass die Genauigkeit im Vergleich zur Kenntnis des genauen Messwerts fehlt, die jedoch in vielen Fällen vernachlässigt werden kann.

  • 01:15:00 In diesem Abschnitt des Vortrags geht der Referent auf eine alternative Methode zur Gradientenberechnung ein, bei der die Schrittweite fixiert statt verändert wird. Dieses Verfahren verwendet einen Kreis, um den Pixelabstand zu bestimmen, und liefert eine kontinuierlichere Gradientenrichtung mit weniger Quantisierung. Dieser Ansatz erfordert jedoch eine Interpolation, entweder bilinear oder bikubisch, und kann aufgrund der Notwendigkeit, mehr Pixel zu berücksichtigen, zusätzliche Arbeit bedeuten. Darüber hinaus spricht der Referent über die Nützlichkeit der Multiskalenanalyse, um scharfe Kanten und unscharfe Kanten in Bildern zu finden. Abschließend geht der Sprecher kurz auf die bevorzugte Implementierung für die Transformation von kartesischen zu Polarkoordinaten ein, die eine Drehung des Koordinatensystems beinhaltet.

  • 01:20:00 In diesem Abschnitt diskutiert der Sprecher ein Verfahren zum Drehen eines Bildes, um die y-Komponente des Gradienten unter Verwendung eines iterativen Ansatzes auf Null zu reduzieren. Dazu wird der Drehwinkel iterativ so lange manipuliert, bis der Betrag der y-Komponente auf Null reduziert ist. Der Sprecher schlägt eine Strategie vor, eine Folge von Testwinkeln zu verwenden und die Größe der y-Komponente mit jeder Iteration zu reduzieren. Die Winkel werden so gewählt, dass sie umgekehrte Potenzen von 2 sind, was eine Verringerung der Anzahl der Multiplikationen von vier auf zwei ermöglicht. Der iterative Ansatz wird wiederholt, bis der Drehwinkel klein genug ist.

  • 01:25:00 In diesem Abschnitt erklärt der Sprecher das Konzept des Akkords, das das Rotieren um spezielle Winkel beinhaltet, die eine Eigenschaft haben, bei der die Tangente von Theta i eins über zwei zum i ist. Der iterative Prozess besteht darin, diesen Winkel zu ändern und zu verfolgen, ob er negativ wurde oder nicht. Das erste, was zu tun ist, ist, es zum ersten Oktanten zu bringen, was trivial ist, indem man sich nur die Vorzeichen von x und y ansieht und ob y größer als x ist. Der nächste Vortrag wird sich mit Multiskalen und Sampling befassen, und der Sprecher erinnert die Zuschauer daran, früh mit dem Quiz zu beginnen, da es mehr Arbeit als das typische Hausaufgabenproblem ist.
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 13: Objekterkennung, Erkennung und Posenbestimmung, PatQuick (US-Patent 7016539)



Vorlesung 13: Objekterkennung, Erkennung und Posenbestimmung, PatQuick (US-Patent 7016539)

Der Vortrag konzentriert sich auf Objekterkennung, Erkennung und Posenbestimmung, mit Schwerpunkt auf dem PatQuick-Patent (US 7,016,539). Das Patent zielt darauf ab, die Pose von Objekten im Raum zu erkennen und zu bestimmen, und bietet eine Verbesserung gegenüber früheren Methoden, indem eine abstrakte Darstellung namens Modell verwendet wird, die mit einem Laufzeitbild in verschiedenen Posen und Rotationen verglichen wird. Das Patent beinhaltet auch eine Liste verallgemeinerter Freiheitsgrade, um die Genauigkeit zu erhöhen, und verwendet Tiefpassfilterung und Kantenerkennung, um Grenzpunkte zu erhalten, wobei die Schwellenwertbildung auf die letzten Stufen verschoben wird. Darüber hinaus erörtert der Vortrag den Prozess der Modellerstellung mithilfe von Kantenerkennung und Sonden mit gewünschtem Abstand und Kontrast, um diese Modelle darzustellen, und erklärt die Bedeutung der Berücksichtigung von Freiheitsgraden wie Translation, Rotation, Skalierung und Seitenverhältnis, die Variationen ermöglichen Objektdimensionen und Perspektiven.

Das Video diskutiert die sechseckigen Suchmuster, die für eine effiziente und skalierbare Translationssuche bei der Objekterkennung verwendet werden, einschließlich Spitzenerkennung und eine Lösung zur Erkennung benachbarter Objekte. Das Video diskutiert auch PatQuick, ein Patent zur Bestimmung des Vorhandenseins vorgegebener Muster in Laufzeitbildern und ihrer mehrdimensionalen Position. Das Verfahren verwendet Sonden und einen vorberechneten Gradienten, um die Pose eines Objekts abzugleichen, und die Integration der Bewertungsfunktion entfernt Fehler aus dem Ergebnis. Das Video untersucht eine alternative Methode zur Bestimmung von Winkelunterschieden unter Verwendung von Skalarprodukten und betont die Feinheiten von Multiskalenoperationen und der Sondenauswahl für unterschiedliche Granularitäten. Die Genauigkeit des Verfahrens ist durch die Quantisierung des Suchraums begrenzt.

  • 00:00:00 In diesem Abschnitt wird uns das Patent 7016539 vorgestellt, das darauf abzielt, die Pose von Objekten im Raum zu erkennen, zu erkennen und zu bestimmen sowie Objekte zu inspizieren. Das Problem, das es zu lösen gilt, ist die Notwendigkeit, Objekte mit Maschinen zu manipulieren, jedoch ohne genaue Kanteninformationen über die Objekte. Der Stand der Technik hatte vier unterschiedliche Komponenten, und eine davon bestand aus einer binären Bildverarbeitung, die das Unterscheiden von Objekten vom Hintergrund beinhaltete, um binäre Bilder zu erzeugen, was eine einfachere Verarbeitung und einen geringeren Speicherbedarf ermöglichte. Lokale Berechnungen können für bestimmte Low-Level-Binärbildverarbeitungsoperationen durchgeführt werden, wie z. B. das Finden der Fläche, des Umfangs und des Schwerpunkts von Binärbildern und sogar das Berechnen von Euler-Zahlen auf parallele Weise, was mit paralleler Hardware erreicht werden kann.

  • 00:05:00 In diesem Abschnitt geht der Dozent auf verschiedene Verfahren zur Objekterkennung, Objekterkennung und Posenbestimmung ein. Es wird das Verfahren der Schwellenwertbildung eingeführt, bei dem Vordergrund und Hintergrund in einem Bild auf der Grundlage einiger Parameter unterschieden werden. Dieses Verfahren ist jedoch begrenzt, da es möglicherweise keine klare Unterscheidung zwischen Vorder- und Hintergrund gibt. Bei binären Vorlagenverfahren wird ein Master-Image oder eine goldene Vorlage verwendet, um das Objekt zu definieren und eine Vorlage durch Schwellenwertbildung zu berechnen. Die normalisierte Korrelation beinhaltet das Ausprobieren aller möglichen Positionen für die Übereinstimmung, um eine geeignete Übereinstimmung zwischen zwei Bildern zu finden. Das war der Anspruch auf Berühmtheit für Cognac, ein frühes Forschungsprojekt im Bereich Computer Vision.

  • 00:10:00 In diesem Abschnitt erörtert der Redner den Prozess der Ausrichtung unter Verwendung von Korrelation, einer verwandten Methode zur Objekterkennung und -erkennung, bei der ein Bild herumbewegt wird, um die Ausrichtung zu finden, wo der Unterschied zwischen dem verschobenen Bild und dem anderen Bild liegt so klein wie möglich. Derzeit wird jedoch aufgrund des Rechenaufwands nur eine Translation in Betracht gezogen, da das Verfahren die Analyse jedes Pixels für jede mögliche Position erfordert. Darüber hinaus bezieht der Referent die Korrelation auf gradientenbasierte Verfahren, bei denen ein Offset berechnet wird, und erörtert, wie dies verwendet werden kann, um die Korrelation zu maximieren, indem die zeitliche Änderung minimiert wird.

  • 00:15:00 In diesem Abschnitt konzentriert sich die Vorlesung auf das Erkennen eines Objekts und das Bestimmen seiner Pose, insbesondere im Zusammenhang mit der Ausrichtung eines integrierten Schaltkreises für den nächsten Schritt im Herstellungsprozess. Der Referent diskutiert verschiedene Methoden zur Bestimmung der Ausrichtung und stellt fest, dass die Summe der quadrierten Differenzen und die Korrelation häufig verwendet werden, aber einige Nachteile haben. Insbesondere die Korrelation kann eine hohe Übereinstimmung ergeben, selbst wenn der Kontrast zwischen den Bildern unterschiedlich ist, und es gibt keinen klaren Schwellenwert dafür, was eine Übereinstimmung ausmacht. Trotz dieser Probleme bleibt die Korrelation aufgrund ihrer Recheneffizienz beliebt. Darüber hinaus weist der Referent darauf hin, dass diese Verfahren durch die Einbeziehung von gradientenbasierten Verfahren, die in optischen Mäusen verwendet wurden, verbessert werden können.

  • 00:20:00 In diesem Abschnitt behandelt die Vorlesung die normalisierte Korrelation und ihre Rolle bei der Bilderkennung. Die normalisierte Korrelation wird verwendet, um Abweichungen in der Bildhelligkeit zu eliminieren und den Prozess weniger empfindlich gegenüber Änderungen in der optischen Einrichtung zu machen. Die Normalisierungsmethode berechnet die Korrelation zweier Bilder und normalisiert sie, um Kontrastverschiebungen zu entfernen, wobei die Methode den Peak berechnet, damit Benutzer den Erfolg der Korrelation messen können. Folglich weist ein hoher Korrelationswert auf eine gute Übereinstimmung hin, während ein niedriger Korrelationswert auf eine schlechte Übereinstimmung hinweist. Obwohl die Methode kostspielig sein kann, war sie für Cognex in ihren frühen Tagen ein Anspruch auf Berühmtheit.

  • 00:25:00 In diesem Abschnitt diskutiert das Video ein Patent im Zusammenhang mit der Objekterkennung und -erkennung, insbesondere zur Bestimmung des Vorhandenseins vorgegebener Muster in einem Bild und zur Bestimmung ihrer Positionen in einem mehrdimensionalen Raum. Das Patent, das eine Verbesserung gegenüber früheren Verfahren darstellt, umfasst die Verwendung einer abstrakten Darstellung des Musters, die als Modell bezeichnet wird und mit einem Laufzeitbild in verschiedenen Posen, Drehungen usw. verglichen wird. Der Vergleich erzeugt eine Übereinstimmungsbewertung, die mit einer verglichen wird Akzeptieren Sie den Schwellenwert, um die Entscheidungsfindung zu verzögern, bis weitere Informationen verfügbar sind. Das Patent bietet auch eine Liste verallgemeinerter Freiheitsgrade anstelle von nur Translation und Rotation, um die Genauigkeit für teilweise oder fehlende Teile eines Objekts zu erhöhen.

  • 00:30:00 In diesem Abschnitt wird das als PatQuick bekannte Patent zur Erkennung, Erkennung und Posenbestimmung von Objekten besprochen, das sich auf die Gewinnung potenzieller Übereinstimmungen konzentriert. Der Abschnitt befasst sich damit, wie das Patent Tiefpassfilterung und Kantenerkennung verwendet, um Grenzpunkte bei unterschiedlichen Auflösungen zu erhalten. Der Prozess wird dann fortgesetzt, indem benachbarte Grenzpunkte verbunden werden, die konsistente Richtungen haben, um die Punkte in der Kette zu organisieren. Das Patent unterscheidet sich von anderen Methoden, da es Kanten verkettet, selbst wenn sie schwach sind, und die Schwellenwertbildung bis zum Ende aufschiebt.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Erstellung von Modellen für die Objekterkennung mit Kantenerkennung und den Prozess der Erstellung von Sonden mit gewünschtem Abstand und Kontrast zur Darstellung dieser Modelle. Die Modelle werden an den Rändern angebracht, und diese Sonden werden verwendet, um zu erkennen, ob es eine Übereinstimmung zwischen dem Modell und dem analysierten Bild gibt. Die Sonden werden als Beweispunkte verwendet, um Bereiche mit hohem Kontrast zu identifizieren, und diese Methode trägt dazu bei, die Anzahl der zu analysierenden Pixel zu reduzieren. Tie-Breaking wird auch im Zusammenhang mit der Bestimmung der Reihenfolge der Nachbarn der Sonden diskutiert.

  • 00:40:00 In diesem Abschnitt geht der Referent auf verschiedene Beispiele ein, wie man die im Laufzeitbild beobachteten Gradienten mit denen des Modells vergleichen kann. Er erklärt, dass die Richtung des Farbverlaufs auch bei Beleuchtungs- oder Materialwechsel viel eher erhalten bleibt. Der Referent stellt auch das Konzept des Gewichts vor, das dabei hilft, die Wichtigkeit jeder Sonde zu bestimmen. Während die manuelle Gewichtszuweisung bei der Berücksichtigung von Objektsymmetrien nützlich sein kann, erfordert sie menschliches Eingreifen und wird im Allgemeinen nicht verwendet. Schließlich definiert der Sprecher die verschiedenen Objekte im Modell, einschließlich der Sonden, ihrer Positionen, Richtungen und Gewichte, sowie das kompilierte Sondenobjekt, das verwendet wird, um die Berechnungseffizienz zu erhöhen.

  • 00:45:00 In diesem Abschnitt erklärt der Referent, wie man das kompilierte Sondenobjekt auf das Bild abbildet und wie man das Modell verwendet. Die kompilierte Sonde ist ein Satz von Sonden, die auf Bildkoordinaten spezialisiert sind, und der Hauptunterschied zwischen ihr und einer Sonde besteht darin, dass ein Offset in der kompilierten Sonde eine Ganzzahl in Pixeln ist, im Gegensatz zu realen Variablen. Der Sprecher erörtert auch das Konzept einer Karte, die die Transformation mit vielen Freiheitsgraden ist, die gefunden werden müssen, und die alle Transformationen außer der Übersetzung umfasst. Um den Gradienten zu bewerten, wird eine Bewertungsfunktion verwendet, die die Polarität, die Kontrastpolarität und die 90-Grad-Differenz zwischen den beiden Richtungen der Gradienten berücksichtigt.

  • 00:50:00 In diesem Abschnitt erklärt der Referent, wie man mithilfe einer Funktion, die Richtung und Größe des Gradienten berücksichtigt, bewertet, wie gut eine Sonde mit einem entsprechenden Punkt in einem Laufzeitbild übereinstimmt. Er stellt jedoch fest, dass Kontrastumkehrungen die richtungsbasierte Metrik weniger robust gegenüber Rauschen machen können, während die Verwendung eines breiteren Slops die Wahrscheinlichkeit erhöhen kann, zufällige Ausrichtungen zu akzeptieren. Um mit Freiheitsgraden umzugehen, liefert der Sprecher Beispiele für Parameter und Funktionen, die für Rotations-, Skalierungs- und Scherungsanpassungen verwendet werden. Insgesamt erfordert der Prozess der Objekterkennung verschiedene Überlegungen, da unterschiedliche Situationen unterschiedliche Vorgehensweisen erfordern können.

  • 00:55:00 In diesem Abschnitt lernen wir allgemeine Freiheitsgrade bei der Objekterkennung, Erkennung und Posenbestimmung kennen. Diese Freiheitsgrade – wie Translation, Rotation, Skalierung und Seitenverhältnis – ermöglichen Variationen in Objektabmessungen und -perspektiven. Es ist wichtig, solche Grade zu berücksichtigen, wenn Sie in Räumen arbeiten, die nicht genau zweidimensional sind, wodurch das Bild als Rhombus statt als Rechteck erscheint. Es ist jedoch wichtig, bei der Betrachtung der Skalierung auf Rechenkosten zu achten, und ein vernünftigerer Ansatz besteht darin, in einer logarithmischen Skala zu arbeiten. Außerdem kann das minimale einschließende Rechteck der Sonde bei einigen Operationen die Berechnungen verringern. Der mehrdimensionale Raum von Posen schreibt vor, dass wir die Nähe zwischen bestimmten Werten bestimmen müssen, und dies geschieht durch die Identifizierung, wie nahe zwei Posen in diesem Raum beieinander liegen.

  • 01:00:00 In diesem Abschnitt des Videos erläutert der Referent die Suchmuster, die für eine effiziente und skalierbare translationale Suche in der Objekterkennung verwendet werden. Diese Muster sind um Sechsecke herum organisiert, um einen Vorteil von vier über pi in Bezug auf die geleistete Arbeit gegenüber der Auflösung zu bieten. Der Referent erörtert auch, wie die Peak-Erkennung auf einem sechseckigen Gitter funktioniert, und bietet eine Lösung an, um die Erkennung benachbarter Objekte zu vermeiden. Darüber hinaus definiert das Video Begriffe, die im Patentrecht häufig verwendet werden, wie Objekt, Bild, Helligkeit, Körnigkeit und Grenze, und ihre Anwendungen über Bilder mit sichtbarem Licht hinaus, wie Grafiken und Röntgenbilder. Die Verallgemeinerung dieser Begriffe zielt darauf ab, den Schutzbereich des Patents und seine potenziellen Anwendungen zu erweitern.

  • 01:05:00 In diesem Abschnitt diskutiert das Video ein Patent auf PatQuick, ein Verfahren zum Bestimmen des Vorhandenseins oder Fehlens mindestens einer Instanz eines vorbestimmten Musters in einem Laufzeitbild und zum Bestimmen der mehrdimensionalen Position jeder vorhandenen Instanz . Das Patent beinhaltet die Möglichkeit der Inspektion und Erkennung, wobei der Prozess für jedes Objekt ausgeführt wird und die meisten keine gute Übereinstimmung ergeben, aber eine für die Erkennung. Das Video erwähnt auch die Verwendung eines Gradienten, bei dem es sich um einen Vektor handelt, der die Richtung und Größe der größten Helligkeitsänderung bei einer bestimmten Körnigkeit angibt, und eines Modells, eines Satzes von Daten, die Merkmale eines zu findenden Musters codieren, das sein könnte erstellt aus einem realen Bild oder einer CAD-Zeichnung.

  • 01:10:00 In diesem Abschnitt erklärt der Referent, wie die Methode von PatQuick auch dann funktioniert, wenn Teile eines Objekts verdeckt sind oder fehlen, was sie für Inspektionszwecke nützlich macht. Das Verfahren verwendet Sonden, um die Pose des Objekts abzugleichen, und obwohl der Gradient theoretisch bei jeder Übereinstimmung berechnet werden kann, ist es aus Effizienzgründen vorteilhaft, ihn vorab zu berechnen. Die Integration der Bewertungsfunktion wird verwendet, um zu berechnen, wie viel zufällige Übereinstimmungen die Bewertung kompensieren, und obwohl die Berechnung lästig ist, ist es notwendig, Fehler aus dem Ergebnis zu entfernen und Rauschen zu reduzieren. Das Verfahren hat in erster Linie Verfahrensansprüche, und die Rechtslage hat sich geändert, sodass nur noch Verfahrensansprüche entstehen.

  • 01:15:00 In diesem Abschnitt diskutiert der Referent ein alternatives Verfahren zur Bestimmung von Winkeldifferenzen zwischen Einheitsvektoren unter Verwendung von Punktprodukten anstelle einer Tangensfunktion. Dieses Verfahren erzeugt jedoch einen großen Absolutwert und ist nicht so gut wie das ursprüngliche Verfahren. Der Sprecher erörtert auch den Nachteil des quantisierten Verfahrens und die Notwendigkeit, den gesamten Posenraum zu durchsuchen, um mögliche Übereinstimmungen zu finden, bevor eine feinere Quantisierung für genauere Ergebnisse verwendet wird. Der Abschnitt endet mit einer Erwähnung der Notwendigkeit, verschiedene Bewertungsfunktionen zu diskutieren.

  • 01:20:00 In diesem Abschnitt erörtert der Sprecher die verschiedenen Berechnungen, die beim Finden einer Übereinstimmung erforderlich sind, wenn das Ergebnis entweder präzise oder schnell sein muss. Sie vertiefen sich in die Feinheiten der Ausführung von Multi-Scale-Operationen, die unterschiedliche Sonden und Modelle für unterschiedliche Granularitäten verwenden. Die Sonden sind nicht auf das Pixelraster beschränkt, sondern werden von Kantenpunkten abgeleitet, was zuverlässigere Ergebnisse liefert als die Verwendung von Helligkeitskontrast. Darüber hinaus ist die Genauigkeit dieses Verfahrens durch die Quantisierung des Suchraums begrenzt, die in einem anderen Patent, das in den zukünftigen Vorlesungen behandelt wird, übertroffen werden kann.
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...