Maschinelles Lernen und neuronale Netze - Seite 18

 

Vorlesung 9. Einschränkungen: Visuelle Objekterkennung



9. Einschränkungen: Visuelle Objekterkennung

In diesem Video erörtert Patrick Winston die Herausforderungen bei der Erkennung visueller Objekte, einschließlich der Ideen von David Marr zur Bildung einer kantenbasierten Beschreibung von Objekten, Oberflächennormalen und verallgemeinerten Zylindern. Der Referent geht auch auf verschiedene Methoden zur visuellen Objekterkennung ein, darunter die Ausrichtungstheorie und die Verwendung von Korrelationsalgorithmen zur Berechnung der Position von Merkmalen mittlerer Größe. Winston hebt die Herausforderungen beim Erkennen natürlicher Objekte, die keine identischen Abmessungen haben, und die Bedeutung von Kontext und Geschichtenerzählen bei der visuellen Erkennung am Beispiel einer trinkenden Katze hervor. Im gesamten Video stellt er Demonstrationen und Beispiele zur Verfügung, um verschiedene Konzepte zu erklären. Insgesamt betont der Referent die Schwierigkeiten der visuellen Erkennung und ermutigt die Studierenden, die Forschung auf diesem Gebiet fortzusetzen.

  • 00:00:00 In diesem Abschnitt erörtert Patrick Winston die Herausforderungen beim Erkennen visueller Objekte wie Gesichter. Er stellt ein Programm vor, das das Aussehen eines Politikers variieren kann und zeigt, wie es zwischen gespeicherten Bildern interpoliert. Winston taucht dann in die Geschichte der Objekterkennung ein, beginnend mit den Ideen von David Marr, der vorschlug, dass der erste Schritt bei der visuellen Erkennung darin besteht, eine kantenbasierte Beschreibung des Objekts zu erstellen, die als Primärskizze bekannt ist. Marr schlug dann vor, die ursprüngliche Skizze mit Oberflächennormalen zu dekorieren, um die Ausrichtung des Objekts zu zeigen, und nannte sie die Zweieinhalb-D-Skizze. Es folgte die Umwandlung der Zweieinhalb-D-Skizze in verallgemeinerte Zylinder, was uns dem Erkennen visueller Objekte einen Schritt näher brachte.

  • 00:05:00 In diesem Abschnitt spricht der Referent über verschiedene Ansätze zur visuellen Objekterkennung, beginnend mit der Idee eines regelmäßigen Zylinders als kreisförmige Fläche, die sich entlang einer Achse bewegt, und diskutiert dann das Konzept der Ausrichtungstheorie. Die Ausrichtungstheorie der Erkennung basiert auf der Idee, dass das Vorhandensein von drei Bildern eines Objekts die Rekonstruktion jeder Ansicht dieses Objekts in orthografischer Projektion ermöglicht, die zum Erkennen eines Objekts in einer Bibliothek verwendet werden kann. Der Sprecher behauptet, dass entsprechende Stellen auf verschiedenen Objekten ausgewählt werden können und die Ausrichtung der Bilder und des unbekannten Objekts verwendet werden kann, um zu bestimmen, ob das unbekannte Objekt das gleiche wie das ursprüngliche Objekt ist.

  • 00:10:00 In diesem Abschnitt erklärt Patrick Winston, wie man eine Gleichung für verschiedene Objekte generiert, indem man Alpha, Beta, Gamma und Tau als Konstanten verwendet. Er demonstriert, wie diese Gleichung für vier verschiedenfarbige Punkte funktioniert, und indem er für alle Punkte dieselben Alpha-, Beta-, Gamma- und Tau-Werte wählt, kann er erfolgreich lineare Operationen verwenden, um Punkte in verschiedenen Objekten in Beziehung zu setzen. Anschließend erklärt er, dass die Koordinaten 2D-Projektionen des Objekts auf eine Zeichnung sind und beantwortet Fragen, wie gekrümmte Oberflächen bei der visuellen Objekterkennung identifiziert werden könnten.

  • 00:15:00 In diesem Abschnitt erläutert Patrick Winston, wie Einschränkungen dabei helfen können, den Standort eines Objekts vorherzusagen, um die Erkennung zu unterstützen. Er erklärt, dass durch die Verwendung der Alpha-, Beta-, Gamma- und Tau-Variablen, die aus vier linearen Gleichungen und vier Unbekannten abgeleitet werden können, entsprechende Punkte korrekt identifiziert werden können, um wertvolle Informationen über die Position des unbekannten Objekts zu liefern. Winston demonstriert diese Methode und erklärt, dass die korrekte Identifizierung der entsprechenden Punkte ein starkes Indiz dafür ist, dass es sich um das richtige Objekt handelt, z. B. einen Obelisken oder eine Orgel.

  • 00:20:00 In diesem Abschnitt demonstriert der Referent, wie die Bewegung der x-Koordinate in einem Bild eines 3D-Objekts berechnet wird, wenn es um die z-Achse gedreht wird. Sie beginnen damit, eine Standardposition zu definieren und die x- und y-Koordinaten in dieser Position zu identifizieren, dann das Objekt zu drehen, um drei verschiedene Positionen (a, b und c) zu erstellen, und den Drehwinkel für jede zu bestimmen. Der Sprecher verwendet dann Vektordrehungen, um zu berechnen, wie sich die x-Koordinate ändert, wenn sich das Objekt um die z-Achse dreht. Der Prozess umfasst die Verwendung der Kosinus- und Sinusfunktionen und die Berücksichtigung der x- und y-Koordinatenprojektionen des Vektors, wenn er rotiert.

  • 00:25:00 In diesem Abschnitt vereinfacht der Sprecher die Gleichung, die die visuelle Objekterkennung durch orthografische Projektion beschreibt, die eine Projektion entlang der x-Achse ohne jegliche Perspektive ist. Er argumentiert, dass unbekannte Faktoren wie Kosinus und Sinus von Winkeln Theta Konstanten sind und als Alpha- und Beta-Multiplikatoren für x sub a und x sub b dargestellt werden können. Wenn das Szenario gegeben wird, Translation und Rotation zuzulassen, merkt der Sprecher an, dass die zusätzliche Konstante tau durch Subtrahieren von zwei Gleichungen identifiziert werden muss.

  • 00:30:00 In diesem Abschnitt erläutert Patrick Winston verschiedene Methoden der Objekterkennung. Er spricht über das Problem der Erkennung natürlicher Objekte, die keine identischen Abmessungen haben, im Gegensatz zu hergestellten Objekten, bei denen man Bilder machen und die Koordinaten einiger Punkte zur Erkennung aufzeichnen kann. Anschließend stellt er Shimon Ullmans auf Korrelation basierende Theorie vor, bei der man zwei Bilder nehmen, eines als Korrelationsmaske auf das andere Bild anwenden und das Hauptobjekt lokalisieren kann. Diese Idee hat jedoch Einschränkungen, da sie keine ungewöhnlichen Merkmale finden kann, sondern nur häufige. Winston untersucht die Idee weiter, indem er Beispiele von zwei Kürbisgesichtern zeichnet, und diskutiert die Probleme mit der Idee, Objekte anhand spezifischer Merkmale wie Augen und Nasen zu erkennen.

  • 00:35:00 In diesem Abschnitt erläutert der Referent, wie die visuelle Objekterkennung funktioniert und wie sie von der Größe der erkannten Merkmale abhängt. Während zu kleine oder zu große Bilder keine hilfreichen Informationen liefern, können Merkmale mittlerer Größe wie Kombinationen aus zwei Augen und einer Nase nützlich sein. Die Herausforderung besteht dann darin, diese Zwischenmerkmale in einem Meer von Bildern zu finden. Der Sprecher schlägt vor, Korrelationsalgorithmen zu verwenden, um den Versatz in dem Bild zu bestimmen, wo das Merkmal auftritt. Durch Maximieren über einen Parameter x kann das Integral des Gesichts und des Bildes berechnet werden, um die Position des Merkmals zu bestimmen.

  • 00:40:00 In diesem Abschnitt des Videos erklärt der Moderator anhand von Bildern mit Rauschen, wie die Korrelation bei der visuellen Objekterkennung funktioniert. Die Korrelation umfasst die Multiplikation und Integration über die Ausdehnung der Fläche mit einem Versatz. Wenn der Offset gleich ist, multipliziert das Programm das Bild mit sich selbst und integriert über das Gesicht. Durch Maximieren der Übersetzungsparameter x und y ist es möglich, trotz des hinzugefügten Rauschens bestimmte Merkmale eines Bildes herauszupicken, wie z. B. das Gesicht einer Person. Die Demonstration zeigte, dass das Programm auch mit zusätzlichem Rauschen immer noch in der Lage war, die richtigen Funktionen auszuwählen.

  • 00:45:00 In diesem Abschnitt erörtert Patrick Winston die Herausforderungen der visuellen Erkennung, insbesondere die Fähigkeit, Personen aus verschiedenen Blickwinkeln zu erkennen. Er stellt fest, dass es zwar nicht klar ist, wie wir Gesichter aus verschiedenen Blickwinkeln erkennen können, aber Gesichter auf den Kopf stellen oder strecken könnte die Korrelationstheorie möglicherweise brechen. Er schlägt jedoch vor, dass schwierigere Fragen darin liegen, wie wir visuell bestimmen können, was passiert. Er fordert die Schüler auf, festzustellen, welche Aktion er in einem Experiment durchführt, und hebt die aktuellen Herausforderungen in der Computer Vision hervor.

  • 00:50:00 In diesem Abschnitt demonstriert der Sprecher am Beispiel einer trinkenden Katze, wie unsere Fähigkeit, Geschichten zu erzählen, unsere visuelle Erkennung beeinflusst. Trotz der beträchtlichen visuellen Unterschiede können Menschen die Katze leicht als trinkend identifizieren, indem sie die auf dem Bild dargestellte Erzählung verstehen. Der untere Teil unseres Sehsystems liefert genügend Informationen für unseren Geschichtenapparat, um die Trinkaktion der Katze zu erkennen, was die Bedeutung von Kontext und Geschichtenerzählen bei der visuellen Objekterkennung beweist.
9. Constraints: Visual Object Recognition
9. Constraints: Visual Object Recognition
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWe consider how object recognitio...
 

Vorlesung 10. Einführung in das Lernen, Nächste Nachbarn



10. Einführung in das Lernen, nächste Nachbarn

In diesem YouTube-Video führt Professor Winston in das Thema Lernen ein und diskutiert zwei Arten des Lernens: Regelmäßigkeitsbasiertes Lernen und Feedbackbasiertes Lernen. Er konzentriert sich auf auf Regularität basierende Lerntechniken wie Nearest Neighbor Learning, neuronale Netze und Boosting. Nearest Neighbor Learning beinhaltet einen Merkmalsdetektor, der einen Vektor von Werten erzeugt, der dann mit Vektoren aus einer Bibliothek von Möglichkeiten verglichen wird, um die beste Übereinstimmung zu finden und zu bestimmen, was ein Objekt ist. Der Referent gibt verschiedene Beispiele, wie diese Methode angewendet werden kann. Er erörtert ferner, wie Entscheidungsgrenzen verwendet werden können, um die Kategorie eines Objekts zu identifizieren. Das Prinzip der Ähnlichkeit zwischen verschiedenen Fällen wird eingeführt, und die Bedeutung des Schlafmanagements wird betont, da es das Lernen stark beeinflusst. Schließlich berührt er das Problem der Nichteinheitlichkeit, das Problem „Was zählt“ und die Bedeutung der Normalisierung von Daten mit statistischen Techniken.

  • 00:00:00 In diesem Abschnitt stellt Professor Winston das Thema Lernen und zwei Arten des Lernens vor: Lernen basierend auf Regelmäßigkeiten und Lernen basierend auf Feedback. Er konzentriert sich auf Ersteres und diskutiert Regelmäßigkeits-basierte Lerntechniken wie Nearest-Neighbour-Learning, neuronale Netze und Boosting. Nearest Neighbor Learning ist eine etablierte Technik auf dem Gebiet der Mustererkennung und ist das erste, was man ausprobieren sollte, wenn man ein Lernproblem löst. Der Professor stellt auch zwei Rätsel auf, die es zu berücksichtigen gilt, nämlich wie man ein Computerprogramm erstellt, das Kaffee trinken kann, und wofür ein Hund eine Diät-Cola halten würde. Schließlich erwähnt er, wie wichtig es ist, sich mit dem Thema Schlaf zu befassen und richtig damit umzugehen, da es das Lernen stark beeinflusst.

  • 00:05:00 In diesem Abschnitt stellt der Referent das Konzept des Nearest Neighbor Learning vor, das eine Art der Mustererkennung ist. Dazu gehört ein Merkmalsdetektor, der einen Vektor von Werten generiert, der dann mit Vektoren aus einer Bibliothek von Möglichkeiten verglichen wird, um die beste Übereinstimmung zu finden und zu bestimmen, was ein Objekt ist. Der Referent gibt ein Beispiel für die Verwendung dieser Methode zum Sortieren von Elektroabdeckungen auf einer Montagelinie durch Messen ihrer Fläche und Lochfläche. Dies ist eine Form des auf Regelmäßigkeiten basierenden Lernens, das wie ein Bulldozer ist, der Informationen verarbeitet. Der Redner merkt an, dass dies nicht unbedingt das beste Modell für menschliches Lernen ist, das auf Beschränkungen basierende Ideen beinhaltet und One-Shot-Lernen und erklärungsbasiertes Lernen ermöglicht.

  • 00:10:00 In diesem Abschnitt erläutert der Kursleiter anhand des Beispiels der Montage von Abdeckungen mit unterschiedlichen Lochbereichen das Konzept der Entscheidungsgrenzen. Er demonstriert, wie man den Raum mit Mittelsenkrechten teilt, was dabei helfen kann, die Kategorie eines Objekts basierend auf seiner nächsten idealisierten Beschreibung zu identifizieren. Darüber hinaus können Entscheidungsgrenzen auch verwendet werden, um die Kategorie eines neuen Objekts zu identifizieren, indem eines seiner Attribute gemessen und mit den durch die Entscheidungsgrenzen erzeugten Kategorien verglichen wird.

  • 00:15:00 In diesem Abschnitt stellt der Redner das Prinzip der Ähnlichkeit zwischen verschiedenen Fällen vor und erklärt, dass, wenn etwas in bestimmten Aspekten ähnlich ist, es wahrscheinlich auch in anderer Hinsicht ähnlich ist. Dieses Prinzip ist die Grundlage für das meiste Lernen, sei es in Märchen, Rechts- oder Geschäftsfällen oder sogar in medizinischen Fällen. Die Idee ist, Ähnlichkeiten mit einer aktuellen Situation zu erkennen, um Präzedenzfälle oder Erkenntnisse anzuwenden. Das Prinzip lässt sich in verschiedenen Bereichen anwenden. Beispielsweise kann es bei der Zellidentifikation verwendet werden, wo Zellen in einen hochdimensionalen Raum gebracht und anhand verschiedener Eigenschaften auf Ähnlichkeit bewertet werden können. In ähnlicher Weise kann das Prinzip bei der Informationssuche verwendet werden, wo Artikel aus Zeitschriften anhand der Wortzahl verglichen werden können, um bestimmte Fragen zu beantworten.

  • 00:20:00 In diesem Abschnitt wird das Konzept der Verwendung nächster Nachbarn untersucht, wenn versucht wird, zu bestimmen, welcher Artikel einem unbekannten am nächsten ist. Das Problem tritt auf, wenn festgestellt wird, dass alle Stadt- und Landartikel am nächsten sind. Stattdessen diskutiert die Klasse die Verwendung einer anderen Metrik, z. B. des Winkels zwischen Vektoren, um das Problem zu lösen. Der Kosinus des Winkels zwischen zwei Vektoren kann durch eine einfache Berechnung berechnet werden, was in vielen Situationen nützlich sein kann, einschließlich der Roboterarmsteuerung. Das Ziel ist es, einen Arm zu bewegen, um die Flugbahn eines Balls mit einer bestimmten Geschwindigkeit und Beschleunigung zu steuern, was die Bestimmung von zwei Winkeln beinhaltet, Theta 1 und Theta 2.

  • 00:25:00 In diesem Abschnitt erörtert der Sprecher die Probleme, die beim Übersetzen der gewünschten (x,y)-Koordinaten eines Balls in den θ1- und θ2-Raum mit gewünschten Positionen, Geschwindigkeiten und Beschleunigungen auftreten. Sie führen das Konzept der Coriolis-Kräfte ein, die ein Ergebnis der komplizierten Geometrie der Bewegungsgleichungen sind. Um dieses Problem zu lösen, schlägt der Referent vor, eine große Tabelle mit Bewegungskombinationen für den Arm zu erstellen, dann die gewünschte Trajektorie in kleine Stücke zu unterteilen und die beste Übereinstimmung aus der Tabelle zu finden, einschließlich der zugehörigen Drehmomente. Diese Methode wurde früher aufgrund unzureichender Computerleistung abgelehnt, wurde jedoch in letzter Zeit wieder aufgegriffen und funktioniert gut für ähnliche Bewegungen.

  • 00:30:00 In diesem Abschnitt erklärt der Referent, wie der Lernprozess funktioniert, während der Roboter seine „Kindheit“ durchläuft und die Aufgabe allmählich besser bewältigt. Die Verbesserung wird durch die Verwendung einer Tabelle erreicht, die bessere Versionen der erforderlichen Bewegungen aufzeichnet, damit der Roboter später darauf zurückgreifen kann. Der Sprecher zeigt dann eine Grafik, die zeigt, wie schnell der Roboter lernt. Das Thema der Verwendung des gleichen Speicheraufzeichnungsverfahrens zum Aufzeichnen von Baseballfeldern wird ebenfalls kurz erörtert.

  • 00:35:00 In diesem Abschnitt diskutiert Professor Patrick Winston die Anzahl der Neuronen und Synapsen im Gehirn, insbesondere im Kleinhirn, die mit der motorischen Kontrolle zusammenhängen, und wie sie als gigantischer Tisch für das Erlernen motorischer Fähigkeiten fungieren können. Anschließend untersucht er das Problem normalisierter Daten beim maschinellen Lernen und wie sich dies auf die Verbreitung von Daten in verschiedenen Dimensionen auswirken kann. Die Lösung besteht darin, die Varianz zu berechnen und die Daten mit Techniken aus der Statistik zu normalisieren.

  • 00:40:00 In diesem Abschnitt erörtert der Sprecher die potenziellen Probleme, die entstehen können, wenn beim Lernen nächste Nachbarn verwendet werden. Ein solches Problem ist das Problem der Ungleichmäßigkeit, wenn die Daten nicht von der neuen Variablen abhängen. Das zweite Problem ist das „Was zählt“-Problem, bei dem der Algorithmus eine Entfernung messen kann, die die Antwort verwirrt. Das dritte Problem schließlich besteht darin, dass die verfügbaren Daten unabhängig von der Frage sind, ähnlich wie beim Versuch, einen Kuchen ohne Mehl zu backen. Der Redner geht dann auf die Bedeutung des Schlafs ein und darauf, wie wichtig gute Schlafgewohnheiten sind, insbesondere für Personen wie Army Rangers. Darüber hinaus erklärt er, wie Schlafentzug zu Fehlern bei der Unterscheidung von Zielen führen kann, was bei Nachkriegsanalysen beobachtet wurde.

  • 00:45:00 In diesem Abschnitt erörtert der Sprecher die Auswirkungen von Schlafmangel auf den menschlichen Geist und Körper. Er erklärt, dass nach 72 Stunden die Fähigkeit und Leistung eines Einzelnen im Vergleich zum Start um 30 % abnimmt. Der Schlafverlust häuft sich an und nach 20 Tagen mit einer Stunde Schlafentzug sinkt Ihre Leistungsfähigkeit auf 25 %. Der Referent untersucht auch die Wirksamkeit von Koffein und Nickerchen und betont, dass Koffein eine gewisse Hilfe bietet. Er warnt davor, die Korrelation mit der Ursache zu verwechseln und wie Tiere wie Hunde und Katzen den Fehler machen können, dass Diätgetränke aufgrund einer Korrelation, die sie sehen, eine Gewichtszunahme verursachen.
10. Introduction to Learning, Nearest Neighbors
10. Introduction to Learning, Nearest Neighbors
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonThis lecture begins with a high-l...
 

Vorlesung 11. Lernen: Identifikationsbäume, Unordnung



11. Lernen: Identifikationsbäume, Unordnung

MIT-Professor Patrick Winston erklärt das Konzept des Aufbaus eines Erkennungsmechanismus zur Identifizierung von Vampiren anhand von Daten und die Bedeutung der Erstellung eines kleinen und kostengünstigen Identifizierungsbaums, der Occams Razor genügt. Er schlägt vor, heuristische Mechanismen zum Aufbau des Baums zu verwenden, da die Berechnung aller möglichen Bäume ein NP-Problem ist. Winston schlägt vor, einen Schattentest, einen Knoblauchtest, einen Teinttest und einen Akzenttest zu verwenden, um festzustellen, welche Personen Vampire sind, und erklärt, wie man Unordnung in Sätzen misst, um die Gesamtqualität eines Tests basierend auf der Messung von Unordnung zu ermitteln. Das Video erläutert auch, wie Identifikationsbäume mit numerischen Daten verwendet werden können, und der Baum kann in einen Satz von Regeln umgewandelt werden, um einen einfachen Mechanismus zu erstellen, der auf regelbasiertem Verhalten basiert.

  • 00:00:00 In diesem Abschnitt stellt MIT-Professor Patrick Winston das Konzept der Verwendung von Daten zum Aufbau eines Erkennungsmechanismus zur Identifizierung von Vampiren vor. Er weist auf die Unterschiede zwischen diesem Datensatz und dem Datensatz der elektrischen Abdeckung hin, mit dem sie in der vorherigen Klasse gearbeitet haben, und stellt fest, dass dieser Datensatz nicht numerisch, sondern symbolisch ist, was die Techniken des nächsten Nachbarn unbrauchbar macht. Er hebt auch andere Herausforderungen bei der Identifizierung von Vampiren hervor, wie die Kosten bestimmter Tests und die Ungewissheit, welche Eigenschaften tatsächlich von Bedeutung sind.

  • 00:05:00 In diesem Abschnitt erläutert Patrick Winston das Konzept von Identifikationsbäumen oder Entscheidungsbäumen und betont, wie wichtig es ist, einen kleinen Baum zu erstellen, der kosteneffizient ist und einheitliche Teilmengen von Daten produziert. Ziel ist es, die bestmögliche Anordnung von Tests zu finden, um eine einfache, kleine Erklärung zu erzeugen, die Occams Rasiermesser erfüllt, das besagt, dass die einfachste Erklärung oft die beste Erklärung ist. Er schlägt auch vor, einen heuristischen Mechanismus zum Erstellen des Baums zu verwenden, da das Berechnen aller möglichen Bäume ein NP-Problem ist. Schließlich weist Winston darauf hin, dass der kleine Sample-Satz, der im Unterricht verwendet wird, nicht für Anwendungen in der realen Welt geeignet ist.

  • 00:10:00 In diesem Abschnitt werden ein Schattentest, ein Knoblauchtest, ein Teinttest und ein Akzenttest verwendet, um zu identifizieren, welche Personen Vampire sind. Die Tests werden auf eine kleine Stichprobenpopulation angewendet, und indem man sich anschaut, wie die Tests die Daten aufteilen, ist es möglich zu bestimmen, welcher Test die homogensten Gruppen erzeugt. Das ultimative Ziel ist es, einen Test zu finden, der alle Vampire in der Stichprobenpopulation genau identifizieren kann. Der Schattentest unterteilt die Bevölkerung in diejenigen, die einen Schatten werfen, und diejenigen, die keinen Schatten werfen, wobei nur eine Person keinen Schatten wirft, was darauf hinweist, dass sie ein Vampir ist. Der Knoblauchtest stellt fest, dass alle Vampire in der Stichprobenpopulation negativ auf den Verzehr von Knoblauch reagierten. Der Teinttest und der Akzenttest helfen auch zu identifizieren, welche Personen am ehesten Vampire sind.

  • 00:15:00 In diesem Abschnitt erklärt das Video anhand eines Beispiels, wie man einen Identifikationsbaum erstellt, indem man eine Gruppe von Individuen in homogene Sätze aufteilt, indem man Merkmale auswählt, die für jede Gruppe einzigartig sind. Das Beispiel beinhaltet Vampire und Nicht-Vampire und die Tests, die verwendet werden, um jede Gruppe zu identifizieren. Das Video befasst sich auch mit Fragen zur Anwendung dieses Konzepts auf größere Datensätze und hebt die Einschränkungen des Beispiels aus dem Klassenzimmer hervor.

  • 00:20:00 In diesem Abschnitt wird das Konzept der Messung von Unordnung in Mengen eingeführt. Um einen Weg zu finden, die Unordnung der Mengen zu messen, die sich am unteren Ende der Äste befinden, werden Informationstheoretiker um Rat gefragt. Die Unordnung einer Menge wird laut Informationstheoretikern berechnet, indem die Gesamtzahl der Positiven und Negativen berücksichtigt und die Anzahl der Positiven mit dem Logarithmus der Positiven dividiert durch die Gesamtzahl in Bezug auf eine Basis von 2 multipliziert wird Diese Methode kann dabei helfen, eine Gesamtqualität eines Tests zu ermitteln, die auf der Messung der Störung basiert.

  • 00:25:00 In diesem Abschnitt erklärt der Sprecher die Formel zur Messung der Unordnung in einem Datensatz unter Verwendung von Verhältnissen von positiven und negativen. Nach Berechnung der Werte für komplett durcheinander geratene und komplett positive Datensätze bestätigt der Referent, wie wichtig es ist, auf diese Kurven zu achten, um Quizfragen zügig zu bearbeiten. Schließlich berechnet der Sprecher unter Verwendung der Regel von L'Hopital einen dritten Wert, wenn sich das Verhältnis von Negativen zu Gesamt 0 nähert, was die grafische Darstellung einer Kurve mit drei Punkten ermöglicht.

  • 00:30:00 In diesem Abschnitt erläutert der Referent, wie man die Qualität eines Tests insgesamt misst und wie man die durch den Test erzeugte Störung in jedem Satz misst. Der Sprecher schlägt vor, die durch den Test erzeugte Unordnung jedes Satzes zu addieren, stellt jedoch fest, dass diese Methode möglicherweise nicht die beste ist, da sie einem Zweig, der fast nichts enthält, das gleiche Gewicht beimisst wie einem Zweig, der fast alles enthält. Um dieses Problem zu lösen, schlägt der Sprecher vor, die Summe basierend auf dem Bruchteil der Abtastungen zu gewichten, die diesen Zweig hinunterlaufen. Der Referent veranschaulicht diese Methode anhand eines Beispielproblems und kommt zu dem Schluss, dass die Unordnung einer homogenen Menge Null ist.

  • 00:35:00 In diesem Abschnitt liegt der Schwerpunkt auf der Qualität der Tests, die die gegebenen Daten identifizieren und in Teilmengen aufteilen. Die Unordnung oder die Unordnung einer Menge ist null, wenn alle Proben gleich sind, und ist eins, wenn Proben gleichermaßen eine gleichmäßige Mischung aus zwei Arten sind. Durch Multiplikation der Wahrscheinlichkeit der Teilmengen mit der jeweiligen Unordnung der Mengen lässt sich die Güte jedes Tests berechnen. Diese Qualitätsmetrik wird dann verwendet, um zu entscheiden, welcher Test die Daten am besten in homogene Teilmengen aufteilt, was für den Aufbau eines möglichst einfachen Baums unerlässlich ist. Der Schwerpunkt liegt jedoch eher auf der Intuition hinter der Datenanalyse als auf der Informationstheorie oder der Entropie.

  • 00:40:00 In diesem Abschnitt erläutert das Video, wie Identifikationsbäume dennoch mit numerischen Daten verwendet werden können, indem Schwellenwerte für die Daten festgelegt werden. Dadurch können binäre Tests erstellt werden, ähnlich den Tests, die mit kategorialen Daten verwendet werden. Der Computer kann verschiedene Schwellenwerte ausprobieren und bestimmt, welcher Schwellenwert am besten funktioniert, um die Daten in homogene Gruppen zu trennen. Im Gegensatz zu anderen Methoden, wie z. B. nächste Nachbarn, sind Entscheidungsgrenzen parallel zu der einen oder anderen Achse, anstatt der Form der Daten selbst zu folgen.

  • 00:45:00 In diesem Abschnitt erfahren wir etwas über Identifikationsbäume, ihre Vorzüge und wie sie in eine Reihe von Regeln umgewandelt werden können, um sie für Regelorientierte einfacher zu machen. Der Baum kann in eine Reihe von Regeln umgewandelt werden, indem jeder Zweig zu einem Blatt hinuntergeht, und wenn eine Regel sowohl den Schatten als auch den Knoblauch testet, können wir einige der Klauseln loswerden, um einen einfachen Mechanismus zu erstellen, der auf Regeln basiert Verhalten.
11. Learning: Identification Trees, Disorder
11. Learning: Identification Trees, Disorder
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we build an iden...
 

Vorlesung 12a: Neuronale Netze



12a: Neuronale Netze

Dieses Video behandelt eine Reihe von Themen rund um neuronale Netze. Der Redner beginnt mit einer Erörterung der Geschichte der neuronalen Netze und hebt die zentrale Arbeit von Geoff Hinton hervor, die das Gebiet verändert hat. Anschließend wird die Anatomie eines Neurons besprochen sowie die Art und Weise, wie Eingaben gesammelt und verarbeitet werden. Das Video befasst sich dann damit, wie neuronale Netze als Funktionsnäher funktionieren und wie die Leistung durch Bergsteigen und Gefälle verbessert werden kann. Die Kettenregel wird eingeführt, um die Berechnung partieller Ableitungen zu erleichtern, und der Referent demonstriert, wie das einfachste neuronale Netz der Welt mit diesem Ansatz trainiert werden kann. Die optimale Ratenkonstante für ein neuronales Netz wird ebenfalls diskutiert, und der Referent stellt ein komplexeres neuronales Netz mit zwei Eingängen und Ausgängen vor. Schließlich wird das Wiederverwendungsprinzip eingeführt, um das Problem einer möglichen exponentiellen Explosion von Pfaden durch große Netzwerke anzugehen. Insgesamt betont das Video, dass großartige Ideen in neuronalen Netzen oft einfach und leicht zu übersehen sind, obwohl sie einen erheblichen Einfluss auf das Feld haben können.

  • 00:00:00 In diesem Abschnitt beschreibt der Professor die Geschichte der neuronalen Netze und erwähnt, dass viele anfangs glaubten, die neuronalen Modelle der damaligen Zeit seien keine genauen Modelle des menschlichen Gehirns und niemand habe es geschafft, ein solches neuronales Modell zu erstellen war alles wert. Der Professor fährt fort und erwähnt, dass Geoff Hinton von der University of Toronto zwei Jahre später die Welt mit neuronalen Arbeiten zum Erkennen und Klassifizieren von Bildern verblüffte und eine Arbeit mit einigen Beispielen veröffentlichte. Das Video zeigt einige Beispiele von Bildern, die das neuronale Netz von Toronto erkennen konnte, und andere, bei denen es Schwierigkeiten hatte.

  • 00:05:00 In diesem Abschnitt erörtert der Referent neuronale Netze und wie sie sich in den letzten drei Jahren aufgrund des gestiegenen Aufwands und Interesses erheblich verbessert haben. Er erklärt, wie wir von unseren eigenen neuronalen Systemen inspiriert wurden, und beschreibt die Struktur eines Neurons, einschließlich seines Axons, Dendritenbaums und der synaptischen Verbindungen zwischen ihnen. Der Referent diskutiert dann, wie synaptische Verbindungen in neuronalen Netzen modelliert werden, indem binäre Eingaben und Gewichte verwendet werden, die die Stärke der Verbindung widerspiegeln.

  • 00:10:00 In diesem Abschnitt erklärt der Referent, wie man die Art und Weise modelliert, wie Eingaben in einem Neuron gesammelt werden, und zwar durch ein einfaches Modell, das synaptische Gewichtungen, einen Summierer und eine Schwellenbox verwendet, die bestimmt, ob das Neuron feuert oder nicht. Obwohl dieses Modell von der Funktionsweise des menschlichen Gehirns inspiriert ist, gibt es noch viele Unbekannte und Feinheiten, die von Neurobiologen noch nicht vollständig verstanden werden. Dieses Modell ist nur eine Möglichkeit, die allgemeine Essenz der Funktionsweise von Neuronen zu verstehen und wie sie kollektiv als Netzwerk funktionieren.

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie ein neuronales Netzwerk als Funktionsapproximator funktioniert, bei dem Eingaben durch das Netzwerk fließen und zu Ausgaben werden. Der Ausgangsvektor ist eine Funktion des Eingangsvektors, des Gewichtungsvektors und eines Schwellenvektors. Die Leistungsfunktion wird konstruiert, indem der gewünschte Ausgangsvektor mit dem tatsächlichen Ausgangsvektor verglichen wird, und das Ziel ist immer, die Leistungsfunktion zu minimieren. Der Vortrag erklärt den Prozess der Optimierung der Gewichte und Schwellenwerte in einem einfachen neuronalen Netzwerk durch Hill-Climbing, erkennt jedoch an, dass diese Methode für neuronale Netzwerke mit einer großen Anzahl von Parametern, wie beispielsweise Hintons neuronales Netz mit 60 Millionen Parametern, nicht durchführbar ist.

  • 00:20:00 In diesem Abschnitt erklärt der Erzähler, wie der Gradientenabstieg verwendet werden kann, um kleine Verbesserungen der Leistungsfunktion zu erzielen, indem partielle Ableitungen der Funktion in Bezug auf bestimmte Gewichte vorgenommen werden. Dieses Verfahren ist jedoch nur für kontinuierliche Oberflächen effektiv und nicht für diskontinuierliche Oberflächen, was bei neuronalen Netzen der Fall ist. Die Lösung wurde 1974 von Paul Werbos eingeführt, bei der dem Neuron eine weitere Eingabe mit einer Gewichtung von W0 hinzugefügt wird, die mit einer Eingabe verbunden ist, die immer -1 ist. Diese Eingabe verschiebt den Schwellenwert effektiv auf Null und ermöglicht eine glattere Übergangsfunktion für das neuronale Netz.

  • 00:25:00 In diesem Abschnitt erklärt das Video die Sigmoid-Funktion und wie sie in neuronalen Netzen verwendet wird. Die Sigmoidfunktion wird als Aktivierungsfunktion für Neuronen verwendet und bietet das richtige Aussehen und die richtige Form, die die Mathematik erfordert. Die partiellen Ableitungen werden dann berechnet, nachdem die problematische Schwelle entfernt wurde, um zu versuchen, das neuronale Netz zu trainieren. Das einfachste neuronale Netz der Welt wird so beschrieben, dass es aus zwei Neuronen und einigen Parametern besteht, die eine Leistungsfunktion ergeben. Das Video führt dann die Kettenregel ein, um partielle Ableitungen in die Berechnung von Zwischenvariablen umzuschreiben, um zu bestimmen, wie stark sie in Bezug auf andere wackeln, und schließlich das neuronale Netz zu trainieren.

  • 00:30:00 In diesem Abschnitt löscht und schreibt der Sprecher partielle Ableitungen unter Verwendung der Kettenregel und liefert Ausdrücke, die die Lösung eines einfachen neuronalen Netzes ermöglichen. Die Ableitungen werden der Einfachheit halber in ein Produktformat umgewandelt, und der Sprecher fährt fort, die partielle Ableitung von p2 in Bezug auf w2 zu finden, die gleich Y ist. Die partielle Ableitung von Z in Bezug auf p2 ist noch unbekannt, weil sie a beinhaltet Schwellenfunktion. Um das herauszufinden, zerstört der Sprecher das Neuron und arbeitet mit der Funktion Beta, die gleich 1 mal 1 plus e hoch minus Alpha ist.

  • 00:35:00 In diesem Abschnitt geht der Sprecher die Ableitung in Bezug auf Alpha-Beta durch und fährt dann damit fort, das kleinste neuronale Netz der Welt in Aktion zu demonstrieren, indem er ihm beibringt, nichts zu tun. Die Ausgabe der Sigmoidfunktion wird vereinfacht, da die Ableitung ausschließlich in Bezug auf die Ausgabe geschrieben werden kann. Das neuronale Netz wird darauf trainiert, die Ausgabe der Eingabe gleichzusetzen, aber als Ergebnis passiert nichts.

  • 00:40:00 In diesem Abschnitt des Videos erläutert der Sprecher den Prozess zur Bestimmung der optimalen Ratenkonstante für ein neuronales Netz. Ausgehend von einem neuronalen Netz mit zufälligen Gewichtungen testet der Sprecher verschiedene Ratenkonstanten und beobachtet ihre Auswirkung auf die Leistung des Netzes. Wenn die Geschwindigkeitskonstante zu klein ist, dauert es lange, bis die optimale Leistung erreicht wird, aber wenn sie zu groß ist, kann das Netz zu weit springen und instabil werden. Der Sprecher merkt an, dass die Geschwindigkeitskonstante mit dem Fortschritt hin zu einer optimalen Leistung variieren sollte. Der Referent stellt auch ein komplexeres neuronales Netz mit zwei Ein- und Ausgängen vor und diskutiert die Wechselwirkungen zwischen den Strömen und Gewichten.

  • 00:45:00 In diesem Abschnitt erfahren wir etwas über die potenzielle exponentielle Explosion von Pfaden durch ein Netzwerk mit einer großen Anzahl von Neuronen. Wir können die Berechnung jedoch wiederverwenden und haben keine exponentielle Explosion, da der Einfluss von Änderungen in P auf die Leistung nur durch eine feste Spalte von Neuronen erfolgen kann, was bedeutet, dass wir bereits durchgeführte Berechnungen wiederverwenden. Der für eine Spalte mit fester Breite erforderliche Rechenaufwand ist linear und tief, aber proportional zum Quadrat der Breite der Spalte. Der Redner merkt auch an, dass dieses Prinzip seit 25 Jahren übersehen wird.

  • 00:50:00 In diesem Abschnitt erörtert der Redner, dass großartige Ideen in neuronalen Netzen oft einfach sind, aber wir Menschen kommen oft nur auf einen Trick oder eine Beobachtung, anstatt ein paar zusammenzufügen, um etwas Wunderbares zu erschaffen. In diesem Fall greift das Wiederverwendungsprinzip, denn das Wunder war die Folge zweier Tricks und einer Beobachtung. Insgesamt lautet die Botschaft, dass großartige Ideen einfach und leicht zu übersehen sind und seit einem Vierteljahrhundert übersehen werden.
12a: Neural Nets
12a: Neural Nets
  • 2016.04.20
  • www.youtube.com
*NOTE: These videos were recorded in Fall 2015 to update the Neural Nets portion of the class.MIT 6.034 Artificial Intelligence, Fall 2010View the complete c...
 

Vorlesung 12b: Tiefe neuronale Netze



12b: Tiefe neuronale Netze

Dieses Video behandelt verschiedene Themen im Zusammenhang mit tiefen neuronalen Netzen, darunter den beteiligten Berechnungsprozess, neuronale Faltungsnetze, Autocodierungsalgorithmen, das Anpassen von Parametern in der Ausgabeschicht, Softmax und Backpropagation mit Faltungsnetzen. Das Video untersucht auch Konzepte wie lokale Maxima, sich erweiternde Netzwerke und neuronales Netzlernen und zeigt gleichzeitig, wie tiefe neuronale Netze in der Bildverarbeitung funktionieren. Insgesamt bietet das Video einen umfassenden Überblick über die wichtigsten Konzepte tiefer neuronaler Netze, einschließlich ihrer Stärken und Grenzen.

  • 00:00:00 In diesem Abschnitt erörtert der Referent den Berechnungsprozess in einem kleinen neuronalen Netzwerk und hebt die Tatsache hervor, dass die Leistung dieses Netzwerks von einer endlichen Anzahl von Ausgangsvariablen abhängt. Der Referent zeigt dann Gleichungen, die die Abhängigkeit der Leistung von bestimmten Gewichten demonstrieren, und weist darauf hin, dass es im Berechnungsprozess viele Redundanzen gibt. Wenn Sie sich weiter von den Ausgaben zu den Eingaben zurückbewegen, wird ein Großteil der zuvor durchgeführten Berechnungen wiederverwendet, was zur Wiederverwendung mehrerer Berechnungsteile führt, die bei nachgelagerten Gewichtsänderungen durchgeführt wurden.

  • 00:05:00 In diesem Abschnitt geht der Referent auf die Berechnungen in neuronalen Netzen ein und weist auf die grundlegende Berechnung hin, die in unserem Kopf stattfindet, das Skalarprodukt, das auch in neuronalen Netzen verwendet wird. Er erklärt auch das Konzept der Convolutional Neural Nets, die für die Bildverarbeitung verwendet werden, und stellt fest, dass sie aus einer bestimmten Anordnung von Komponenten bestehen, die im Bereich der Neuronalen Netze häufig wieder auftauchen. Der Referent erwähnt auch die Leistung eines tiefen neuronalen Netzes im Jahr 2012, das je nach Definition der „richtigen Antwort“ eine Fehlerquote von etwa 15 Prozent oder 37 Prozent hatte.

  • 00:10:00 In diesem Abschnitt des Videos erklärt der Referent, wie Faltung und Bündelung in neuronalen Netzen funktionieren. Der Prozess besteht darin, ein Neuron über ein Bild laufen zu lassen und eine Ausgabe zu erzeugen, die einer bestimmten Stelle im Bild zugeordnet ist. Dies wird Faltung genannt, und die resultierenden Punkte werden verwendet, um den Maximalwert in lokalen Nachbarschaften zu finden, wodurch eine Abbildung des Bildes unter Verwendung dieses Maximalwerts erstellt wird. Dies wird als maximales Pooling bezeichnet. Mehrere Kernel können verwendet werden, um viele Ausgaben zu erzeugen, die dann in ein neuronales Netzwerk eingespeist werden können, um die Wahrscheinlichkeit anzuzeigen, dass ein Objekt im Bild vorhanden ist. Diese Methode ist viel fortschrittlicher als die alte Methode, ein kleines Raster von Pixeln als Eingaben für Neuronen zu verwenden.

  • 00:15:00 In diesem Abschnitt erläutert der Dozent die Idee der Autocodierung, bei der ein neuronales Netz die Eingabe mit der Ausgabe vergleicht, bis die gewünschten Werte übereinstimmen. Der Dozent beschreibt einen Algorithmus, mit dem ein Netzwerk Tiere anhand der Höhe ihres Schattens auf einer Tafel identifizieren kann, in einem einfachen Beispiel, das zeigt, wie der Auto-Codierungs-Algorithmus funktioniert. Das Netzwerk „lernt“, die Tierschatten zu erkennen, indem es die Eingabewerte in eine kleinere verborgene Schicht komprimiert, die dann erweitert wird, um die Ausgabewerte zu erzeugen. Der Algorithmus erzielt überraschend effektive Ergebnisse, selbst bei großen Eingabedatensätzen, die eine beträchtliche Anzahl von Klassen und Beispielen für jede Klasse enthalten.

  • 00:20:00 In diesem Abschnitt demonstriert der Sprecher den Betrieb eines einfachen neuronalen Netzes mit zufälligen Eingaben und einfacher Backpropagation. Nach nur tausend Iterationen sinkt die Fehlerquote deutlich und das Netz kann die Beschaffenheit der Objekte, die es in der Umgebung sieht, allein anhand der Höhe ihres Schattens erkennen. Es scheint jedoch, dass die Neuronen in der verborgenen Schicht keine Verallgemeinerungen vornehmen, sondern eine Art verschlüsselte Verallgemeinerung, die es den Forschern erschwert, zu verstehen, wie das neuronale Netz bestimmte Objekte erkennen kann. Trotz dieses Mysteriums bietet die automatische Codierung, die ein Schicht-für-Schicht-Training beinhaltet, eine vielversprechende Technik zum Trainieren tiefer neuronaler Netze.

  • 00:25:00 In diesem Abschnitt des Videos erörtert der Sprecher die letzte Schicht eines tiefen neuronalen Netzes und die Bedeutung der Anpassung der Schwellenwert- und Gewichtungswerte zur Optimierung der Probenklassifizierung. Durch die Änderung des Schwellwerts wird die Sigmoidfunktion verschoben, während die Änderung des Gewichtswerts die Steilheit der Kurve verändert. Diese Anpassungen wirken sich wiederum auf die Wahrscheinlichkeit positiver und negativer Beispiele im Datensatz aus. Um die Wahrscheinlichkeit einer korrekten Klassifizierung der Daten zu maximieren, müssen T- und W-Werte durch partielle Ableitungen optimiert werden.

  • 00:30:00 In diesem Abschnitt erläutert der Kursleiter das Konzept der Anpassung von Parametern in der Ausgabeschicht, um die Wahrscheinlichkeit der vorliegenden Beispieldaten zu maximieren. Dazu gehört, den Ausgabewert als etwas zu betrachten, das mit der Wahrscheinlichkeit zusammenhängt, eine Klasse zu sehen, und die Parameter entsprechend anzupassen. Der Ausbilder demonstriert den Prozess anhand einer Sigmoidkurve und eines Gradientenabstiegsalgorithmus. Das Ziel besteht darin, jeder Klasse eine Art Wahrscheinlichkeit zuzuordnen, damit wir die wahrscheinlichste finden können. Die tatsächliche Wahrscheinlichkeit einer Klasse wird berechnet, indem die Ausgabe der Sigmoidfunktion für diese Klasse durch die Summe aller Funktionen dividiert wird. Dies wird als Division durch einen Normalisierungsfaktor bezeichnet und wandelt jeden Ausgabewert in eine Wahrscheinlichkeit um.

  • 00:35:00 In diesem Abschnitt erklärt der Sprecher den Prozess der Verwendung von Softmax, um eine Reihe von Klassifizierungen zu geben und jeder eine Wahrscheinlichkeit zuzuordnen, um Bilder zu klassifizieren. Der Referent diskutiert auch die Kombination der Softmax-Idee mit der Auto-Coding-Idee durch Einfrieren der Eingabeschicht und Trainieren der Ausgabeschicht unter Verwendung der Sigmoidkurve. Darüber hinaus erwähnen sie die Idee des Ausfalls, um zu verhindern, dass neuronale Netze in einem lokalen Maximalzustand stecken bleiben. Der Abschnitt schließt mit der Feststellung, dass trotz der Raffinesse der Ausgabeschichten und des Trainings mit Autocodierung oder Boltzmann-Maschinen die Backpropagation mit Convolutional Nets genauso gut zu funktionieren scheint, und der Referent demonstriert ein Klassenraum-Deep-Net mit fünf Schichten und Backpropagation, um Bilder zu klassifizieren Tiere.

  • 00:40:00 In diesem Abschnitt zeigt das Video, wie ein neuronales Netz in einem lokalen Maximum stecken bleiben kann und wie die Erweiterung des Netzwerks ihm helfen kann, durch den riesigen Raum zu kriechen, ohne stecken zu bleiben. Der Referent erklärt, dass es einen Durchbruch beim neuronalen Netzlernen gegeben hat, da es jetzt lokale Maxima in Sattelpunkte umwandeln kann, was es ihm ermöglicht, effizienter zu lernen. Das Video untersucht weiter, ob neuronale Netze wie Menschen „sehen“ können, indem es Beispiele dafür zeigt, wie selbst kleine Pixeländerungen ein neuronales Netz dazu bringen können, Objekte mit hohem Vertrauensniveau zu unterscheiden. Die Demonstration zeigt, dass einem neuronalen Netz vorgegaukelt werden kann, dass ein Bild nicht das ist, was es tatsächlich ist.

  • 00:45:00 In diesem Abschnitt erörtert der Redner, wie tiefe neuronale Netze in der Bildverarbeitung funktionieren, anhand von Beispielen aus Googles Artikel zum Einfügen von Bildunterschriften. Die neuronalen Netze identifizieren ein Objekt wie einen Schulbus oder einen Baseball, indem sie die lokalen Merkmale und die Textur im Bild erkennen. Allerdings wird die Unfähigkeit der neuronalen Netze, den Kontext eines Bildes zu verstehen, wie durch andere Beispiele von Fehlidentifizierung gezeigt wird, als eine Beschränkung der Technologie gezeigt. Der Referent diskutiert dann die Arbeit seines Labors zum Aussparen von Rechtecken aus Bildern unter Beibehaltung des Bildeindrucks des neuronalen Netzes. Die Fähigkeit des neuronalen Netzes, ein Objekt zu identifizieren, wird auch durch Bilder unterschiedlicher Verstümmelungsgrade demonstriert, wobei die neuronalen Netze bewundernswert funktionieren, selbst wenn Teile des Bildes entfernt werden.
12b: Deep Neural Nets
12b: Deep Neural Nets
  • 2016.04.20
  • www.youtube.com
*NOTE: These videos were recorded in Fall 2015 to update the Neural Nets portion of the class.MIT 6.034 Artificial Intelligence, Fall 2010View the complete c...
 

Vorlesung 13. Lernen: Genetische Algorithmen



13. Lernen: Genetische Algorithmen

Dieses Video diskutiert das Konzept genetischer Algorithmen, die die Evolution imitieren und es uns ermöglichen, komplexe Probleme zu lösen. Der Prozess der genetischen Vererbung durch Chromosomen wird aufgeschlüsselt und simuliert, indem binäre Chromosomen mit Auswahlmöglichkeiten für Mutationen und Kreuzungen verwendet werden. Die Überlebenswahrscheinlichkeiten und die Rangordnung der Kandidaten werden anhand eines Beispiels erläutert und zeigen die Wirksamkeit bei korrekter Ausführung. Die Herausforderung der Überwindung lokaler Maxima und die Einführung der Simulated-Annealing-Technik werden diskutiert. Praktische Anwendungen genetischer Algorithmen werden vorgestellt, darunter ein Projekt zum Aufbau eines regelbasierten Expertensystems und die Evolution von Kreaturen, die aus blockartigen Objekten bestehen. Der Dozent reflektiert die Ursprünge und den Erfolg genetischer Algorithmen und stellt fest, dass Vielfalt eine Schlüsselkomponente für ihren Erfolg ist.

  • 00:00:00 In diesem Abschnitt spricht Professor Patrick Winston vom MIT über die Nachahmung der Evolution durch genetische Algorithmen. Er beginnt damit, über die Grundlagen der Mitose und Reproduktion zu sprechen. Anschließend führt er das Konzept der genetischen Algorithmen ein, die naive Versuche sind, die Evolution nachzuahmen. Diese Algorithmen ermöglichen es uns, komplexe Fragen zu lösen, indem wir das Muster der Evolution nachahmen. Er sagt, dass die Schüler dies in ihrem nächsten Quiz nicht sehen werden, aber sie werden in der Abschlussprüfung Fragen dazu haben, um zu testen, ob sie im Unterricht anwesend und wach waren.

  • 00:05:00 In diesem Abschnitt des Videos erklärt der Sprecher die Grundlagen genetischer Algorithmen, indem er den Prozess der genetischen Vererbung durch Chromosomen aufschlüsselt. Er vergleicht den Prozess der genetischen Vererbung mit genetischen Algorithmen und erklärt, wie er Chromosomen vereinfacht und simuliert, um ein System aufzubauen, das den genetischen Vererbungsprozess mit binären Chromosomen nachahmt. Er erklärt weiter, wie Entscheidungen innerhalb dieses Prozesses getroffen werden können, wie beispielsweise wie viele Mutationen oder Kreuzungen pro Chromosom erlaubt sind, was zu einer Population von modifizierten Chromosomen führt. Der nächste Schritt ist der Übergang vom Genotyp zum Phänotyp.

  • 00:10:00 In diesem Abschnitt erfahren wir, wie der Genotyp den Phänotyp und die unterschiedliche Fitness bestimmt, die mit jedem Individuum einhergeht. Sobald die Fitness bewertet ist, können Informatiker Zahlen verwenden, um die Wahrscheinlichkeiten des Überlebens in der nächsten Generation zu berechnen. Um sicherzustellen, dass sich die Wahrscheinlichkeiten zu eins addieren, benötigen wir ein Wahrscheinlichkeitsmaß, das aus den Fitnessen erzeugt wird. Beim Konstruieren eines genetischen Algorithmus, der nach optimalen Werten in einem Raum mit einer Funktion von x und y sucht, wird die Eignung durch den Sinus einer Konstanten mal x, der Menge zum Quadrat, mal dem Sinus einer Konstanten y, der Menge zum Quadrat, e bis bestimmt das Plus x plus y dividiert durch eine Konstante.

  • 00:15:00 In diesem Abschnitt erklärt Patrick Winston, wie genetische Algorithmen funktionieren und wie sie sich entwickeln. Er skizziert den Prozess der Mutation und des Crossovers und wie sie verwendet werden können, um Populationen auf dem Fitnessdiagramm nach oben zu entwickeln. Anhand eines Beispiels demonstriert er, wie genetische Algorithmen aufgrund ihres grundlegenden Hill-Climbing-Mechanismus an lokalen Maxima hängen bleiben können. Die Schüler schlagen vor, Crossover zu verwenden, aber selbst das scheint nicht zu funktionieren. Trotzdem weist Winston darauf hin, wie wichtig es ist, offen für Ideen zu bleiben, die zunächst nicht effektiv erscheinen.

  • 00:20:00 In diesem Abschnitt untersucht der Dozent das Konzept, Fitness in die Überlebenswahrscheinlichkeit umzuwandeln, und betont, dass die Verwendung eines tatsächlichen Fitnessmerkmals nicht unbedingt effektiv sein muss. Daher schlägt er vor, dass eine Rangordnung der Kandidaten basierend auf ihrem Fitnessniveau ein besserer Ansatz sein könnte. Er erklärt diesen Mechanismus im Detail, indem er erklärt, dass die Wahrscheinlichkeit, dass das ranghöchste Individuum in die nächste Generation gelangt, durch eine Konstante bestimmt wird. Darüber hinaus führt er 100 Generationen durch, um diese Methode zu testen, und erklärt die Ergebnisse, indem er die Wirksamkeit der Strategie bei korrekter Ausführung zeigt.

  • 00:25:00 In diesem Abschnitt diskutiert das Video, wie genetische Algorithmen manchmal in lokalen Maxima stecken bleiben und einen Weg brauchen, um die Diversität zu erhöhen, um eine bessere Lösung zu finden. Das ist ähnlich wie bei einigen Arten, die sich über Millionen von Jahren nicht weiterentwickeln. Anschließend wird die Simulated-Annealing-Technik eingeführt, um die Schrittgröße allmählich zu verringern und eine Lösung zu finden. Das Video zeigt jedoch, dass manchmal simuliertes Abkühlen nicht ausreicht, um einem lokalen Maximum zu entkommen, und dass ein neuer Mechanismus benötigt wird, um die Diversität innerhalb der Population zu erhöhen. Das Video schlägt vor, die Vielfalt der Bevölkerung zu messen und Personen nicht nur auf der Grundlage ihrer Fitness, sondern auch ihrer Einzigartigkeit gegenüber anderen bereits ausgewählten Personen auszuwählen.

  • 00:30:00 In diesem Abschnitt verwendet der Sprecher eine Kombination aus Fitness-Rang und Diversitäts-Rang, um zu demonstrieren, wie genetische Algorithmen mit einer kleinen Schrittgröße funktionieren und über 100 Generationen laufen. Indem es in die obere rechte Ecke kriecht, hält das Diversity-Stück die Dinge verteilt und findet gleichzeitig eine hohe Fitness. Wenn die Diversität abgeschaltet wird, dauert es 600 Millionen Jahre. Es funktioniert jedoch gut, wenn es um das Moat-Problem geht, da es über einen Crossover-Mechanismus verfügt, um das Beste aus x und y zu kombinieren. Der Redner erklärt, wie Mutation im Grunde Bergsteigen macht und dass es Wahlmöglichkeiten gibt, wie damit umzugehen ist, einschließlich der Frage, wie viel Crossover zu tun ist. Aber der Redner merkt an, dass genetische Algorithmen nur eine sehr naive Vorstellung von Evolution erfassen, dass im Übergang vom Genotyp zum Phänotyp immer noch viel Magie steckt, die niemand vollständig versteht, was den Designern viel Eingriff überlässt.

  • 00:35:00 In diesem Abschnitt diskutiert der Sprecher einige praktische Anwendungen genetischer Algorithmen. Ein Beispiel ist die Planung, bei der zwei Gruppen von Schritten kombiniert werden können, um einen neuen Plan zu erstellen. Ein weiteres Beispiel ist das Projekt eines Studenten zum Aufbau eines regelbasierten Expertensystems, das die Gewinner von Pferderennen vorhersagt, indem es Mutationen und Crossovers verwendet, um die Regeln weiterzuentwickeln. Der Sprecher demonstriert auch die Evolution von Kreaturen, die aus blockartigen Objekten bestehen, wobei verschiedene Bits im Chromosom als Anzahl, Größe, Struktur und Kontrolle der Objekte interpretiert werden. Die Vielfalt der Kreaturen wird gemessen, indem der metrische Abstand aller Kandidaten für die nächste Generation berechnet wird.

  • 00:40:00 In diesem Abschnitt erklärt Patrick Winston, wie genetische Algorithmen funktionieren, indem er die Überlebenswahrscheinlichkeit und die Wahrscheinlichkeit, in eine Rangliste aufgenommen zu werden, basierend darauf kombiniert, wie unterschiedlich sie sich von Individuen der nächsten Generation sind. Anschließend demonstriert er ein Beispiel dieser Algorithmen mit einem Video von schwimmenden Kreaturen, die sich danach entwickelt haben, wie schnell sie gehen können und wie sie sich an Land bewegen. Das Video zeigt Kreaturen, die sich gemeinsam entwickeln und um Nahrung konkurrieren. Einige Kreaturen haben es geschafft, exotische Methoden zu entwickeln, aber andere waren verwirrt und haben das Essen vergessen. Das Video ist ein Beispiel dafür, was mit superstarken Computern erreicht werden kann, wie sie von der Firma verwendet werden, die das Video erstellt hat.

  • 00:45:00 In diesem Abschnitt reflektiert der Dozent die Ursprünge genetischer Algorithmen und ihren Erfolg bei der Generierung von Lösungen für verschiedene Probleme. Er stellt fest, dass die Algorithmen zwar beeindruckend sind, der wahre Verdienst jedoch in der Reichhaltigkeit des Lösungsraums und dem Einfallsreichtum des Programmierers liegen könnte. Diversität wird auch als Schlüsselkomponente in erfolgreichen genetischen Algorithmusberechnungen hervorgehoben.
13. Learning: Genetic Algorithms
13. Learning: Genetic Algorithms
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonThis lecture explores genetic alg...
 

Vorlesung 14. Lernen: Spärliche Räume, Phonologie



14. Lernen: Sparse Spaces, Phonologie

In diesem Abschnitt des Videos stellt Professor Winston das Konzept von Sparse Spaces und Phonologie als Mechanismen im Zusammenhang mit der Erforschung des menschlichen Lernens vor. Er diskutiert das Zusammenspiel zwischen dem, was wir sehen und dem, was wir hören, wenn es um das Sprachenlernen geht, und zeigt anhand von Beispielen, wie visuelle Hinweise das beeinflussen können, was wir in der Sprache wahrnehmen. Der Sprecher erklärt die Elemente und Verbindungen einer Maschine, die entwickelt wurde, um Sprachlaute zu erkennen und zu erzeugen, einschließlich Register, eine Reihe von Wörtern, Einschränkungen und einen Puffer für Phoneme. Er erklärt auch die Technik der Verallgemeinerung von Mustern in der Phonologie anhand positiver und negativer Beispiele, aus denen man lernen kann, indem er ein Beispiel aus dem Klassenzimmer verwendet, in dem er die charakteristischen Merkmale betrachtet, die mit den Wörtern „Katzen“ und „Hunde“ verbunden sind. Abschließend erörtert er die Bedeutung der Schaffung von Einschränkungen, die der Funktion des Mechanismus entsprechen, und der Einbeziehung einer visuellen Darstellung, um ein Problem besser zu verstehen und zu lösen.

  • 00:00:00 In diesem Abschnitt des Videos stellt Professor Winston zwei Mechanismen oder Ideen im Zusammenhang mit dem Lernen vor, Sparse Spaces und Phonology. Bevor er diese diskutiert, gibt er einen kurzen Überblick über einige grundlegende Methoden, einschließlich nächster Nachbarn und Identifikationsbäume, und einige biologische Nachahmer, wie neuronale Netze und genetische Algorithmen. Er erklärt, dass letztere zwar nicht immer effektiv sind, es sich aber dennoch lohnt, etwas über sie zu lernen. Professor Winston konzentriert sich dann auf Mechanismen im Zusammenhang mit der Erforschung, wie Menschen lernen, und insbesondere, wie wir in der Lage sind, Pluralwörter in Sprachen, die wir später im Leben gelernt haben, zu identifizieren und zu bilden. Er verwendet Beispiele, um zu veranschaulichen, dass Personen wie Krishna Wörter im Englischen pluralisieren können, ohne überhaupt zu bemerken, dass sie es richtig tun, und dann spricht er darüber, wie solche Phänomene aus technischer Sicht angegangen werden können.

  • 00:05:00 In diesem Abschnitt lernen wir phonologische Regeln kennen und wie sie von einer Maschine erfasst werden. Die Phonologie befasst sich mit Silben- und Untersilbenlauten, und phonologische Regeln bestimmen, welches Laut oder welche Kombination binärer Merkmale eine Person sagt. Es gibt ungefähr 14 Unterscheidungsmerkmale, die bestimmen könnten, welches Laut ausgesprochen wird, was ungefähr 16.000 mögliche Kombinationen in einer Sprache ergibt. Keine Sprache hat jedoch mehr als 100 Laute, und einige Auswahlmöglichkeiten sind aus physikalischen Gründen ausgeschlossen, was seltsam ist, da die meisten von ihnen dies nicht sind. Es ist faszinierend zu sehen, wie viele dieser charakteristischen Merkmale halluziniert oder von anderen Modalitäten in die Rückkopplungsschleife eingespeist werden, und der McGurk-Effekt zeigt, wie oft eine Trennung zwischen Sprache und Video besteht.

  • 00:10:00 In diesem Abschnitt erläutert der Referent das Zusammenspiel zwischen dem, was wir sehen und dem, was wir hören, wenn es um das Sprachenlernen geht. Am Beispiel deutscher und englischer Kuhlaute diskutiert er, wie die visuellen Hinweise unsere Wahrnehmung beeinflussen können. Anschließend gibt er einen Einblick in das, was Phonologen über Unterscheidungsmerkmale wissen, die phonemische Sequenzen für Wörter wie "Äpfel" bilden. In den Spalten unten enthält es die Merkmale wie stimmhaft, syllabisch oder schrill, und wenn wir rübergehen, haben wir Zeit. Der Sprecher spricht auch über die Maschine, die Klänge und Dinge interpretiert, die Menschen sehen, um Sprachklänge zu erzeugen, die entscheiden würden, dass es da draußen zwei Äpfel gibt, die in Registern gespeichert sind, die Werte für Konzepte wie Substantiv, Verb und Plural enthalten.

  • 00:15:00 In diesem Abschnitt erklärt der Sprecher die Elemente und Verbindungen einer Maschine, die entwickelt wurde, um Sprachlaute zu erkennen und zu erzeugen. Die Maschine besteht aus Registern, einem Wortsatz, Beschränkungen und einem Puffer für Phoneme. Der Plural-Constraint ist der primäre Fokus, da er die Fähigkeit hat, sich selbst zu betätigen, wenn er Plural-Dinge beobachtet. Durch die Ports, die die Elemente verbinden, können Informationen in mehrere Richtungen fließen. Der Sprecher demonstriert dann, wie die Maschine reagiert, wenn ihm das Konzept der „zwei Äpfel“ präsentiert wird, und beschreibt den Informationsfluss vom Visionssystem zum Wortlexikon und Pluralregister.

  • 00:20:00 In diesem Abschnitt des Videos erklärt der Sprecher, wie eine Maschine phonologische Regeln verwenden kann, um die Vorstellung auszudrücken, dass Äpfel im Blickfeld sind. Die Maschine verwendet reversible Verbindungen und Propagatoren, die in Einschränkungen ausgedrückt werden, wodurch Informationen in jede Richtung fließen können. Die große Frage ist jedoch, wie man diese Regeln lernt. Dafür liefert der Sprecher ein einfaches Unterrichtsbeispiel, in dem er sich die Unterscheidungsmerkmale ansieht, die mit den Wörtern „Katzen“ und „Hunde“ verbunden sind, wie z.

  • 00:25:00 In diesem Abschnitt diskutiert das Video die Bildung von Pluralwörtern in der englischen Sprache und untersucht, warum einige Wörter einen „s“-Laut und andere einen „z“-Laut annehmen. Das Video erklärt, dass dies auf den spärlichen Phonemraum zurückzuführen ist, mit nur 40 möglichen Phonemen unter den 14.000 möglichen Auswahlmöglichkeiten. Darüber hinaus erklärt das Video, wie das Problem rechnerisch angegangen und schließlich auf einen Algorithmus reduziert wurde, der das Sammeln positiver und negativer Beispiele zum Lernen beinhaltete.

  • 00:30:00 In diesem Abschnitt erklärt der Sprecher eine Methode zur Verallgemeinerung von Mustern in der Phonologie unter Verwendung eines positiven Beispiels, das als Saat bezeichnet wird, und schrittweiser Umwandlung einiger Elemente in belanglose Symbole, bis ein negatives Beispiel abgedeckt ist. Die Technik besteht darin, Stellen in der Phonemmatrix auszuwählen, die keine Rolle spielen und die am wenigsten wahrscheinlich das Ergebnis der Pluralisierung beeinflussen. Eine Suchtechnik wird verwendet, um zu entscheiden, welche dieser Verallgemeinerungen vorgenommen werden sollen, wobei benachbarte Phoneme die einflussreichsten sind. Ein phonologisches Beispiel wird unter Verwendung einer Matrix mit 14 Unterscheidungsmerkmalen bereitgestellt, wobei das entscheidende Merkmal, das positive und negative Beispiele trennt, das stimmlose und nicht laute Merkmal des letzten Lauts in dem Wort ist, das in den Plural gesetzt wird, was zu einem „ss“ führt. Klang.

  • 00:35:00 In diesem Abschnitt diskutiert der Sprecher weitere Experimente mit dem System und erklärt, dass es durch die Verwendung einer Strahlsuche einen hochdimensionalen, spärlichen Raum kontrolliert. Diese Technik wird verwendet, um Sätze positiver Beispiele von negativen Beispielen zu trennen und dem System beizubringen, wie es mit unterschiedlichen Pluralisierungsszenarien in der Phonetik umgehen soll. Dieser Ansatz wird durch die Verwendung verschiedener Beispiele erläutert, wie etwa ein-, zwei- und dreidimensionale Räume, und wie eine Hyperebene in solchen Beispielen verwendet werden könnte, um verschiedene Datensätze zu trennen.

  • 00:40:00 In diesem Abschnitt schlagen Sussman und Yip vor, dass die menschliche Sprache einen spärlichen Phonemraum verwendet. Dies liegt daran, dass es die Erlernbarkeit erhöht, und wenn die Sprache gleichmäßig nach dem Zufallsprinzip platziert wird, stellt es sicher, dass die Phoneme leicht getrennt werden können. Vokale sind jedoch schwer zu trennen, da sie im Vergleich zu den konstanten Lauten nur ein Unterscheidungsmerkmal haben. Dieses Beispiel zeigt, wie man KI auf eine Weise macht, die mit dem Katechismus von Marr übereinstimmt, indem man mit dem Problem beginnt, dem Problem einzigartige Merkmale hinzufügt, einen Ansatz entwickelt, einen Algorithmus schreibt und schließlich ein Experiment durchführt.

  • 00:45:00 In diesem Abschnitt des Videos erklärt der Sprecher, wie es nicht gut funktionieren wird, einen Mechanismus wie neuronale Netze dazu zu zwingen, ein bestimmtes Problem zu lösen, das nicht zu seiner Funktion passt. Der Schlüssel zum Finden einer guten Darstellung besteht darin, Einschränkungen zu schaffen, die durch die Darstellung offengelegt werden, was eine bessere Verarbeitung und einen klareren Weg zu einer Lösung ermöglicht. Darüber hinaus ist es wichtig, eine Darstellung zu haben, die ein Lokalitätskriterium enthält, was bedeutet, dass die Beschreibung der Antwort durch einen Soda-Strohhalm-ähnlichen Ansatz sichtbar ist, was das Verständnis des Problems erleichtert. Letztendlich macht eine gute Darstellung einen zu einem klügeren Ingenieur und Wissenschaftler, was es ihnen ermöglicht, Mechanismen nicht auf naive Weise zu untersuchen, was niemals zu zufriedenstellenden Lösungen führen wird.
14. Learning: Sparse Spaces, Phonology
14. Learning: Sparse Spaces, Phonology
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWhy do "cats" and "dogs" end with...
 

Vorlesung 15. Lernen: Beinaheunfälle, Glücksbedingungen



15. Lernen: Beinaheunfälle, Glücksbedingungen

In diesem Video erörtert Professor Patrick Winston das Konzept des Lernens aus Beinaheunfällen und Glücksbedingungen. Er verwendet verschiedene Beispiele, darunter den Bau eines Bogens und die Identifizierung der spezifischen Einschränkungen, die erforderlich sind, damit er als Bogen betrachtet werden kann. Er erklärt auch, wie ein Computerprogramm mithilfe von heuristischem Lernen Schlüsselmerkmale eines Zuges identifizieren könnte. Der Referent betont die Bedeutung von Selbsterklärung und Geschichtenerzählen, insbesondere wie die Einbindung von beidem in Präsentationen eine Idee hervorstechen und berühmt machen kann. Letztendlich ist er der Meinung, dass es beim Verpacken von Ideen nicht nur um KI geht, sondern auch darum, gute Wissenschaft zu betreiben, sich schlauer zu machen und berühmter zu werden.

  • 00:00:00 In diesem Abschnitt erklärt Professor Patrick Winston eine neue Möglichkeit, aus einem einzigen Beispiel in einem Schuss zu lernen. Am Unterrichtsbeispiel eines Bogens wird demonstriert, wie man anhand eines Modells aus jedem Beispiel etwas Bestimmtes lernen kann und was er einen „Beinaheunfall“ nennt. Dabei wird von allen unwichtigen Details wie Höhe und Material abstrahiert, um Informationen über Fehler auf der Oberfläche zu unterdrücken und die Struktur explizit zu machen. Dieser Ansatz führt letztendlich zu einem effizienteren Lernen und hat Auswirkungen auf das menschliche Lernen und Klügerwerden.

  • 00:05:00 In diesem Abschnitt wird das Konzept des Lernens aus Beinaheunfällen und Glücksbedingungen diskutiert. Der Sprecher verwendet das Beispiel des Baus eines Bogens, um den Punkt zu veranschaulichen. Während sie verschiedene Beispiele für Bögen und Beinaheunfälle durchgehen, beginnen sie, die spezifischen Einschränkungen zu identifizieren, die erforderlich sind, damit etwas wirklich als Bögen betrachtet werden kann. Vom Vorhandensein unterstützender Beziehungen bis zum Verbot von Berührungsbeziehungen skizziert der Referent die Schlüsselelemente des Brückenbaus. Darüber hinaus wird die Farbe der Bogenspitze als Imperativ gekennzeichnet. Durch diesen Prozess der Identifizierung dessen, was notwendig ist und was nicht, hebt der Redner hervor, wie die Einschränkungen in wenigen Schritten erlernt werden können, anstatt durch unzählige Versuche.

  • 00:10:00 In diesem Abschnitt erklärt der Sprecher, wie man ein neues Modell erstellt, indem man die Natur der Welt berücksichtigt, in der man arbeitet. Zum Beispiel in einer Flaggenwelt, in der nur drei Farben verfügbar sind, wenn alle Farben vorhanden sind gesehen, wird das sich entwickelnde Modell entsprechend angepasst. Der Referent stellt Beispiele für Kinderblockaden vor und erklärt, wie die Hierarchie der Teile dargestellt werden kann, um eine konservative Verallgemeinerung zu erreichen. Der Sprecher kontrastiert dann diese Art des Lernens mit neuronalen Netzen und stellt eine Beispielaufgabe für Menschen vor, bei der es darum geht, die oberen Züge zu beschreiben, die sie von den unteren Zügen unterscheiden und trennen.

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie ein Computerprogramm die Schlüsselmerkmale eines Zuges mit geschlossenem Verdeck durch einen heuristischen Lernprozess identifizieren könnte. Dem Programm werden Sätze positiver und negativer Beispiele gegeben, und ein "Start"-Beispiel wird ausgewählt, um mit dem Aufbau einer Beschreibung zu beginnen, die so viele positive Beispiele wie möglich abdeckt, während negative ausgeschlossen werden. Die auf den Seed angewendeten Heuristiken oder Regeln können auf verschiedene Weise kombiniert werden, um einen großen Baum möglicher Lösungen zu bilden, der mit Techniken wie der Strahlsuche unter Kontrolle gehalten werden muss. Der Referent stellt auch ein Vokabular für die Heuristiken vor, die von seinem Freund entwickelt wurden, einschließlich der „require link“-Heuristik, die dabei hilft, wesentliche Merkmale eines Modells zu identifizieren.

  • 00:20:00 In diesem Abschnitt erklärt Professor Patrick Winston, wie die verschiedenen Heuristiken wie „Verknüpfung verbieten“, „Satz erweitern“, „Verknüpfung löschen“ und „Baum erklimmen“ verwendet werden können, um das Lernen zu spezialisieren oder zu verallgemeinern . Er geht auch auf die Idee von Beinaheunfällen und Beispielen ein und wie sie mit Verallgemeinerung und Spezialisierung zusammenhängen. Die Verwendung dieser Heuristiken kann dabei helfen, weniger oder mehr Dinge zuzuordnen, und kann je nach Problem besser für Menschen oder für Computer mit größerem Speicher geeignet sein. Welche Methode besser ist, hängt von dem spezifischen Problem ab, das man zu lösen versucht.

  • 00:25:00 Bedeutung von Beinaheunfällen und Glücksbedingungen im Lernprozess. In diesem Abschnitt erklärt Professor Patrick Winston, wie Lehrer und Schüler Bündnisse schließen müssen, die zwischen ihnen bestehen, um den anfänglichen Wissensstand des Schülers in einen neuen Wissensstand umzuwandeln. Durch die Verwendung eines Netzwerkmodells, das den Wissensstand des Schülers darstellt, kann der Lehrer die Fehlertypen des Schülers identifizieren und entsprechendes Feedback geben. Dadurch kann der Lehrer die Wellenfront des Schülerwissens effektiv nach außen schieben und die Fähigkeit des Schülers verbessern, neue Informationen zu lernen und anzuwenden.

  • 00:30:00 In diesem Abschnitt erörtert der Referent, wie wichtig es ist, die Rechenleistung des Schülers zu verstehen, wenn er unterrichtet wird. Dies beinhaltet die Berücksichtigung der eingeschränkten Fähigkeit eines Drittklässlers, Informationen im Vergleich zu einem Computer zu speichern. Sie sprechen auch darüber, dass Bündnisse wie Vertrauen und Verständnis für den Stil des Lehrers notwendig sind, damit ein Schüler effektiv lernen kann. Der Referent erklärt weiter, wie wichtig Selbstgespräche oder Gebäudebeschreibungen für das Lernen sind. Ein von Michelene Chi durchgeführtes Experiment zeigte die Vorteile von Selbstgesprächen beim Lernen über elementare Physik.

  • 00:35:00 In diesem Abschnitt liegt der Schwerpunkt darauf, wie Selbsterklärung die Fähigkeit zur Problemlösung beeinflussen kann. Die klügsten Personen, die doppelt so viele Punkte erzielten wie die weniger intelligenten, redeten dreimal so viel mit sich selbst wie die Teilnehmer in der Gruppe mit den niedrigeren Punkten. Die Selbsterklärung kann in zwei Kategorien unterteilt werden, diejenigen, die sich auf die Physik beziehen, und andere, die sich auf die Überwachung statt auf die Physik beziehen. Je mehr jemand mit sich selbst spricht, desto besser scheint er beim Problemlösen zu punkten. Es gibt zwar keinen klaren Hinweis darauf, dass es funktioniert, mit sich selbst zu sprechen, um bessere Ergebnisse zu erzielen, aber anekdotische Beweise deuten darauf hin, dass es hilfreich sein könnte, mehr mit sich selbst zu sprechen. Abschließend bewegt sich die Diskussion zu Verpackungsideen, die besonders nützlich sind, wenn Sie möchten, dass Ihre Idee bekannt ist, und fünf Qualitäten, die den Prozess unterstützen, beginnend mit der Notwendigkeit eines Symbols oder visuellen Griffs, der mit Ihrer Arbeit verbunden ist.

  • 00:40:00 In diesem Abschnitt erörtert Professor Patrick Winston die Bedeutung einer Überraschung und einen herausragenden Punkt, um eine Idee bekannt zu machen. Er erklärt, dass eine gute Idee etwas Herausragendes haben muss, um berühmt zu werden, und dass es wichtig ist, eine Geschichte in Präsentationen einzubauen, die das Publikum ansprechen kann. Darüber hinaus präzisiert er den Begriff „herausragend“, indem er feststellt, dass er zwar Bedeutung anzeigt, aber ausdrücklich „herausragen“ bedeutet. Er schlägt vor, dass es bei Bildung im Wesentlichen um das Erzählen von Geschichten geht, und fordert Einzelpersonen auf, diese Eigenschaften in ihre Präsentationen aufzunehmen, um sie effektiver zu machen. Letztendlich glaubt er, dass es nicht unmoralisch ist, berühmt zu sein, solange die Ideen gut verpackt sind, um die besten Erfolgschancen zu haben.

  • 00:45:00 In diesem Abschnitt erzählt der Sprecher eine Geschichte darüber, wie er neben Julia Child sitzt und sie fragt, ob sie berühmt ist. Kind antwortete, dass man sich daran gewöhne, was den Sprecher über die gegenteilige Erfahrung des Ignorierens nachdenken ließ. Er betont, wie wichtig Verpackungsideen sind und dass es nicht nur um KI geht, sondern auch darum, gute Wissenschaft zu betreiben, sich schlauer und berühmter zu machen.
15. Learning: Near Misses, Felicity Conditions
15. Learning: Near Misses, Felicity Conditions
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonTo determine whether three blocks...
 

Vorlesung 16. Lernen: Unterstützungsvektormaschinen



16. Lernen: Vektormaschinen unterstützen

Im Video erläutert Patrick Winston, wie Support Vector Machines (SVM) funktionieren und wie sie zur Optimierung einer Entscheidungsregel eingesetzt werden können. Er erklärt, dass der SVM-Algorithmus eine Transformation, Phi, verwendet, um einen Eingabevektor, x, in einen neuen Raum zu verschieben, wo es einfacher ist, zwei ähnliche Vektoren zu trennen. Die Kernfunktion k liefert das Skalarprodukt von x sub i und x sub j. Alles, was benötigt wird, ist die Funktion k, die eine Kernfunktion ist. Vapnik, einem sowjetischen Einwanderer, der Anfang der 1990er Jahre an SVM arbeitete, wird zugeschrieben, die Kernel-Idee wiederbelebt und zu einem wesentlichen Bestandteil des SVM-Ansatzes gemacht zu haben.

  • 00:00:00 Support-Vektor-Maschinen sind eine ausgeklügelte Art, einen Raum aufzuteilen, um Entscheidungsgrenzen zu bestimmen. Sie wurden von Vladimir Vapnik entwickelt und sind eine große Sache, weil sie eine genauere Entscheidungsfindung ermöglichen.

  • 00:05:00 Das Video erläutert, wie Support-Vektor-Maschinen funktionieren, und bietet eine Entscheidungsregel dafür, wann eine Probe positiv oder negativ ist.

  • 00:10:00 In diesem Video stellt Patrick Winston das Konzept einer Support Vector Machine (SVM) vor, einem maschinellen Lernalgorithmus, der dabei hilft, eine optimale Lösung für ein Problem zu finden. Die erste Gleichung in einer SVM ist eine Kostenfunktion, bei der es sich um eine Funktion handelt, die einen Vektor von Variablen aufnimmt und eine Zahl ausgibt. Die Kostenfunktion wird mit einem Gewichtungsvektor multipliziert, der ein Vektor ist, der der Wichtigkeit jeder Variablen in der Kostenfunktion entspricht. Die zweite Gleichung in einer SVM ist das Optimierungsproblem, bei dem es sich um eine Funktion handelt, die die Kostenfunktion und einen Gewichtsvektor aufnimmt und versucht, die beste Lösung zu finden. Das Optimierungsproblem wird durch Minimierung der Kostenfunktion gelöst. Die letzte Gleichung in einer SVM ist der Ausgabevektor, der die Ausgabe der SVM ist.

  • 00:15:00 Das Video diskutiert die Verwendung von Support-Vektor-Maschinen (SVM) zur Lösung von Problemen und zeigt, wie die Breite einer Straße mit dieser Technik berechnet wird.

  • 00:20:00 In diesem Video erläutert Patrick Winston, wie Lagrange-Multiplikatoren funktionieren, um eine Funktion mit Nebenbedingungen zu optimieren. Das Video behandelt auch, wie Lagrange-Multiplikatoren verwendet werden, um das Extremum einer Funktion mit Nebenbedingungen zu finden.

  • 00:25:00 In diesem Video wird festgestellt, dass eine lineare Summe von Samples gleich einer linearen Summe der Komponenten der Samples ist. Außerdem werden die Ableitungen der Lagrange-Funktion in Bezug auf verschiedene Variablen differenziert, und es wird gezeigt, dass die Summe von Alpha i mal y sub i gleich 0 ist, was impliziert, dass der Vektor w gleich der Summe von etwas Alpha ist i, einige Skalare, mal dies minus 1 oder plus 1 Variable mal x sub i über i.

  • 00:30:00 In diesem Video erklärt er, wie man ein quadratisches Optimierungsproblem mit Hilfe von Support Vector Machines löst. Es wird erklärt, dass der Entscheidungsvektor eine lineare Summe der Abtastwerte ist und dass die Algebra einfach ist. Der Schüler erklärt, dass die Algebra für jeden Term in der Aufgabe vereinfacht wird, indem die Summe von Alpha i mal y sub i mal x sub i genommen wird.

  • 00:35:00 In diesem Video erklärt ein Mathematiker, wie die Optimierung einer Entscheidungsregel nur vom Skalarprodukt von Stichprobenpaaren abhängt. Dies zeigt, dass die mathematische Analyse durchführbar ist und dass der Optimierungsalgorithmus eine gerade Linie findet, die die beiden optimalen Lösungen trennt.

  • 00:40:00 In Support-Vektor-Maschinen wird eine Transformation, Phi, verwendet, um einen Eingabevektor, x, in einen neuen Raum zu verschieben, wo es einfacher ist, zwei ähnliche Vektoren zu trennen. Die Kernfunktion k liefert das Skalarprodukt von x sub i und x sub j. Alles, was benötigt wird, ist die Funktion k, die eine Kernfunktion ist.

  • 00:45:00 Das Video erläutert, wie Support Vector Machines (SVM) funktionieren und wie ein Kernel verwendet werden kann, um die Leistung von SVM zu verbessern. Vapnik, einem sowjetischen Einwanderer, der Anfang der 1990er Jahre an SVM arbeitete, wird zugeschrieben, die Kernel-Idee wiederbelebt und zu einem wesentlichen Bestandteil des SVM-Ansatzes gemacht zu haben.
16. Learning: Support Vector Machines
16. Learning: Support Vector Machines
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we explore suppo...
 

Vorlesung 17. Lernen: Boosten



17. Lernen: Steigern

Das Video diskutiert die Idee des Boosting, bei dem mehrere schwache Klassifikatoren kombiniert werden, um einen starken Klassifikator zu erstellen. Die Idee ist, dass die schwachen Klassifikatoren abstimmen und der starke Klassifikator derjenige mit den meisten Stimmen ist. Das Video erklärt, wie Sie einen Boosting-Algorithmus verwenden, um die Leistung einzelner Klassifikatoren zu verbessern.

  • 00:00:00 Das Video diskutiert die Idee des Boostens, bei dem mehrere schwache Klassifikatoren kombiniert werden, um einen starken Klassifikator zu erstellen. Die Idee ist, dass die schwachen Klassifikatoren abstimmen und der starke Klassifikator derjenige mit den meisten Stimmen ist.

  • 00:05:00 Das YouTube-Video erklärt, wie man einen Boosting-Algorithmus verwendet, um die Leistung einzelner Klassifikatoren zu verbessern. Der Algorithmus umfasst das Trainieren jedes Klassifikators mit einem anderen Datensatz und das anschließende Kombinieren der Ergebnisse. Das Video erklärt auch, wie man Overfitting bei der Verwendung dieses Algorithmus vermeidet.

  • 00:10:00 In dem Video spricht der Sprecher darüber, wie man die Genauigkeit eines maschinellen Lernalgorithmus verbessern kann, indem man ihn „verstärkt“. Beim Boosten wird ein verzerrter Satz von Samples betrachtet, bei denen diejenigen, die der Algorithmus falsch macht, einen übertriebenen Effekt auf das Ergebnis haben. Dadurch kann der Algorithmus aus seinen Fehlern lernen und seine Genauigkeit verbessern.

  • 00:15:00 Im YouTube-Video erklärt der Sprecher, wie Boosting verwendet werden kann, um eine Reihe von Tests zu erstellen. Er erklärt auch, wie die Fehlerquote berechnet wird und wie Gewichtungen verwendet werden können, um die Auswirkungen einiger Fehler zu übertreiben.

  • 00:20:00 Der Referent erklärt, wie man einen Klassifikator baut, indem man mehrere Klassifikatoren kombiniert, von denen jeder sein eigenes Gewicht hat. Er erklärt, dass dies der Stand der Technik für Klassifikatoren ist und dass es effektiver ist, als nur Klassifikatoren zusammenzufügen.

  • 00:25:00 Das Video diskutiert die verschiedenen Schritte, die mit dem Boosting-Learning-Algorithmus verbunden sind. Diese Schritte umfassen die Auswahl eines Klassifikators, der die Fehlerrate minimiert, die Berechnung des Alpha-Werts und die Verwendung des Klassifikators zur Erstellung überarbeiteter Gewichtungen. Das übergeordnete Ziel des Algorithmus besteht darin, einen Klassifikator zu erstellen, der einen perfekten Satz von Schlussfolgerungen zu allen Beispieldaten liefert.

  • 00:30:00 Das Video erläutert, wie einer Maschine beigebracht werden kann, ihre Leistung zu steigern, indem Fehlerraten minimiert werden. Es demonstriert dies anhand einer Reihe von Beispielen, die zeigen, wie die Fehlerquote exponentiell gesenkt werden kann.

  • 00:35:00 In diesem Video erklärt der Sprecher, wie der Alphawert zur Berechnung neuer Gewichtungen verwendet wird. Er spricht darüber, wie das Programm funktioniert und wie wichtig es ist, zu wissen, wie man Mathematik macht, um bessere Wege zu finden, solche Dinge zu tun. Er erklärt auch, dass die Quadratwurzel der Fehlerrate geteilt durch 1 minus der Fehlerrate der Multiplikator für das Gewicht ist, wenn die Antwort richtig ist, und die Quadratwurzel von 1 minus der Fehlerrate geteilt durch die Fehlerrate der Multiplikator für die ist Gewicht, wenn die Antwort falsch ist.

  • 00:40:00 Die Summe der Gewichte der korrekt klassifizierten Proben beträgt 1/2 und die Summe der Gewichte der falsch klassifizierten Proben beträgt 1/2.

  • 00:45:00 Boosting ist eine Methode zur Verbesserung der Leistung von Modellen für maschinelles Lernen. Es funktioniert, indem mehrere schwache Modelle kombiniert werden, um ein stärkeres Modell zu erstellen. Boosting ist wirksam bei der Reduzierung von Overfitting und wird häufig in Bereichen wie Handschrifterkennung und Sprachverständnis verwendet.

  • 00:50:00 In diesem Video wird das Konzept des „Boostens“ erörtert, bei dem es sich um eine Methode zur Verbesserung der Leistung von Algorithmen für maschinelles Lernen handelt. Beim Boosten werden eine Reihe schwacher Klassifikatoren trainiert und dann ihre Vorhersagen kombiniert. Dies führt in der Regel zu einer erheblichen Leistungsverbesserung gegenüber der Verwendung eines einzelnen starken Klassifikators.
17. Learning: Boosting
17. Learning: Boosting
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonCan multiple weak classifiers be ...