Maschinelles Lernen und neuronale Netze - Seite 19

 

Vorlesung 18. Repräsentationen: Klassen, Trajektorien, Transitionen



18. Repräsentationen: Klassen, Trajektorien, Übergänge

In diesem Video diskutiert Professor Patrick Winston das Konzept der menschlichen Intelligenz, die Fähigkeit, symbolische Repräsentationen zu bilden, und ihre Beziehung zur Sprache sowie die Verwendung semantischer Netze zur Repräsentation innerer Sprache und Gedanken. Winston betont, wie wichtig es ist, grundlegende Muster zu verstehen und ein Vokabular für Veränderungen zu entwickeln, um zu helfen, verschiedene Objekte und ihr Verhalten zu verstehen. Darüber hinaus erörtert er die Verwendung von Trajektorienrahmen zur Beschreibung von Aktionen, die eine Bewegung von einer Quelle zu einem Ziel beinhalten, und die Bedeutung mehrerer Darstellungen für ein besseres Verständnis eines Satzes. Schließlich bietet Winston Tipps zur Verbesserung des technischen Schreibens, insbesondere für nicht-englische Muttersprachler, indem mehrdeutige Sprache, verwirrende Pronomen und das Wechseln von Wörtern vermieden werden.

  • 00:00:00 In diesem Abschnitt beginnt Patrick Winston damit, über die Natur der menschlichen Intelligenz im Vergleich zur maschinellen Intelligenz nachzudenken. Er erklärt, dass Maschinen zwar intelligente Aufgaben durch Methoden wie Support Vector Machines und Boosting ausführen können, ihnen aber das Verständnis dafür fehlt, was sie tun, und keinen Einblick in die menschliche Intelligenz bieten. Winston diskutiert dann die evolutionäre Perspektive der menschlichen Intelligenz und hebt die zunehmende Gehirngröße in unserem Stammbaum hervor. Er stellt jedoch fest, dass die Gehirngröße nicht ausreicht, um die menschliche Intelligenz zu erklären, da die Neandertaler, die größere Gehirne als moderne Menschen hatten, keinen großen Einfluss hatten. Stattdessen war es eine Gruppe von Homo Sapiens im südlichen Afrika, die etwas entwickelte, was niemand sonst hatte, und schnell übernahm, wie Werkzeuge und Kunstwerke belegen.

  • 00:05:00 In diesem Abschnitt diskutiert der Sprecher die Idee, dass die Fähigkeit, symbolische Repräsentationen zu bilden, es Menschen ermöglicht, Geschichten zu erzählen und zu verstehen. Diese Fähigkeit, die mit der Entwicklung der Sprache zusammenhängt, ließ unsere Spezies zu etwas Besonderem werden, da wir zwei Konzepte nehmen und sie unbegrenzt zu einem dritten zusammenfügen konnten. Er diskutiert auch das Konzept einer "inneren Sprache" - der Sprache, mit der wir denken, die möglicherweise nicht die gleiche ist wie die Sprache, mit der wir kommunizieren. Der Referent schlägt die Verwendung von semantischen Netzen vor, bei denen es sich um Netzwerke von Knoten und Verknüpfungen handelt, die Bedeutung vermitteln, um innere Sprache und Gedanken darzustellen. Er liefert Beispiele für semantische Netze, etwa eines, das Unterstützungsbeziehungen notiert, und eines, das die Ereignisse in Macbeth verfolgt.

  • 00:10:00 In diesem Abschnitt diskutiert der Referent das Konzept der semantischen Netze, ihre Elemente und ihre Anwendung in der künstlichen Intelligenz. Semantische Netze sind eine Möglichkeit, Informationen mithilfe von Knoten und Links darzustellen, wobei Links die Knoten verbinden. Sie ermöglichen, dass die Verbindungen zwischen Links als Objekte behandelt werden, die Gegenstand oder Objekt anderer Links sein können. Ein weiteres Konzept ist „Verdinglichung“, bei dem Links als Objekte behandelt werden. Der Referent betont, wie wichtig es ist, dem Konzept der Kombinatornetzwerke eine Lokalisierungsschicht hinzuzufügen. Die Verwendung von Klassifizierung ist eines der nützlichsten Elemente in der inneren Sprache semantischer Netze und gilt für Dinge wie Klaviere, Werkzeuge und Karten. Es besteht auch die Gefahr einer parasitären Semantik, bei der wir unser Verständnis auf die Maschine projizieren, die in keinem Kontakt mit der physischen Welt verankert ist.

  • 00:15:00 In diesem Abschnitt diskutiert Professor Patrick Winston das Konzept der Ebenen in unserem Verständnis von Objekten. Er betont, dass wir auf verschiedenen Ebenen über verschiedene Dinge Bescheid wissen und dass einige Objekte aufgrund der Spezifität ihrer Kategorisierung leichter zu visualisieren sind als andere. Beispielsweise ist es schwierig, sich ein Bild von einem Werkzeug zu machen, aber ein Kugelhammer ist spezifischer und daher leichter zu visualisieren. Winston bemerkt auch, dass wir Elemente in einer Hierarchie verwenden, um Wissen über Objekte aufzuhängen, und die grundlegende Ebene in einer Hierarchie ist, wo wir das meiste unseres Wissens aufhängen, wie das Wort „Klavier“. Darüber hinaus erörtert Winston, wie wir über Objekte auf verschiedenen Ebenen in einer Hierarchie sprechen, am Beispiel eines Autos, das gegen eine Wand prallt, was das Nachdenken über verschiedene Dinge wie die Geschwindigkeit des Autos, den Abstand zur Wand und den Zustand der Wand beinhaltet Auto.

  • 00:20:00 In diesem Abschnitt erörtert der Referent, wie ein Vokabular der Veränderung verwendet werden kann, um Objekte in verschiedenen Zeiträumen zu verstehen, z. B. vor, während und nach einem Ereignis wie einem Autounfall. Das Vokabular umfasst Elemente wie Abnahme, Zunahme, Veränderung, Erscheinen und Verschwinden, die alle stark mit dem Sehen verbunden sind. Analogien werden auch verwendet, um verschiedene Konzepte zu verstehen, z. B. wie eine Kamera funktioniert. Der Sprecher führt auch die Trajektorie als drittes Repräsentationselement ein, bei dem sich Objekte entlang von Trajektorien bewegen. Insgesamt betont der Referent, wie wichtig es ist, grundlegende Muster zu verstehen und eine Sprache zu entwickeln, die uns helfen kann, verschiedene Objekte und ihr Verhalten zu verstehen.

  • 00:25:00 In diesem Abschnitt erörtert der Sprecher die Verwendung von Trajektorienrahmen zur Beschreibung von Aktionen, die eine Bewegung von einer Quelle zu einem Ziel beinhalten. Diese Rahmen bestehen aus verschiedenen Elementen, darunter unter anderem dem Objekt, dem Agenten und dem Instrument. Der Sprecher merkt an, dass Präpositionen häufig verwendet werden, um diese Elemente in Sprachen wie Englisch zu schmücken. Darüber hinaus diskutiert der Referent Rollenrahmen, denen eine Trajektorie fehlt, die aber dennoch Elemente wie Instrumente und Begünstigte enthalten. Der Referent erklärt, dass diese Frames häufig im Wall Street Journal Corpus zu finden sind und verwendet werden können, um die Dichte von Übergängen und Trajektorien in einem bestimmten Text zu analysieren. Abschließend stellt der Referent das Konzept der Story-Sequenzen vor und gibt ein Beispiel für einen geschlechtsneutralen Namen, der gewählt wurde, um Ärger zu vermeiden.

  • 00:30:00 In diesem Abschnitt diskutiert das Video die Bedeutung mehrerer Repräsentationen und wie sie zu einem besseren Verständnis eines Satzes führen können. Das gegebene Beispiel ist von Pat, der Chris tröstet, der in einen Rollenrahmen und einen Übergangsrahmen zerlegt werden kann, der ein Objekt (Chris) beinhaltet, dessen Stimmung vermutlich verbessert wird. Das Video untersucht auch, wie sich das Ändern der Aktion auf etwas Negatives (z. B. Terrorisieren) auf die Frames auswirken würde. Darüber hinaus führt das Video die Idee eines Trajektorienrahmens als eine Art mentales Bild ein, das aus einem Satz wie „Pat hat Chris geküsst“ gebildet werden kann.

  • 00:35:00 In diesem Abschnitt erörtert Professor Jordan Peterson, wie Menschen Abfolgen von Ereignissen verwenden, um eine Darstellung einer Geschichte zu erstellen. Er erklärt, wie diese Darstellung von einer einfachen Handlung wie Küssen oder Stechen bis hin zu komplexen Geschichten reichen kann und wie sie je nach Kontext, in dem ein Ereignis stattfindet, variiert. Er spricht auch über die Bedeutung der Sequenz beim Geschichtenerzählen und wie unser Gedächtnis in der Idee von Sequenzen verwurzelt ist. Schließlich erörtert er, wie Bibliotheken mit Geschichten Menschen dabei helfen können, mehr über die Geschichten zu verstehen, denen sie begegnen, basierend auf der Superklasse, zu der sie gehören, wie z. B. Ereignisrahmen, Katastrophenrahmen und Partyrahmen.

  • 00:40:00 In diesem Abschnitt erläutert der Sprecher, wie Ereignisse in Arten von Frames gruppiert werden können, z. B. Partys und Katastrophen. Jeder Rahmen hat bestimmte Slots, die mit Arten von Informationen gefüllt werden, wie z. B. Todesfällen oder den Namen von Braut und Bräutigam. Das Verstehen von Geschichten kann jedoch aufgrund syntaktischer Herausforderungen in Pronomen-Antezedenzien schwierig sein. Der Sprecher betont, wie wichtig es ist, dem Geschichtenerzählen keine unnötigen syntaktischen Schwierigkeiten hinzuzufügen, da dies das Verständnis behindern kann. Zeitungsjournalisten schreiben Geschichten auf klare und prägnante Weise, um sicherzustellen, dass die Leser die Informationen leicht verstehen können.

  • 00:45:00 In diesem Abschnitt bietet Patrick Winston Tipps zur Verbesserung des technischen Schreibens, insbesondere für russische und deutsche Autoren, die klar auf Englisch schreiben möchten. Er schlägt vor, Pronomen zu vermeiden, um Mehrdeutigkeit und Verwirrung für die Leser zu verringern, und stattdessen klare Substantive zu verwenden. Er betont auch, wie wichtig es ist, Wörter wie „früher“ und „letzter“ zu vermeiden, bei denen die Leser zurückgreifen müssen, um herauszufinden, was sie bedeuten, und Wörter wie „Schaufel“ und „Spaten“ zu vermeiden. Laut Winston können technische Redakteure durch die Befolgung dieser einfachen Regeln ihre Texte klarer und für die Leser verständlicher gestalten.
18. Representations: Classes, Trajectories, Transitions
18. Representations: Classes, Trajectories, Transitions
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we consider the ...
 

Vorlesung 19. Architekturen: GPS, SOAR, Subsumption, Society of Mind



19. Architekturen: GPS, SOAR, Subsumtion, Society of Mind

In diesem Video werden verschiedene Architekturen zum Erstellen intelligenter Systeme erörtert, darunter der allgemeine Problemlöser und die SOAR-Architektur, die stark kognitive Psychologieexperimente einbezieht und sich auf die Problemlösung konzentriert. Der Redner diskutiert auch Marvin Minskys „Emotion Machine“, die das Denken auf vielen Ebenen, einschließlich Emotionen, berücksichtigt, und die Common-Sense-Hypothese, die dafür plädiert, Computer wie Menschen mit gesundem Menschenverstand auszustatten. Auch die von der Struktur des menschlichen Gehirns inspirierte Subsumtionsarchitektur wird diskutiert, wobei der Roomba ein erfolgreiches Beispiel ist. Die Fähigkeit, sich Dinge vorzustellen und wahrzunehmen, ist mit der Fähigkeit verbunden, Ereignisse zu beschreiben und Kultur zu verstehen, und Sprache spielt eine entscheidende Rolle beim Erstellen von Beschreibungen und Kombinatoren. Die Bedeutung von Aktivitäten wie Schauen, Zuhören, Zeichnen und Sprechen, um die sprachverarbeitenden Bereiche des Gehirns zu trainieren, wird hervorgehoben, und der Sprecher warnt vor schnellen Rednern, die den Sprachprozessor blockieren und zu impulsiven Entscheidungen führen können.

  • 00:00:00 In diesem Abschnitt diskutiert der Professor verschiedene alternative Architekturen zum Erstellen eines intelligenten Systems. Er beginnt damit, dass er über den estnischen Cyberangriff im Jahr 2007 spricht und dass kein Computer die Geschichte dahinter verstehen kann, außer einem, den er später demonstrieren wird. Anschließend spricht er über den von Newell und Simon bei Carnegie Mellon entwickelten allgemeinen Problemlöser, bei dem ein intelligentes System arbeitet, indem es die symbolische Differenz zwischen dem aktuellen Zustand und dem Zielzustand misst und Operatoren auswählt, um vom Zwischenzustand zu a zu wechseln besseren Zustand, den Vorgang wiederholen, bis das Ziel erreicht ist. Der Abschnitt endet mit der Erläuterung der Idee, die in der nächsten Vorlesung behandelt wird, die sich darauf konzentriert, wie man bei der Gründung eines Unternehmens im KI-Geschäft keine Pleite geht.

  • 00:05:00 In diesem Abschnitt lernen wir das Konzept der Mittel-Zweck-Analyse kennen, bei der der Unterschied zwischen dem aktuellen Zustand und einem gewünschten Endzustand identifiziert und der geeignete Operator ausgewählt wird, um den Unterschied zu minimieren. Das Beispiel der Mittel-Zweck-Analyse zur Lösung des Problems, vom MIT nach Hause zu kommen, wird vorgestellt und veranschaulicht den rekursiven Prozess der Identifizierung von Unterschieden und der Auswahl von Operatoren, bis der gewünschte Endzustand erreicht ist. Während das Konzept des allgemeinen Problemlösers damals eine aufregende Idee war, hat es sich aufgrund der Schwierigkeit, die Tabelle zu erstellen, die die Unterschiede zu den Operatoren in Beziehung setzt, nicht wie erwartet entwickelt. Dies führte zur Entwicklung der neueren SOAR-Architektur, die für „State Operator And Result“ steht, obwohl die Befürworter der Architektur behaupten, dass es sich lediglich um eine Bezeichnung und nicht um ein Akronym handelt.

  • 00:10:00 In diesem Abschnitt liegt der Fokus auf der SOAR-Architektur und ihren verschiedenen Komponenten. SOAR besteht aus einem Langzeit- und Kurzzeitgedächtnis, einem Visionssystem, einem Aktionssystem und einem Präferenzsystem. Die Architektur beinhaltet stark kognitive Psychologieexperimente, und ihr Hauptaugenmerk liegt auf der Problemlösung. Darüber hinaus verfügt SOAR über ein ausgeklügeltes Subsystem zum Aufbrechen von Verbindungen in regelbasierten Systemen, und es basiert auf der Idee, dass Menschen Symbolmanipulatoren sind. Das System ist darauf ausgelegt, Probleme systematisch zu lösen, und es verfügt über ein ausgeklügeltes Präferenzsystem zum Lösen von Bindungen in regelbasierten Systemen.

  • 00:15:00 In diesem Abschnitt diskutiert der Redner verschiedene Architekturen, die stark auf Problemlösung ausgerichtet sind, einschließlich SOAR und Newells Architektur. Die wichtigste Architektur, so der Redner, ist jedoch Marvin Minskys „The Emotion Machine“, die zeigt, wie Problemlösung in Schichten erfolgen kann. Der Sprecher liefert ein Beispiel für Marvins Architektur durch eine kurze Vignette, in der eine Frau eine Straße überquert. Marvins Architektur hebt die verschiedenen Denkebenen hervor, die die Frau erfährt, angefangen von einer instinktiven Reaktion auf das Hören eines Geräusches bis hin zum reflektierenden Denken in einem sozialen Kontext.

  • 00:20:00 In diesem Abschnitt konzentriert sich die SOAR-Architektur auf die Problemlösung, während Minskys „Emotion Machine“ das Denken auf vielen Ebenen berücksichtigt, einschließlich Emotionen. Die Entwicklung des gesunden Menschenverstandes stellt sich jedoch als Hindernis für das Erreichen eines solchen Denkens dar, da Computer nie viel davon hatten. Die Common-Sense-Hypothese argumentiert also, dass Computer, damit sie solche intelligenten Denkprozesse haben, mit gesundem Menschenverstand wie Menschen ausgestattet sein müssen. Dies brachte das Open-Mind-Projekt und das Sammeln von gesundem Menschenverstand aus dem World Wide Web hervor, um ein mehrschichtiges Denken zu erreichen. Im Gegensatz dazu glauben Rod Brooks und seine Subsumtionsarchitektur, dass Roboter nicht viel tun können, weil die Menschen über den Bau von Robotern auf die falsche Weise nachdenken, mit einem gekapselten Visionssystem, Argumentationssystem und Aktionssystem. Stattdessen schlägt Brooks vor, Abstraktionsschichten zu haben, die sich auf den Umgang mit der Welt konzentrieren, wie z. B. das Vermeiden von Objekten, das Wandern, Erkunden und Suchen.

  • 00:25:00 In diesem Abschnitt diskutiert der Redner die von Rodney Brooks vorgeschlagene Architektur, die von der Bauweise des menschlichen Gehirns inspiriert wurde, mit den alten Teilen in der Tiefe und dem darüber geschichteten Neokortex. Brooks stellte die Hypothese auf, dass man eine Maschine dazu bringen könnte, sich so schlau wie ein Insekt zu verhalten, ohne unbedingt eine Repräsentation in der Weise zu benötigen, wie wir uns im Kurs auf Repräsentation konzentriert haben. Seine Idee war es, die Welt anstelle eines Modells zu verwenden, damit alles, was man tut, reaktiv ist, anstatt eine Karte des Raums im Kopf zu haben. Die Mechanismen in ihrer reinsten Form sind nur endliche Automaten. Brooks nannte diese Idee Subsumption Architecture, die in dem sehr erfolgreichen Roomba-Roboter zum Einsatz kam. Der Roomba verwendet Infrarot-Näherungssensoren für die Navigation, wodurch zentralisierte Steuerungen und die Notwendigkeit eines Weltmodells vermieden werden.

  • 00:30:00 In diesem Abschnitt des Videos diskutiert der Sprecher die Subsumtionsarchitektur, die in einem Roboter veranschaulicht wird, der in der Lage ist, eine Dose zu finden und aufzuheben. Der Roboter verwendet einen Laserlichtstreifen, um die Dose zu lokalisieren, und hat Sensoren in seinem Arm, um die Dose auf eine bestimmte Weise zu greifen. Der Roboter verwendet auch einen Magnetkompass, um zu seinem Ausgangspunkt zurückzunavigieren. Der Referent erwähnt auch andere Architekturen wie SOAR und GPS und stellt die Genesis-Architektur vor, die sich auf Sprache konzentriert und die Wahrnehmungssysteme steuert.

  • 00:35:00 In diesem Abschnitt erörtert der Referent, wie die Fähigkeit, sich Dinge vorzustellen und wahrzunehmen, mit der Fähigkeit zusammenhängt, Ereignisse zu beschreiben, Geschichten zu erzählen und zu verstehen und schließlich Kultur zu verstehen. Er gibt Beispiele dafür, woher Menschen Dinge wissen, die ihnen nicht ausdrücklich beigebracht werden, wie zum Beispiel die Gefahr, beim Bedienen einer Tischkreissäge Handschuhe zu tragen. Als mögliche Erklärung für die Blütezeit unserer Spezies vor 50.000 Jahren schlägt er die „Strong-Story-Hypothese“ vor, die uns seiner Meinung nach die Fähigkeit gegeben hat, Geschichten zu erzählen und sie zu verstehen.

  • 00:40:00 In diesem Abschnitt lernen wir etwas über ein Experiment, das als die wichtigste Serie von Experimenten gilt, die jemals in der Kognitions- und Entwicklungspsychologie durchgeführt wurden. Das Experiment beinhaltet das Platzieren von Lebensmitteln in Körben an zwei gegenüberliegenden Ecken eines rechteckigen Raums und das Drehen einer Ratte, eines kleinen Kindes und eines Erwachsenen, um zu sehen, wohin sie gehen. Sie neigen alle dazu, mit dem Essen in die beiden Ecken zu gehen, außer wenn eine Wand blau gestrichen ist. Die Ratte und das Kind gehen immer noch mit gleicher Wahrscheinlichkeit in die beiden diagonalen Ecken, während der Erwachsene nur in die Ecke mit dem Futter geht. Das Kind wird erwachsen, wenn es anfängt, die Welt mit den Wörtern links und rechts zu beschreiben.

  • 00:45:00 In diesem Abschnitt führt der Sprecher ein Experiment mit einem Freiwilligen durch, das demonstriert, wie die Sprache eine entscheidende Rolle beim Bau von Beschreibungen und Combinern spielt. Das Experiment besteht darin, eine Passage aus einem Buch zu lesen, während der Freiwillige sie gleichzeitig wiederholt, wodurch sein Sprachprozessor blockiert wird, was dazu führt, dass er bestimmte Formen und Farben nicht verbinden kann. Der Referent weist darauf hin, dass die Beschäftigung mit Aktivitäten wie Sehen, Zuhören, Zeichnen und Sprechen die gleichen Bereiche des Gehirns trainieren kann, die für die Sprachverarbeitung verantwortlich sind, und Sie klüger macht. Darüber hinaus warnt der Sprecher vor schnellen Rednern und davor, wie sie Ihren Sprachprozessor blockieren können, was Sie dazu bringt, impulsiv Entscheidungen zu treffen.
19. Architectures: GPS, SOAR, Subsumption, Society of Mind
19. Architectures: GPS, SOAR, Subsumption, Society of Mind
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we consider cogn...
 

Vorlesung 21. Wahrscheinlichkeitsschluss I



21. Wahrscheinlichkeitsschluss I

In diesem Video über probabilistische Inferenz erklärt Professor Patrick Winston, wie die Wahrscheinlichkeit in der künstlichen Intelligenz verwendet werden kann, um Schlussfolgerungen zu ziehen und Wahrscheinlichkeiten auf der Grundlage verschiedener Szenarien zu berechnen. Er verwendet Beispiele wie das Erscheinen einer Statue, einen Hund, der einen Waschbären oder einen Einbrecher anbellt, und die Gründung des MIT im Jahr 1861 v. und die Konzepte der Unabhängigkeit und der bedingten Unabhängigkeit. Der Referent betont die Notwendigkeit, die Unabhängigkeit von Variablen korrekt anzugeben, und schlägt die Verwendung von Glaubensnetzen vor, um die Kausalität zwischen Variablen darzustellen und gleichzeitig die Wahrscheinlichkeitsberechnungen zu vereinfachen.

  • 00:00:00 In diesem Abschnitt des Videos erörtert Professor Patrick Winston die Verwendung von Wahrscheinlichkeiten in der künstlichen Intelligenz, insbesondere in Bezug auf die Beobachtung zufälliger Ereignisse. Er verwendet das Beispiel der Beobachtung des Erscheinens einer Statue auf dem Campus und konstruiert eine Tabelle, um mögliche Kombinationen von Ereignissen zu verfolgen, die zum Erscheinen der Statue führen könnten. Er stellt fest, dass die Anzahl der Zeilen in der Tabelle 2 hoch der Anzahl der Variablen ist und dass lange Beobachtungszeiträume verwendet werden könnten, um die Wahrscheinlichkeit des Eintretens jedes dieser Ereignisse zu bestimmen. Letztendlich ist die Wahrscheinlichkeit eines bestimmten Ereignisses einfach die Häufigkeit seines Auftretens dividiert durch die Gesamtzahl der Beobachtungen.

  • 00:05:00 In diesem Abschnitt demonstriert der Moderator, wie eine gemeinsame Wahrscheinlichkeitstabelle verwendet wird, um verschiedene Wahrscheinlichkeiten zu berechnen. Das verwendete Beispiel beinhaltet die Kenntnis der Wahrscheinlichkeit, dass eine Statue erscheint, wenn bestimmte Bedingungen erfüllt sind, wie z. B. das Vorhandensein einer Kunstausstellung und eines Hacks. Der Moderator führt auch ähnliche Berechnungen für die Wahrscheinlichkeit, dass ein Waschbär auf der Grundlage eines bellenden Hundes auftaucht, und die Wahrscheinlichkeit, dass der Hund bellt, wenn ein Waschbär vorhanden ist, durch. Die Demonstration zeigt, wie eine gemeinsame Wahrscheinlichkeitstabelle verwendet werden kann, um Rückschlüsse zu ziehen und Wahrscheinlichkeiten basierend auf verschiedenen Szenarien zu berechnen.

  • 00:10:00 In diesem Abschnitt erörtert der Sprecher die Verwendung einer gemeinsamen Wahrscheinlichkeitstabelle zur Berechnung probabilistischer Schlussfolgerungen. Trotz der Nützlichkeit dieses Tools kann die Verwaltung der hohen Anzahl von Zeilen, die für komplexere Situationen erforderlich sind, schwierig sein, sodass neben der probabilistischen Inferenz auch andere Methoden in Betracht gezogen werden müssen. Der Referent stellt auch ein hypothetisches Szenario vor, in dem das MIT 1861 v. Chr. gegründet wurde, und diskutiert die experimentellen Methoden, die verwendet worden sein könnten, um festzustellen, welche Objekte schwimmen.

  • 00:15:00 In diesem Abschnitt erörtert der Referent die Grundlagen der Wahrscheinlichkeit und die zugrunde liegenden Axiome. Sie erklären, dass Wahrscheinlichkeiten größer als 0 und kleiner als 1 sein müssen und dass in einer binären Welt die Wahrscheinlichkeit von wahr 1 und falsch 0 ist. Der Sprecher führt auch das dritte Axiom ein, das besagt, dass die Wahrscheinlichkeit von A plus der Wahrscheinlichkeit ist von B minus der Wahrscheinlichkeit von A und B ist gleich der Wahrscheinlichkeit von A oder B. Sie stellen fest, dass dieses grundlegende Verständnis der Wahrscheinlichkeit als Grundlage für komplexere Berechnungen dient, die in der probabilistischen Inferenz verwendet werden.

  • 00:20:00 In diesem Abschnitt erläutert der Referent den formalen Umgang mit Wahrscheinlichkeiten anhand von Axiomen und wie er durch Intuitionen gespiegelt werden kann, die Raumdiskussionen beinhalten. Die Wahrscheinlichkeit von a ist mit der Größe des Kreises relativ zur Gesamtfläche im Rechteck verbunden, und die Axiome eins bis drei machen in Bezug auf dieses Bild Sinn. Der Sprecher erklärt dann die bedingte Wahrscheinlichkeit und wie sie als die Wahrscheinlichkeit eines gegebenen b definiert ist, die gleich der Wahrscheinlichkeit von a und b dividiert durch die Wahrscheinlichkeit von B ist. Diese Definition ist sinnvoll, da sie das Betrachtungsuniversum genau darauf beschränkt Teil des ursprünglichen Universums.

  • 00:25:00 In diesem Abschnitt stellt der Sprecher die Idee vor, den Wahrscheinlichkeitsraum in drei Teile aufzuteilen, und erklärt, wie die Wahrscheinlichkeit von a, b und c bestimmt werden kann. Durch Erweiterung der Formel wird die Wahrscheinlichkeit, dass alles so ist, in ein Produkt aus drei bedingten Wahrscheinlichkeiten zerlegt. Der Sprecher verallgemeinert diese Idee dann in die Kettenregel, die besagt, dass die Wahrscheinlichkeit einer Gruppe von Dingen als Produkt bedingter Wahrscheinlichkeiten geschrieben werden kann. Obwohl der Sprecher erst zur Hälfte seines Diagramms fertig ist, zeigt er, dass er gute Fortschritte macht. Das nächste Konzept, das sie diskutieren, ist die Idee der bedingten Wahrscheinlichkeit.

  • 00:30:00 In diesem Abschnitt erklärt der Professor die Definition von Unabhängigkeit und bedingter Unabhängigkeit. Unabhängigkeit ist, wenn die Wahrscheinlichkeit von a nicht davon abhängt, was mit b passiert. Wenn zum Beispiel a und b unabhängig sind, dann ist ein gegebenes b gleich a. Bedingte Unabhängigkeit bedeutet, dass, wenn die Welt darauf beschränkt ist, in z zu sein, die Wahrscheinlichkeit von a nicht vom Wert von b abhängt. Der Professor veranschaulicht diese Konzepte mit intuitionistischen Diagrammen, wobei er die Bereiche von Diagrammen verwendet, um Wahrscheinlichkeiten zu bezeichnen.

  • 00:35:00 In diesem Abschnitt erörtert der Dozent die bedingte Unabhängigkeit in der probabilistischen Inferenz und wie sie zur Ableitung der gemeinsamen Wahrscheinlichkeiten von Variablen führt. Er erklärt das Konzept am Beispiel eines Hundes, der einen Waschbären oder einen Einbrecher anbellt, und wie das Hinzufügen von zwei weiteren Variablen dazu führt, dass eine große gemeinsame Wahrscheinlichkeitstabelle benötigt wird. Anschließend führt er die Idee von Glaubensnetzen ein, um die Kausalität zwischen Variablen darzustellen, und betont die Notwendigkeit, korrekt anzugeben, dass jeder Knoten von seinen nicht nachkommenden Variablen unabhängig ist.

  • 00:40:00 In diesem Abschnitt erörtert der Sprecher das Konzept der Unabhängigkeit von Eltern von Nicht-Nachkommen und die Bedeutung des Verständnisses dieser Sprache für probabilistische Schlussfolgerungen. Der Sprecher erstellt dann ein Modell, um die Wahrscheinlichkeiten verschiedener Ereignisse zu bestimmen, wie z. B. das Auftauchen eines Einbrechers oder das Bellen des Hundes, basierend auf der Anwesenheit anderer Faktoren, wie z. B. eines Waschbären. Der Referent merkt an, dass nur 10 Zahlen benötigt werden, um das Modell zu spezifizieren, was erheblichen Aufwand spart, verglichen mit dem Versuch, sofort eine gemeinsame Wahrscheinlichkeitstabelle zu erstellen.

  • 00:45:00 In diesem Abschnitt erörtert der Sprecher die Verwendung der Kettenregel bei der Berechnung der vollständigen gemeinsamen Wahrscheinlichkeitstabelle. Sie erklären, wie sie mit bedingtem Unabhängigkeitswissen bestimmte Wahrscheinlichkeiten aus der Formel streichen können, da sie nicht von einem Nachkommen abhängen. Durch eine bestimmte Anordnung der Formel ist der Sprecher in der Lage, die gesamte gemeinsame Wahrscheinlichkeitstabelle zu berechnen, ohne Zahlen zu erfinden oder viele Messungen vorzunehmen. Der Referent merkt an, dass man sich in diesem speziellen Fall nur 10 von 32 Zahlen ausdenken musste und fragt sich, wie viel Einsparung man erzielen würde, wenn es mehr Eigenschaften gäbe.
21. Probabilistic Inference I
21. Probabilistic Inference I
  • 2014.01.10
  • www.youtube.com
* Please note: Lecture 20, which focuses on the AI business, is not available.MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://oc...
 

Vorlesung 22. Wahrscheinlichkeitsschluss II



22. Wahrscheinlichkeitsschluss II

In diesem Video erklärt Professor Patrick Winston, wie Inferenznetze, auch bekannt als „Bayes-Netze“, verwendet werden, um probabilistische Schlussfolgerungen zu ziehen. Er erläutert, wie man Variablen in einem Bayes'schen Netzwerk mithilfe der Kettenregel anordnet, um die gemeinsame Wahrscheinlichkeit aller Variablen zu berechnen. Der Referent demonstriert, wie man Wahrscheinlichkeiten akkumuliert, indem man Simulationen durchführt, und wie man Wahrscheinlichkeiten mithilfe eines Modells generiert. Er diskutiert auch die Bayes-Regel und wie sie verwendet werden kann, um Klassifizierungsprobleme zu lösen, Modelle auszuwählen und Strukturen zu entdecken. Das Video betont die Nützlichkeit der probabilistischen Inferenz in verschiedenen Bereichen wie medizinische Diagnose, Lügenerkennung und Gerätefehlersuche.

  • 00:00:00 In diesem Abschnitt erörtert Professor Patrick Winston die Verwendung von Inferenznetzen, auch bekannt als "Bayes-Netze", die verwendet werden, um eine probabilistische Inferenz zu machen. Er beginnt mit der Überprüfung der gemeinsamen Wahrscheinlichkeitstabelle, die verwendet werden kann, um eine Wahrscheinlichkeit zu bestimmen, indem er auf die entsprechenden Kästchen klickt, aber das Problem ist, dass es schwierig und zeitaufwändig wird, die Zahlen zu bilden oder zu sammeln, wenn viele Variablen beteiligt sind. Er fährt fort, die Inferenznetze zu verwenden, um Berechnungen durchzuführen, um die Wahrscheinlichkeit zu erhalten, dass die Ereignisse zusammen stattfinden. Hier wird die Kettenregel verwendet, und dieser Abschnitt endet mit einer Erläuterung dieser Regel.

  • 00:05:00 In diesem Abschnitt spricht der Referent über den Vorgang des Ordnens von Variablen in einem Bayes'schen Netzwerk und wie dieser mit der Kettenregel verwendet werden kann, um die gemeinsame Wahrscheinlichkeit aller Variablen zu berechnen. Indem er die Variablen so anordnet, dass keiner seiner Nachkommen in linearer Reihenfolge links von ihm erscheint, und indem er die Kettenregel anwendet, ist er in der Lage, die Wahrscheinlichkeit einer bestimmten Kombination dieser Variablen zu berechnen. Er behauptet, dass alle bedingten Wahrscheinlichkeiten in diesem Szenario keine Nachkommen sind und das Ausstreichen von Variablen auf der Grundlage von Abhängigkeiten helfen kann, jeden Eintrag in der Tabelle zu berechnen.

  • 00:10:00 In diesem Abschnitt erklärt der Sprecher, wie man ein kleines Netzwerk verwendet, um alles zu tun, was mit einer Tabelle gemacht werden kann, und die dafür erforderlichen Wahrscheinlichkeiten. Er erläutert, wie er die Tabellen erweitert, um die für die Berechnung der Wahrscheinlichkeit, dass der Hund bellt oder B passiert, erforderlichen Zählwerte zu verfolgen, und verwendet experimentelle Ergebnisse, um Häkchen oder Zählwerte in den relevanten Abschnitten der Tabelle anzugeben, was schließlich zu einer Demonstration von führt der Prozess.

  • 00:15:00 In diesem Abschnitt des Videos zeigt der Professor zunächst, wie die Wahrscheinlichkeiten eines Netzwerks durch Ausführen von Simulationen akkumuliert werden. Er erklärt, wie Sie die Tabelle interpretieren und verfolgen, was Ihnen die Datenelemente darüber sagen, wie oft eine bestimmte Kombination vorkommt. Er führt mehrere Simulationen durch, um genauere Wahrscheinlichkeiten zu erhalten. Dann demonstriert er, wie man das System simuliert, das eine Kombination von Werten für alle Variablen generiert, indem er von den obersten Wahrscheinlichkeitstabellen hin und her geht und eine Münze wirft.

  • 00:20:00 In diesem Abschnitt erörtert der Sprecher den Prozess der Generierung von Wahrscheinlichkeiten für ein Szenario, indem er die entsprechende Zeile in einer Wahrscheinlichkeitstabelle auswählt. Der Sprecher erklärt dann, wie diese Wahrscheinlichkeiten mithilfe eines Modells auf der linken Seite generiert werden können, das zur Erzeugung von Daten zur Berechnung der Wahrscheinlichkeiten auf der rechten Seite verwendet werden kann. Der Sprecher räumt jedoch ein, dass es für ein bestimmtes Szenario mehrere korrekte Modelle geben kann, was es schwierig macht, das richtige zu bestimmen. Um dieses Problem anzugehen, führt der Referent das Konzept der naiven Bayesschen Inferenz ein, bei der bedingte Wahrscheinlichkeiten so umgeschrieben werden, dass ihre Berechnung unter Verwendung des Satzes von Bayes möglich ist.

  • 00:25:00 In diesem Abschnitt erklärt das Video, wie die Bayes-Regel zur Lösung eines Klassifizierungsproblems verwendet werden kann. Zum Beispiel kann bei der Diagnose einer Krankheit die Wahrscheinlichkeit der Krankheit bei gegebenem Beweis berechnet werden, indem die Wahrscheinlichkeit des Beweises bei gegebener Krankheit durch die Gesamtwahrscheinlichkeit des Beweises dividiert wird und diese dann mit der vorherigen Wahrscheinlichkeit der gegebenen Krankheit multipliziert wird. Wenn mehrere unabhängige Beweise vorliegen, kann die gemeinsame Beweiswahrscheinlichkeit für die gegebene Krankheit dividiert durch die gesamte Beweiswahrscheinlichkeit berechnet werden, und dann können die Wahrscheinlichkeiten aller relevanten Klassen verglichen werden.

  • 00:30:00 In diesem Abschnitt erzählt der Dozent eine Geschichte über die Auswahl von zwei Münzen, eine voreingenommen mit einer Wahrscheinlichkeit von 0,8 für Kopf und eine fair mit einer Wahrscheinlichkeit von 0,5 für Kopf. Nach dem Werfen der Münze verwendet der Dozent die Bayes'sche Wahrscheinlichkeit, um anhand der vorherigen Wahrscheinlichkeiten und der Beweise aus den Würfen herauszufinden, welche Münze ausgewählt wurde. Die Vorlesung zeigt, wie Evidenz verwendet werden kann, um die Wahrscheinlichkeit verschiedener Hypothesen in der probabilistischen Inferenz zu bestimmen.

  • 00:35:00 In diesem Abschnitt demonstriert der Professor, wie die Wahrscheinlichkeiten verschiedener Münzen bei einer Reihe von Würfen variieren und wie das Überwiegen von Beweisen die Wahrscheinlichkeit, Kopf zu bekommen, verändern kann. Das Gesetz der großen Zahlen setzt ein und die Wahrscheinlichkeit, dass die gewählte Münze im Spiel ist, nähert sich immer mehr 1. Der Professor verwendet dieses Konzept dann, um einen Klassifikator für die Elternpartei zu erstellen, indem er die politische Partei eines Kindes betrachtet und Rückschlüsse auf die zieht Partei, der der Elternteil angehört. Insgesamt kann das Konzept der probabilistischen Inferenz in verschiedenen Szenarien angewendet werden, um Vorhersagen zu treffen und Schlussfolgerungen zu ziehen.

  • 00:40:00 In diesem Abschnitt des Videos erläutert der Sprecher die Verwendung des Bayes'schen Hacks zum Vergleichen zweier Modelle und zur Auswahl des besten Modells basierend auf Daten. Der Prozess beinhaltet die Simulation von Ziehungen aus einem Modell und die Berechnung der Wahrscheinlichkeit jedes Modells anhand der Daten. Der Sprecher geht dann zur Strukturerkennung über, wo er ohne verknüpfte Variablen beginnt und eine Zufallssuche verwendet, um Modelle zu modifizieren und zu vergleichen, bis er eines findet, das bevorzugt wird. Dieser Prozess erfordert die Verwendung der Summe der Logarithmen der Wahrscheinlichkeiten anstelle des Produkts, um zu vermeiden, dass Informationen auf einem 32-Bit-Computer verloren gehen. Die Suche nach der optimalen Struktur kann jedoch aufgrund des großen Raums und der lokalen Maxima schwierig sein.

  • 00:45:00 In diesem Abschnitt erörtert der Redner die Nützlichkeit der probabilistischen Inferenz und Strukturerkennung in verschiedenen Bereichen wie medizinische Diagnose, Lügenerkennung und Fehlersuche bei Geräten. Er erklärt, warum probabilistische Berechnungen der richtige Ansatz sind, wenn Informationen begrenzt sind, und wie diese Methode verwendet werden kann, um die wahrscheinlichste Ursache eines Problems basierend auf den beobachteten Symptomen zu bestimmen. Der Referent weist auch auf zukünftige Diskussionen hin, wie diese Methode verwendet werden kann, um Muster und Geschichten zu entdecken.
22. Probabilistic Inference II
22. Probabilistic Inference II
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWe begin with a review of inferen...
 

Vorlesung 23. Model Merging, Cross-Modal Coupling, Vorlesungszusammenfassung



23. Modellzusammenführung, modalübergreifende Kopplung, Zusammenfassung des Kurses

In diesem Video spricht Professor Patrick Winston über Modellzusammenführung, modalübergreifende Kopplung und reflektiert das Kursmaterial. Er erörtert die Bedeutung der Entdeckung von Regelmäßigkeit, ohne übermäßig auf die Bayes'sche Wahrscheinlichkeit fixiert zu sein, und die potenziellen Vorteile der modalübergreifenden Kopplung für das Verständnis der Welt um uns herum. Er bietet auch Vorschläge für zukünftige Kurse an und betont, wie wichtig es ist, sich darauf zu konzentrieren, neue Einnahmen und Fähigkeiten durch die Zusammenarbeit von Menschen und Computern zu erzielen, anstatt nur darauf abzuzielen, Menschen zu ersetzen. Darüber hinaus betont er, wie wichtig es ist, zuerst das Problem zu identifizieren und die geeignete Methode zu seiner Lösung auszuwählen. Abschließend reflektiert der Professor die Grenzen der Reduzierung von Intelligenz auf ein replizierbares, künstliches Modell und hebt die außergewöhnliche Arbeit seines Teams hervor.

  • 00:00:00 In diesem Abschnitt spricht Patrick Winston über Modellzusammenführung und modalübergreifende Kopplung. Er demonstriert die Idee der Bayes'schen Story-Verschmelzung, indem er zeigt, wie man Strukturen in Situationen entdeckt, in denen man sie sonst vielleicht nicht findet, wie das Entdecken von Ereignissen in zwei Geschichten und deren Zusammenbau in zwei Story-Graphen. Er spricht auch über die Fähigkeit, Konzepte auf mehreren Ebenen zu entdecken, die maschinelles Lernen und Cloud-Computing für Effizienz nutzen. Schließlich stellt er Michael Coens Programm vor, das mehrere Modalitäten und Korrespondenzen zwischen ihnen verwendet, um beide beitragenden Modalitäten in Zebrafinkenliedern zu sortieren.

  • 00:05:00 In diesem Abschnitt wird das Konzept der modalübergreifenden Kopplung am Beispiel der Verknüpfung von Gesten, die Vokale erzeugen, mit den Lauten selbst erklärt. Die Fourier-Transformation eines Vokals erzeugt Formanten, und eine Ellipse um den Mund bildet die zweite Modalität. Mit modalübergreifenden Kopplungsdaten ist es möglich, Geräusche zu gruppieren und Lippenformen mit Geräuschen ohne markierte Daten zu assoziieren. Eine Demonstration von Coens Arbeit zeigt, wie Cluster gebildet werden können, indem Projektionen und Vektoren als Komponenten einer Metrik verwendet werden.

  • 00:10:00 In diesem Abschnitt diskutiert der Redner das Konzept der modalübergreifenden Kopplung und wie es helfen kann, die uns präsentierte Welt zu verstehen. Er schlägt vor, dass es möglich ist, Regelmäßigkeit zu entdecken, ohne sich obsessiv mit der Bayes'schen Wahrscheinlichkeit zu beschäftigen, und dass diese Art der Kopplungsidee wahrscheinlich mit unserem Verständnis der Welt um uns herum verbunden ist. Der Referent fasst auch das Material des Kurses zusammen und betont die Bedeutung sowohl der technischen als auch der wissenschaftlichen Perspektive bei der Entwicklung anspruchsvoller Anwendungen für künstliche Intelligenz. Er weist auch auf die Notwendigkeit hin, sich darauf zu konzentrieren, neue Einnahmen und Fähigkeiten zu erzielen, indem Menschen und Computer zusammenarbeiten, anstatt nur darauf abzuzielen, Menschen zu ersetzen.

  • 00:15:00 In diesem Abschnitt geht der Referent auf die einzigartigen Vorteile ein, die das Programmieren für die Erstellung von Modellen und die Durchführung von Experimenten bietet. Insbesondere bietet die Programmierung Metaphern und die Möglichkeit, Modelle zu erstellen, die Experimente ermöglichen, um die Implikationen dieser Modelle zu testen. Der Redner betont auch, wie wichtig es ist, zuerst das Problem zu identifizieren und dann die geeignete Methodik oder Maschinerie auszuwählen, anstatt in Mechanismusneid zu verfallen und sich auf bestimmte Methoden zu konzentrieren. Abschließend geht der Referent kurz auf das Prüfungsformat ein und bietet ein paar Erinnerungen für die Schüler an, z. B. das Mitbringen einer Uhr und eines Taschenrechners sowie die Flexibilität, während der Prüfung Kostüme zu tragen.

  • 00:20:00 In diesem Abschnitt gibt der Professor einige Vorschläge, was im nächsten Semester zu tun ist, einschließlich Marvin Minskys Fach Society of Mind oder Bob Berwicks Fächer Language Understanding and Evolution oder Gerry Sussmans Large Scale Symbolic System-Fach. Er fördert auch seinen eigenen Frühlingskurs, das Human Intelligence Enterprise. Der Professor bezeichnet seinen Studiengang als geisteswissenschaftlichen Studiengang und hat keine Vorlesungen, sondern ist eher ein Gespräch mit ihm. Er erörtert einige der im Kurs behandelten Themen, wie z. B. Verpackung und die gemeinsamen Elemente, die in verschiedenen Intelligenzsystemen zu finden sind.

  • 00:25:00 In diesem Abschnitt erörtert der Redner die Bedeutung der Verpackung und wie sie unabhängig vom Karriereweg zum Erfolg beitragen kann. Der Redner erwähnt eine Veranstaltung namens „How to Speak“-Vorlesung, bei der es sich um eine einstündige nichtlineare Vorlesung handelt, die die Fähigkeit einer Person, Präsentationen, Vorträge und Jobgespräche zu halten, erheblich beeinflussen kann, indem sie Tipps gibt, wie man einen Witz erzählt oder wie um eine Präsentation zu öffnen. Darüber hinaus spricht der Referent über das Genesis-System ihrer Gruppe, das in Bereiche vordringen soll, die den Beginn einer möglichen Krankheit erkennen können.

  • 00:30:00 In diesem Abschnitt zeigt eine Live-Demonstration, wie ein System eine Geschichte aus mehreren Perspektiven lesen und verstehen kann, wodurch potenzielle Probleme erkannt und eingegriffen werden können, um Katastrophen zu verhindern. Zwei Personas mit unterschiedlichem Bildungshintergrund identifizieren, was explizit in der Geschichte vorkommt, und leiten andere Konzepte in Grau ab. Aufgrund ihres einzigartigen Hintergrunds haben sie unterschiedliche Perspektiven auf die Geschichte und können sogar miteinander verhandeln, andere Bereiche unterrichten und Katastrophen abwenden, bevor sie eintreten. Das System erkennt auch potenzielle Racheaktionen und Pyrrhussiege, was seine Fähigkeit veranschaulicht, potenzielle Probleme vorherzusehen und einzugreifen.

  • 00:35:00 In diesem Abschnitt lernen wir die Verwendung von Konzeptvektoren anstelle von Schlüsselwortzählungen zum Abrufen von Informationen durch das Verstehen von Geschichten auf mehreren Ebenen. Die Propagator-Architektur wird verwendet, um zu verhindern, dass Einzelpersonen mit ihrer Arbeit über Bord gehen, und das studentische Engagement in der MIT-Gruppe wird gelobt. Was weitere Graduiertenschulprogramme betrifft, sollte man sich überlegen, bei wem man ausbilden möchte, und ein Programm mit einem anderen Schwerpunkt wie KI finden, um seinen Horizont in diesem Bereich zu erweitern.

  • 00:40:00 In diesem Abschnitt gibt Professor Winston Ratschläge für Studenten, die sich für eine Graduiertenschule in theoretischer Physik und künstlicher Intelligenz bewerben, und betont die Bedeutung von Ortsbesichtigungen für erstere und die Konzentration auf einen bestimmten Bereich für letztere. Er erzählt auch eine Anekdote über einen Extremfall der Defekttheorie der KI-Berufswahl, bei dem ein Computer-Vision-Forscher seine Frau aufgrund seiner Spezialisierung auf Objekterkennung nicht erkennen kann. Schließlich reflektiert Professor Winston die Nützlichkeit und Einfachheit mächtiger Ideen in der Informatik und spricht das Argument an, dass das Verstehen von Sprache nicht unbedingt echte Intelligenz erfordert.

  • 00:45:00 In diesem Abschnitt spricht der Sprecher über die Einschränkungen bei der Reduzierung von Intelligenz auf etwas, das künstlich repliziert werden kann. Er verwendet seinen Waschbären als Beispiel für ein hochintelligentes Tier, von dem er nicht erwartet hatte, eine ebenso intelligente Maschine bauen zu können. Die Vorstellung, dass künstliche Intelligenz unmöglich ist, basiert oft auf reduktionistischen Argumenten, die das Wissen und die Magie nicht berücksichtigen, die von einem laufenden Programm stammen, das im Laufe der Zeit ausgeführt wird. Der Referent nimmt sich auch einen Moment Zeit, um die hervorragende Arbeit seines Teams zu würdigen und wünscht den Studenten alles Gute für ihre Abschlussprüfung.
23. Model Merging, Cross-Modal Coupling, Course Summary
23. Model Merging, Cross-Modal Coupling, Course Summary
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonThis lecture begins with a brief ...
 

Mega-R1. Regelbasierte Systeme



Mega-R1. Regelbasierte Systeme

Dieses Video konzentriert sich auf Mega-Rezitation, eine Vorlesung im Tutoriumsstil, die den Schülern hilft, mit dem in Vorlesungen und Rezitationen behandelten Material zu arbeiten. Das Video behandelt mehrere Themen im Zusammenhang mit regelbasierten Systemen, darunter Rückwärtsverkettung, Vorwärtsverkettung, Tiebreak-Reihenfolge für Regeln und den Abgleichsprozess. Der Rückwärtsverkettungsprozess beinhaltet das Betrachten der Konsequenz einer Regel und das Hinzufügen der Antezedenzien nach Bedarf, um das oberste Ziel zu erreichen, und Tiebreak und Disambiguierung sind für den Zielbaum von entscheidender Bedeutung. Das Video erläutert auch die Vorwärtsverkettung und den Abgleich von Regeln mit Behauptungen unter Verwendung einer Reihe von Behauptungen. Der Redner betont, wie wichtig es ist, Behauptungen zu überprüfen, bevor man eine Regel anwendet, und machtlose Regeln zu vermeiden, die nichts bewirken. Der Abgleichprozess beinhaltet die Verwendung von Rückwärtsverkettung, um zu bestimmen, welche Regeln mit den gegebenen Behauptungen übereinstimmen, und das System wird Regeln mit niedrigeren Nummern priorisieren, unabhängig davon, ob sie neu sind oder nicht.

  • 00:00:00 In diesem Abschnitt stellt Mark Seifter das Konzept der Mega-Rezitation vor, einer Vorlesung im Tutoriumsstil, die Studenten dabei helfen soll, mit dem in Vorlesungen und Rezitationen behandelten Material zu arbeiten. Ziel ist es, den Schülern zu helfen, die für den Unterricht entscheidenden Algorithmen zu verstehen und mit ihnen zu arbeiten, und ihr Verständnis in Quizfragen zu demonstrieren. Der Fokus liegt auf einem Quizproblem aus dem letzten Jahr, das viele Studenten zu Fall gebracht hat, und Marx geht die Tricks durch, die sie erwischt haben, in der Hoffnung, dass diese Fehler nicht noch einmal gemacht werden. Abschließend erklärt er den Unterschied zwischen zwei Notationen, in-fix und prefix, zum Schreiben von Regeln und warum die Schüler sich ihrer bewusst sein müssen.

  • 00:05:00 In diesem Abschnitt lernen wir die sechs mit P gekennzeichneten Regeln kennen, jede mit einer entsprechenden Wenn-Dann-Anweisung. Die erste Regel besagt, dass wenn X ehrgeizig und X ein Squib ist, X einen schlechten Begriff hat. Das Fragezeichen in X oder Y zeigt eine Variable an, die darauf wartet, gebunden zu werden. Rückwärts- und Vorwärtsverkettung werden verwendet, um die Bindung dieser Variablen zu bestimmen. Vier Behauptungen werden uns auch gegeben, mit denen wir arbeiten können, darunter Millicent, die im Slytherin-Verlies lebt, und Seamus, der im Gryffindor-Turm ist und Millicent markiert. Es wird betont, wie wichtig es ist, die Behauptungen zu überprüfen, bevor man eine Regel anwendet, da es ein Fehler war, der einige Leute letztes Jahr zu Fall gebracht hat.

  • 00:10:00 In diesem Abschnitt erläutert der Moderator das Konzept der Rückwärtsverkettung und hebt die Unterschiede zur Vorwärtsverkettung hervor. Bei der Arbeit an der Hypothese versucht der Rückwärtsverketter, eine passende Behauptung in der Liste der Behauptungen zu finden, und wenn es keine Übereinstimmung gibt, versucht er, eine Regel mit einer passenden Konsequenz zu finden. Der Moderator liefert Beispiele für einfache Probleme und geht dann auf ein Problem aus dem wirklichen Leben ein, bei dem Millicent Hermines Freund wird. Während des gesamten Beispiels betont der Präsentator die Wichtigkeit des Tiebreaks und der Begriffsklärung im Zielbaum.

  • 00:15:00 In diesem Abschnitt behandelt das Video den Prozess der Rückwärtsverkettung in regelbasierten Systemen. Rückwärtsverkettung beinhaltet das Betrachten der Folge einer Regel und das Hinzufügen der Antezedenzien nach Bedarf, um das oberste Ziel zu erreichen. Das Video betont, wie wichtig es ist, nach etwas zu suchen, das das aktuelle Ziel in seiner Konsequenz hat, und in den Behauptungen danach zu suchen, bevor andere Regeln überprüft werden. Der Prozess beinhaltet eine Tiefensuche, beginnend mit dem linken Knoten und sich nach unten bewegend, wenn es Kinder gibt, und Suchen nach einer Regel, die dem aktuellen Ziel entspricht. Das Video erklärt auch, wie Sie dem Zielbaum Knoten korrekt hinzufügen, z. B. einen Endknoten mit einem oder-Knoten am Ende.

  • 00:20:00 In diesem Abschnitt diskutiert die Sprecherin eine Tiefensuche, während sie mithilfe eines Baumdiagramms identifiziert, ob Millicent eine Protagonistin oder eine Schurkin ist, und letztendlich versucht zu beweisen, dass sie eine Schurkin ist. Sie folgen zuerst dem linken Ast und versuchen eine Regel zu finden, ob Millicent eine Protagonistin ist. Da es keine Regel gibt, die ihrem Kriterium entspricht, gehen sie zurück zum „oder“-Knoten und zurück zu Millicent, die ein Bösewicht ist. Auch wenn es nicht in den Behauptungen steht, folgen sie der Verzweigung, um zu sehen, ob es eine Regel gibt, die dies als Konsequenz hat. Schließlich finden sie eine Regel, die besagt, dass Millicent ein Bösewicht ist, aber weitermachen muss, um die ultimative Antwort zu finden.

  • 00:25:00 In diesem Abschnitt erklärt der Sprecher den zielstrebigen Fokus des Backward-Chainer und seinen Mangel an Rücksicht auf die anderen Behauptungen oder Antezedenzien. Der Backward-Chainer zielt nur darauf ab, die Möglichkeit zu beweisen, dass Millicent ein Bösewicht sein könnte, und kümmert sich nicht um die anderen Konsequenzen, wie z. B. Millicents Ehrgeiz. Es wird angemerkt, dass dies zu unnötigen Berechnungen führen kann, aber es ist ein einfacher und effizienter Weg, das System zu codieren. Die mögliche Verwendung einer Hash-Tabelle wird diskutiert, aber man kommt zu dem Schluss, dass es den zusätzlichen Aufwand möglicherweise nicht wert ist.

  • 00:30:00 In diesem Abschnitt diskutiert die Klasse die Implementierung einer Hash-Tabelle, um die Laufgeschwindigkeit des regelbasierten Systems zu erhöhen. Bei diesem Ansatz gibt es jedoch einige potenzielle Probleme, da die Reihenfolge verloren geht, in der die Behauptungen in der Tabelle ausgelöst werden, und einige Regeln von der Reihenfolge dieser Behauptungen abhängen. Der Vortrag befasst sich auch mit einer Frage aus der Masse zur Lösung von Regeln, wenn es eine Behauptung gibt, die das Gegenteil von dem aussagt, was zuvor behauptet wurde, und wie dieses Problem gelöst werden kann. Die Klasse kommt zu dem Schluss, dass sie aus diesem Grund keine Löschanweisungen für Quiz haben und dass sie keine Behauptungen hinzufügen, sondern stattdessen alle Dinge im Zielbaum überprüfen, bis sie entweder bewiesen oder widerlegt sind.

  • 00:35:00 In diesem Abschnitt geht der Sprecher schnell die verbleibenden Teile des Beispiels von Millicent, der Protagonistin, durch und wie man regelbasierte Systeme verwendet, um zu bestimmen, ob sie Hermines Freundin wird oder nicht. Dazu gehört die Beantwortung einiger Fragen, wie z. B. die Bestimmung der Mindestanzahl zusätzlicher Behauptungen, die Millicent benötigt, um Hermines Freund zu werden, ohne eine Behauptung hinzuzufügen, die mit einer Folge einer Regel übereinstimmt. Der Abschnitt behandelt auch eine ungewöhnliche Situation, die entsteht, wenn eine Behauptung hinzugefügt wird, und die Notwendigkeit, sie durch Entfernen einer widersprüchlichen Behauptung zu beheben. Zuletzt wird die Rückwärtsverkettung kurz erwähnt, und der Sprecher bittet das Publikum, ein Problem im Zusammenhang mit der Variablenbindung zu lösen, bei dem das Ziel darin besteht, festzustellen, ob Millicent einen schlechten Begriff hat.

  • 00:40:00 In diesem Abschnitt erörtert der Erzähler die Vorwärtsverkettung, bei der neue Behauptungen hinzugefügt werden, sobald sie kommen, und die Tiebreak-Reihenfolge für Regeln. Die Tiebreak-Reihenfolge für Regeln reicht von 0 bis 5, und wenn dieselbe Regel mit mehreren unterschiedlichen Assertionen ausgelöst werden kann, werden die Regeln in numerischer Reihenfolge verwendet. Der Erzähler zeigt, wie man Regeln mit Behauptungen abgleicht, indem er eine Reihe von Behauptungen verwendet, und wie man eine Regel abfeuert. Der Erzähler sagt uns auch, dass impotente Regeln oder Regeln, die nichts bewirken, nicht gefeuert werden sollten, sondern stattdessen zur nächsten Regel in der Reihenfolge übergegangen werden sollte. Abschließend erklärt der Erzähler, wie sie Regeln und Behauptungen abgeglichen und neue Behauptungen hinzugefügt haben.

  • 00:45:00 In diesem Abschnitt des Videos erläutert der Sprecher den Matching-Prozess für regelbasierte Systeme. Das angegebene Beispiel ist das einer Quizfrage mit nummerierten Regeln und Behauptungen. Das System verwendet eine Rückwärtsverkettung, um zu bestimmen, welche Regeln mit den gegebenen Behauptungen übereinstimmen, und in diesem Fall stimmen nur die Regeln 1, 2, 3 und 5 überein. Der Sprecher beantwortet auch eine Frage, ob neue Zusicherungen mit einer niedrigeren Regelnummer zuerst verarbeitet werden sollten, und erklärt, dass das System Regeln mit niedrigerer Nummer priorisieren wird, unabhängig davon, ob sie neu sind oder nicht.
Mega-R1. Rule-Based Systems
Mega-R1. Rule-Based Systems
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterIn this mega-recitation, we cover Pr...
 

Mega-R2. Einfache Suche, optimale Suche



Mega-R2. Einfache Suche, optimale Suche

Dieses YouTube-Video behandelt verschiedene Suchalgorithmen und -techniken, darunter die Tiefensuche, die Breitensuche, die optimale Suche und den A*-Algorithmus. Das Video verwendet ein unterhaltsames Beispiel eines bösen Overlords Mark Vader, der nach einer neuen Festung sucht, um diese Konzepte zu veranschaulichen. Der Moderator betont die Bedeutung der Zulässigkeit und Konsistenz bei der Suche nach Graphen und erläutert die Verwendung erweiterter Listen, um eine Neubewertung von Knoten zu verhindern. Das Video spricht häufige Fehler und Fragen des Publikums an und ermutigt die Zuschauer, weitere Fragen zu stellen. Insgesamt bietet das Video eine gründliche Einführung in diese Suchalgorithmen und -techniken.

  • 00:00:00 In diesem Abschnitt stellt das Video das Problem von Evil Overlord Mark Vader vor, der nach einer neuen Festung sucht, indem er die Startsuchtechniken verwendet, die er im Unterricht gelernt hat. Vader startet bei seiner aktuellen Festung, dem Tiefensuchstern, und will die 6:03-Festung erreichen, die keine Schwächen hat und über alle wünschenswerten Merkmale wie versklavte Schergen, Haie mit Laserstrahlen und einen großartigen Fluchtweg verfügt. Das Video zeigt eine Grafik der Explorationsoptionen, bei der Kanten mit Festungen verbunden sind, die sich nur durch ein Merkmal unterscheiden, und den Zuschauern mehrere Suchmethoden angeboten werden, einschließlich des zuverlässigen, aber langsameren Ansatzes und des schnellen, aber fehleranfälligeren Ansatzes.

  • 00:05:00 In diesem Abschnitt erläutert der Videomoderator verschiedene Ansätze zur Lösung der Tiefensuche. Obwohl es einen sehr schnellen Ansatz gibt, ist er anfälliger für Fehler und wird normalerweise nicht verwendet. Stattdessen empfiehlt der Moderator, den Zielbaum zu verwenden und am Startknoten zu beginnen und am Zielknoten zu enden, was etwas schneller ist, als die gesamte Agenda zu zeichnen. Der Moderator erklärt auch das Konzept der Lexikographie und wie es verwendet wird, um bei einer Suche Verbindungen in alphabetischer Reihenfolge zu lösen. Außerdem warnt das Video davor, sich in den eigenen Schwanz zu beißen, was ein häufiger Fehler bei der Implementierung von Regeln in einem System ist. Abschließend betont der Präsentator, wie wichtig es ist, dass derselbe Knoten nicht zweimal innerhalb desselben Pfads erscheint, da dies zu Fehlern führen kann.

  • 00:10:00 In diesem Abschnitt erklärt der Referent, wie man ein Problem mit der Tiefensuche unter Verwendung eines Zielbaums anstelle einer Warteschlange löst. Sie beginnen bei Knoten s und bitten das Publikum um Hilfe, um die Auswahlmöglichkeiten an diesem Knoten herauszufinden. Der Referent betont, wie wichtig es ist, die Konnektivität zu überprüfen und Anweisungen zu lesen. Sie verwenden lexikografisches Tiebreak, um zu entscheiden, zu welchem Knoten sie als nächstes gehen, und gehen zurück, wenn sie in eine Sackgasse geraten. Sie warnen auch vor dem Fehler, Backtracks doppelt zu zählen, und erinnern das Publikum daran, darauf zu achten, wie oft sie zurückgehen.

  • 00:15:00 In diesem Abschnitt erklärt der Referent die Bedeutung des Algorithmus bei der Durchführung einer Suche, da er die Anzahl der Schritte beeinflussen kann, die zum Finden der Lösung erforderlich sind. Sie besprechen auch die Technik des Backtracking und geben Ratschläge, wie man während der Suche den Überblick behält. Der Sprecher fährt dann fort, um zu demonstrieren, wie eine Tiefensuche durchgeführt wird, und schlägt einen schnellen Weg vor, um die Frage der Breitensuche zu lösen. Sie heben hervor, dass der während einer Breitensuche gefundene Pfad garantiert die geringste Anzahl von Sprüngen aufweist, und sie weisen an, den Graphen Ebene für Ebene von links nach rechts zu erweitern. Abschließend klärt der Sprecher die Verwendung der Typ-Rang-Reihenfolge bei einer Breitensuche.

  • 00:20:00 In diesem Abschnitt betont der Sprecher, wie wichtig es ist, die Pfade in der Warteschlange für den im Video verwendeten Suchalgorithmus nicht zu sortieren. Sie erklären, dass die Best-First-Suche Bindungen nur löst, wenn sie einen Knoten erreicht, und dass sie immer alles am Ende der Warteschlange hinzufügen, was bedeutet, dass sie nicht zurückgehen müssen. Sie erwähnen auch, dass die grafische Reihenfolge zwar eine Rolle bei der Suche spielt, aber nur subtil und auf hinterhältige Weise. Schließlich diskutieren sie die Möglichkeit der Breitensuche mit einer erweiterten Liste, mit der verhindert werden kann, dass das Programm bereits besuchte Knoten erneut auswertet.

  • 00:25:00 In diesem Abschnitt des Videos erläutert der Sprecher die optimale Suche anhand eines Beispiels, in dem Mark versucht, den kürzesten Weg von seinem aktuellen Universum zu seinem Zieluniversum mit unterschiedlichen Energiekosten zwischen den Universen zu finden. Das Diagramm enthält Entfernungen und heuristische Werte, die jedem Knoten gegeben werden, und der Sprecher erklärt, dass der Algorithmus die heuristischen Werte verwendet, um die Suche zum Zielknoten zu leiten, während er auch die tatsächlichen Kosten zum Erreichen jedes Knotens berücksichtigt. Der verwendete Algorithmus ist der A-Star-Algorithmus, der Knoten mit den niedrigsten kombinierten tatsächlichen und heuristischen Kosten erweitert. Der Referent erklärt auch die Bedeutung der Verwendung einer erweiterten Liste, um eine Wiederholung der Suche zu verhindern, und geht auf eine Frage zur Reihenfolge ein, in der Knoten zur Suche hinzugefügt werden.

  • 00:30:00 In diesem Abschnitt stellt Mark das Konzept vor, die kürzeste Anzahl von Universumssprüngen zu programmieren, die ihn zum Ziel bringen, ohne zu viel Energie zu verbrauchen. Er erklärt seine einfache Ast-and-Bound-Suche, die wie eine Käsepizza ist, während eine A-Sterne-Suche wie eine Pizza für Fleischliebhaber mit extra Belag ist. Sie können sich jedoch gegenseitig beeinflussen, daher ist es entscheidend, den aktuell kürzesten Weg zu wählen. In dem Beispiel fügt der Computer den Knoten C der erweiterten Liste hinzu und markiert ihn als den einzigen Pfad mit einer Länge von 0. Die Länge von SB ist 3 und hat Pfadkosten von 103, während f 4 mit Kosten ist von 14. Obwohl Tie-Breaker in lexikografischer Reihenfolge ignoriert werden, wird der kürzeste Pfad gewählt, und sobald B verbraucht ist, geht es zu D mit einer Länge von 4, und daher ist die aktualisierte Pfadlänge zu G 7.

  • 00:35:00 In diesem Abschnitt fährt der Sprecher mit dem optimalen Suchalgorithmus fort und erweitert die Pfade S, B, F und D. Der Pfad E wird dann auf H und A erweitert, und der kürzeste Pfad wird als SFHIG ermittelt . Der Redner erwähnt auch die Verwendung von A-Star als effizienteren Suchalgorithmus und geht auf Fragen aus dem Publikum zum Erweitern von Knoten ein, die bereits auf der erweiterten Liste stehen. Die richtige Antwort wird letztendlich erreicht, trotz anfänglicher Verwirrung darüber, ob der Pfad mit C und D verbunden ist.

  • 00:40:00 In diesem Abschnitt erörtert der Sprecher einige Fehler, die im vorherigen Abschnitt gemacht wurden und dazu führten, dass einige Knoten aus dem endgültig erstellten Baum ausgeschlossen wurden. Er stellt klar, dass der Knoten auch zu "e" gehen sollte und dass es einen Unterschied gemacht hätte, wenn sie gefragt hätten, wie oft ein Knoten ausgeführt wurde, weil er nicht auf der erweiterten Liste stand. Anschließend diskutieren sie den A-Star-Algorithmus und die Berechnung heuristischer Werte. Es wird betont, dass es wichtig ist, heuristische Werte nicht für jeden Knoten in der Liste hinzuzufügen, sondern stattdessen den bisherigen Pfad zum endgültigen heuristischen Wert hinzuzufügen. Sie stellen auch klar, dass die Entscheidung, Knoten „G“ zu erweitern, Geschmackssache und ein Implementierungsdetail ist, das keine Punkte in Bezug auf die Problemstellung verliert. Schließlich lösen sie die A-Star-Suche auf und der endgültige Gewinner wird als Knoten „D“ mit einem Wert von 57 bestimmt.

  • 00:45:00 In diesem Abschnitt fasst das Video einen Suchalgorithmus namens A* zusammen und zeigt, wie man ihn optimal nutzt, um den kürzesten Weg in einem Diagramm zu finden. Das Video erörtert die Bedeutung zulässiger Heuristiken an jedem Punkt des Diagramms. Zulässig bedeutet, dass die Schätzung der verbleibenden Arbeit immer eine Unterschätzung oder eine genaue Vorhersage ist. Eine überschätzte Heuristik führt dazu, dass der Algorithmus denkt, dass er mehr Arbeit als nötig leisten muss und möglicherweise wichtige Knoten nicht untersucht. Das Video spricht auch über Konsistenz, was bedeutet, dass der Abstand zwischen benachbarten Knoten in einem Diagramm geringer ist als der Unterschied in der Heuristik zwischen diesen Knoten. Das Video betont, wie wichtig es ist, diese Konzepte zu verstehen, da sie wahrscheinlich im Quiz vorkommen werden.

  • 00:50:00 In diesem Abschnitt erläutert der Referent die Konzepte der Zulässigkeit und Konsistenz bei der Graphensuche. Zulässigkeit ist wie Konsistenz, erfordert aber Konsistenz zwischen jedem Knoten und dem Zielknoten. Jeder Graph, der konsistent ist, ist immer zulässig, aber nicht jeder zulässige Graph ist konsistent. Eine erweiterte Liste funktioniert mit zulässigen Graphen, da sie Schätzungen für jeden Knoten bis zum Zielknoten überprüft. Wenn jedoch Schätzungen innerhalb von Knoten falsch sind, verstößt das Durchgehen in der falschen Reihenfolge gegen die Annahme, die getroffen wurde, als entschieden wurde, die erweiterte Liste zu verwenden. Das im Video gezeigte Diagramm ist fachmännisch als Engpass-Zielknoten gestaltet und enthält Inkonsistenzen zwischen Knoten, einschließlich I und H, die sich als die einzigen Inkonsistenzen herausstellen, die von Bedeutung sind. Abschließend ermutigt der Redner die Zuschauer, Fragen zu diesem Thema zu stellen.
Mega-R2. Basic Search, Optimal Search
Mega-R2. Basic Search, Optimal Search
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers Problem ...
 

Mega-R3. Spiele, Minimax, Alpha-Beta



Mega-R3. Spiele, Minimax, Alpha-Beta

Dieses Video behandelt verschiedene Themen im Zusammenhang mit der Spieltheorie und dem Minimax-Algorithmus, einschließlich regulärem Minimax, Alpha-Beta-Additions, Alpha-Beta-Pruning, statischer Bewertung, progressiver Vertiefung und Neuordnung von Knoten. Der Dozent erklärt und demonstriert diese Konzepte anhand von Beispielen und bittet das Publikum, sich an der Bestimmung der Werte an verschiedenen Knoten in einem Spielbaum zu beteiligen. Das Video endet mit einer Diskussion der potenziellen Fehler in heuristischen Funktionen und Ratschlägen für das bevorstehende Quiz.

  • 00:00:00 In diesem Abschnitt stellt der Dozent das Konzept von Spielen vor und erwähnt, dass der Schwerpunkt auf den verschiedenen Komponenten von Spielen liegen wird. Anschließend erklären sie den regulären Minimax-Algorithmus und wie man den Minimax-Wert an einem bestimmten Punkt in einem Spielbaum ermittelt. Anhand eines beispielhaften Spielbaums führt der Dozent die Zuhörer durch den Algorithmus und ermittelt an verschiedenen Knoten den Minimax-Wert. Auch das Schneewittchen-Prinzip und die Bestandsschutzklausel werden kurz erwähnt.

  • 00:05:00 In diesem Abschnitt des Videos erklärt der Sprecher die Alpha- und Beta-Ergänzungen zur Minimax-Formel in der Spieltheorie. Er vergleicht die Addition dieser Zahlen mit dem Kalten Krieg, als jede Seite versuchte, das bestmögliche Ergebnis zu finden, während sie sich auf das Schlimmste vorbereitete. Alpha und Beta stellen Zahlen dar, die eine Ausfallsicherheit oder das Worst-Case-Szenario für jede Seite bieten. Der Sprecher weist darauf hin, dass die Alpha-Beta-Suche komplizierter ist als Minimax und für manche Menschen eine Herausforderung darstellen kann. Er erwähnt jedoch auch, dass die Beherrschung der Alpha-Beta-Suche beim Verständnis und der Lösung von Minimax-Problemen helfen kann.

  • 00:10:00 In diesem Abschnitt erläutert der Dozent das Konzept von Alpha und Beta als nukleare Optionen für den Maximizer bzw. Minimizer. Das Festlegen von Alpha als negative Unendlichkeit und Beta als positive Unendlichkeit schafft eine Ausfallsicherheit, die sicherstellt, dass sowohl der Maximizer als auch der Minimizer jedes Mal den ersten Pfad betrachten, den sie sehen. Während der Algorithmus fortschreitet, ändert sich der Wert von Alpha und Beta in Abhängigkeit vom möglichen Ausgang des Spiels. Wenn Beta niedriger als Alpha oder Alpha niedriger als Beta wird, beschneidet der Algorithmus den Zweig und signalisiert damit, dass einer der Spieler diesen Zweig nicht mehr erkunden möchte. Der Dozent weist auch darauf hin, dass es verschiedene Methoden gibt, um Alpha- und Beta-Zahlen an verschiedenen Knoten des Spielbaums zu ziehen.

  • 00:15:00 In diesem Abschnitt erläutert der Referent das im Alpha-Beta-Algorithmus verwendete Schneewittchen-Prinzip. Das Prinzip besteht darin, die Alpha- und Beta-Werte von Elternknoten zu erben, aber den besseren Wert für sich selbst zu nehmen, wenn man zu einem Elternknoten aufsteigt. Die standardmäßigen Alpha- und Beta-Werte wurden ebenfalls diskutiert, wobei Alpha negativ unendlich und Beta positiv unendlich ist. Der Sprecher zeigt dann ein Beispiel für Alpha-Beta-Pruning und bittet das Publikum, die Alpha- und Beta-Werte an jedem Knoten im Suchbaum zu bestimmen. Eine Fangfrage wird eingeworfen, um zu betonen, dass der Alpha-Beta-Algorithmus vermeiden kann, bestimmte Knoten basierend auf den von den Elternknoten geerbten Werten zu durchsuchen.

  • 00:20:00 In diesem Abschnitt erläutert der Referent das Prinzip des Alpha-Beta-Pruning, bei dem Äste eines Entscheidungsbaums abgeschnitten werden, die voraussichtlich nicht zu einem besseren Ergebnis führen. Der Redner gibt ein Beispiel, das die Optionen eines nuklearen Angriffs eines Feindes betrifft, und bestimmt, welche Entscheidungen auf der Grundlage des Alpha-Beta-Pruning-Prinzips zu beschneiden sind. Zusätzlich bietet der Sprecher einen Plausibilitätstest, um festzustellen, ob ein Zweig gekürzt werden kann oder nicht, und die Fähigkeit des Maximizers festzustellen, ob ein Zweig übersprungen werden soll oder nicht, im Gegensatz zum Minimierer, der im Entscheidungsbaumspiel mit unendlich beginnt.

  • 00:25:00 In diesem Abschnitt des Videos erläutert der Sprecher den Prozess der Bestimmung von Alpha- und Beta-Werten in einem Minimax-Algorithmus, indem er die Werte an verschiedenen Knoten in einem Spielbaum analysiert. Der Sprecher erklärt, dass beim Auftreffen auf einen Minimizer-Knoten der Beta-Wert auf positiv unendlich gesetzt wird und beim Auftreffen auf einen Maximizer-Knoten der Alpha-Wert auf negativ unendlich gesetzt wird. Der Sprecher verwendet dann bestimmte Werte in einem Spielbaum, um zu demonstrieren, wie der Algorithmus funktioniert und wie Knoten gekürzt werden, wenn der Alpha-Wert größer oder gleich dem Beta-Wert ist. Abschließend diskutiert der Referent die Reihenfolge, in der Knoten in einem Spielbaum mit progressiver Vertiefung ausgewertet werden.

  • 00:30:00 In diesem Abschnitt erläutert der Referent das Konzept der statischen Auswertung, bei der es sich im Wesentlichen um die Funktion handelt, die für die Zuweisung numerischer Werte zu Blattknoten verantwortlich ist. Der statische Auswerter ordnet diese Werte der Unterseite der Blätter zu, und die Auswertungsreihenfolge bezieht sich ausschließlich auf die Blätter. Der Referent erläutert auch das Schneewittchen-Prinzip, bei dem jeder Knoten zunächst den Wert des gleichen Typs von seinem Großelternteil (Alpha oder Beta) übernimmt. Der Maximierer hat keine Kontrolle darüber, welchen Pfad er nehmen soll; es ist der Minimierer, der auswählt, welcher Weg verfolgt werden soll. Das Konzept der statischen Bewertung ist für die Alpha-Beta-Pruning-Technik von entscheidender Bedeutung, da es bei der Entscheidung hilft, ob ein bestimmter Pfad eliminiert werden soll oder nicht. Im Wesentlichen trägt die statische Auswertung zur Effizienz des Algorithmus bei und ermöglicht Alpha-Beta-Pruning, mehr Zeit zu sparen, indem einige statische Auswertungen abgeschafft werden.

  • 00:35:00 In diesem Abschnitt erläutert der Referent das Konzept statischer Bewertungen, die zur Bewertung der Brettposition in Spielen wie Schach verwendet werden. Die Auswertung dauert lange und erfordert eine sorgfältige Analyse des Spielstandes. Die Blattknoten des Suchbaums werden als statisch bezeichnet, weil sie heuristische Schätzungen des Werts sind, die auf der Analyse des Stands des Spiels basieren. Der Redner führt auch das Konzept der progressiven Vertiefung bei einem Baum ein, der nur zwei Ebenen tief ist, und fragt, wie der Baum neu geordnet werden kann, damit Alpha-Beta so viel wie möglich beschneiden kann.

  • 00:40:00 In diesem Abschnitt erklärt der Kursleiter, wie der Minimax-Algorithmus verwendet wird, um den Prozess der Suche nach dem besten Knoten zu optimieren, indem die Zweige basierend auf dem potenziellen Gewinner neu geordnet werden, da es einfacher ist, alle falschen schnell abzulehnen der eventuelle Gewinner wird zuerst ausgewählt. Der Ausbilder veranschaulicht dieses Konzept, indem er jedem Blattknoten einen binären Wert zuweist und die Werte verwendet, um den endgültigen Gewinner für jeden Teilbaum zu berechnen und so den optimalen Zug zu finden. Die Kombination dieses Ansatzes mit progressiver Vertiefung würde die Anzahl der zu bewertenden Knoten erheblich reduzieren.

  • 00:45:00 In diesem Abschnitt erörtert der Dozent die progressive Vertiefung und die Möglichkeit, Knoten neu anzuordnen, um das Alpha-Beta-Pruning zu verbessern. Während die fortschreitende Vertiefung bei kleinen, nicht verzweigten Bäumen Zeitverschwendung sein kann, ist sie bei größeren, komplexeren Bäumen unerlässlich. Das Konzept der Neuordnung von Knoten basierend auf progressiven Vertiefungsergebnissen hängt jedoch von der Genauigkeit der heuristischen Funktion ab. Der Dozent betont, dass keine heuristische Funktion perfekt ist und eine fehlerhafte heuristische Funktion zu schlechteren Ergebnissen bei der Neuordnung von Knoten führen kann. Abschließend erläutert der Dozent, wie Heuristikwerte für konsistente Heuristikfunktionen zwischengespeichert werden können, z. B. in Fällen, in denen einem bestimmten Spielzustand immer derselbe Heuristikwert zugeordnet wird, unabhängig davon, wie der Zustand erreicht wurde.

  • 00:50:00 In diesem Abschnitt des Videos erörtert der Ausbilder die potenziellen Nachteile der Verwendung einer Heuristik, die immer den schlechtesten Zug anstelle des besten Zugs liefert. Während es helfen könnte, Risiken zu minimieren, könnte es auch zu der schlimmstmöglichen Beschneidung führen, was zu einem Mangel an garantiertem Erfolg führt. Der Ausbilder erwähnt, dass das bevorstehende Quiz interessant sein und abwechslungsreiche Herausforderungen beinhalten wird. Allerdings rät er den Studierenden, sich deswegen nicht zu sehr zu stressen und das Wochenende zu genießen.
Mega-R3. Games, Minimax, Alpha-Beta
Mega-R3. Games, Minimax, Alpha-Beta
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers Problem ...
 

Mega-R4. Neuronale Netze



Mega-R4. Neuronale Netze

Das Video behandelt verschiedene Aspekte neuronaler Netze, einschließlich ihrer Darstellungen, Verwirrung über Eingaben und Ausgaben, Sigmoid- und Leistungsfunktionen, Gewichtungen und Verzerrungen, Backpropagation, Änderung der Sigmoid- und Leistungsfunktionen, Schwellengewichte, Visualisierung und das Potenzial neuronaler Netze. Der Ausbilder erklärt verschiedene Formeln, die für das Quiz benötigt werden, und wie Deltas rekursiv berechnet und angepasst werden. Er erörtert auch die Arten von neuronalen Netzen, die zur Lösung einfacher Probleme erforderlich sind, und erwähnt eine aktuelle Anwendung von neuronalen Netzen in der realen Welt in einem Spielwettbewerb an der University of Maryland. Abschließend erwähnt er, dass neuronale Netze zwar aufgrund ihrer Einschränkungen und Komplexität in der Forschung in Ungnade gefallen sind, sie aber immer noch für Quizzwecke nützlich sind.

  • 00:00:00 In diesem Abschnitt stellt Patrick eine neue Art vor, neuronale Netze für die Probleme in 603 zu zeichnen. Er zeigt zwei verschiedene Darstellungen desselben neuronalen Netzes und erklärt, warum die rechte vorzuziehen ist. Er bespricht auch einige Probleme, auf die Studenten häufig stoßen, wenn sie mit neuronalen Netzen arbeiten, wie zum Beispiel die Verwirrung über Eingaben und Ausgaben und die implizite Multiplikation mit Gewichten. Patrick bietet eine Konvertierungsanleitung für Schüler, die mit älteren Quiz arbeiten, und arbeitet die für das Quiz erforderlichen Formeln durch. Schließlich erwähnt er die Möglichkeit, dass die Sigmoidfunktion in eine andere Funktion geändert wird, und rät den Schülern, sie in einem solchen Fall in ein Plus zu ändern.

  • 00:05:00 In diesem Abschnitt erklärt der Kursleiter die Sigmoid-Funktion, die 1 über 1 plus e hoch minus x ist, und ihre wichtige Eigenschaft, wobei die Ableitung von Sigmoid selbst ist. Auch die Performance-Funktion, die den neuronalen Netzen mitteilt, wie falsch ihre Ergebnisse sind, wird diskutiert. Sie haben ihre Präferenzfunktion mit 1/2 D gewählt, was der gewünschten Ausgabe minus der tatsächlichen Ausgabe im Quadrat entspricht, und der Grund dafür ist, dass die Ableitung der Leistung negativ ist, was die Berechnung erleichtert. Der Ausbilder spricht dann über das Ändern der Sigmoidfunktion in eine andere Funktion und analysiert, was mit den Backpropagation-Funktionen passiert, insbesondere der neuen Gewichtsberechnung, bei der die Gewichte schrittweise in Richtung des gewünschten Ergebnisses geändert werden.

  • 00:10:00 In diesem Abschnitt erklärt der Sprecher die Gewichtungen und Vorspannungen, die in neuronalen Netzen verwendet werden. Die Gewichtungen werden durch Namen wie „w1I“ und „w2B“ dargestellt, wobei „I“ und „B“ Knoten im Netzwerk sind. Bias-Offsets werden immer an -1 angehängt, und der Wert von Alpha, der die Größe der Bergsteigerschritte bestimmt, wird in Quizfragen angegeben. Eingaben an die Knoten werden durch „I“ dargestellt und sie werden mit Delta multipliziert, was die Änderung in der Ausgabe des neuronalen Netzes aufgrund einer Änderung in einem bestimmten Gewicht ist. Die Deltas werden unter Verwendung partieller Ableitungen berechnet, um zu bestimmen, wie viel die Gewichtungen zur Leistung des Netzes beitragen.

  • 00:15:00 In diesem Abschnitt erörtert der Sprecher den Prozess der Verwendung von Ableitungen und der Kettenregel, um die endgültigen Gewichte in der letzten Ebene der neuronalen Netze zu erhalten. Die Ableitung der Sigmoidfunktion wird verwendet, und die Gewichte in den vorherigen Schichten müssen ebenfalls berücksichtigt werden, um die Deltas für die neuen Gewichte zu berechnen. Der Sprecher schlägt eine rekursive Lösung vor, bei der alle Kinder eines bestimmten Knotens summiert werden, was wiederum die Ausgabe beeinflusst. Dieser Prozess wird rekursiv durchgeführt, bis die Deltas für die Endgewichte erhalten werden.

  • 00:20:00 In diesem Abschnitt erläutert der Kursleiter, wie sich die Änderung der Sigmoidfunktion und der Leistungsfunktion auf die im neuronalen Netzwerk verwendeten Gleichungen auswirken kann. Er erklärt, dass sich bei einer Änderung der Sigmoidfunktion nur die Delta-F-Gleichung ändert, die durch die neue Ableitung der Sigmoidfunktion ersetzt wird. Wenn die Leistungsfunktion ersetzt wird, muss in ähnlicher Weise nur die Delta-F-Gleichung angepasst werden. Der Ausbilder erklärt dann den Unterschied zwischen Schwellengewichten und regulären Gewichten in einem neuronalen Netz und wie sie die Gesamtfunktion des Netzes beeinflussen.

  • 00:25:00 In diesem Abschnitt spricht der Referent darüber, wie man neuronale Netze visualisiert und wie wichtig es ist, eine für Sie sinnvolle Darstellung zu haben, um die Probleme effektiv zu lösen. Er erklärt, wie ein Addiererknoten funktioniert und dass seine Ableitung nur eine ist. Er stellt eine Formel für Delta F und Delta a bereit und erklärt den Prozess für Teil B, der die Berechnung der Ausgabe für ein neuronales Netz und die Durchführung einer One-Step-Back-Propagation umfasst, um die neuen Gewichte zu finden. Er bittet die Schüler, Fragen zu stellen, um ihre Zweifel auszuräumen, da er nicht jeden anrufen kann, um zu überprüfen, ob sie ihm folgen.

  • 00:30:00 In diesem Abschnitt erläutert das Video die neuen Gewichtungen für das neuronale Netz und die Ausgabe nach einem Backpropagation-Schritt. Die neuen Gewichte wurden unter Verwendung der alten Gewichte, der Lernratenkonstante und der Delta-Werte berechnet. Die Ausgabe wurde schließlich auf 3 festgelegt. Das Video wirft dann die Frage auf, was passieren würde, wenn das Netz darauf trainiert würde, die gegebenen Daten zu lernen, und erklärt dann, wie neuronale Netze Linien auf Graphen für jeden der Knoten im Netz zeichnen können. Es wird jedoch darauf hingewiesen, dass es etwas schwierig ist, vorherzusagen, was dieses Netz ziehen wird.

  • 00:35:00 In diesem Abschnitt des Transkripts diskutiert der Sprecher ein neuronales Netz, das auf nur einen Knoten hinausläuft, da es sich jedes Mal summiert und niemals einen Schwellenwert annimmt, wodurch es analog statt digital wird. Die vereinfachte Form des neuronalen Netzes enthält Knoten, die durch Kreise dargestellt werden, wobei jeder Kreis ein Sigmoid hat. Es gibt ein Problem, bei dem ABCDEF mit eins bis sechs abgeglichen werden muss, wobei jeder nur einmal verwendet wird. Der Sprecher erklärt, dass jeder Sigmoid-Knoten eine Linie in das Bild zeichnen kann, die diagonal sein kann, wenn er beide Eingaben empfängt, oder horizontal/vertikal, wenn eine Eingabe empfangen wird. Die Knoten der sekundären Ebene können eine logische boolesche Operation wie und/oder an den ersten beiden ausführen. Der Sprecher identifiziert dann das einfachste Problem, nämlich Problem 6, und kommt zu dem Schluss, dass es eine Eins-zu-Eins-Zuordnung jedes Netzes zu einem Problem gibt, das alle sechs Probleme zusammen lösen kann.

  • 00:40:00 In diesem Abschnitt erörtert der Sprecher, wie schwierig es ist, ein X- oder neuronales Netz zu erstellen, da es schwierig ist, zwischen den beiden Eingängen zu unterscheiden, die in einem einzelnen Knoten hoch sein müssen. Es gibt jedoch viele Möglichkeiten, und der Sprecher schlägt vor, Knoten 3 und Knoten 4 zu verwenden, um Werte zu liefern, und Knoten 5, um eine Schwellenkombination bereitzustellen, die zu einem XOR führt. Der Sprecher erklärt auch, dass es unmöglich ist, zwei horizontale Linien wie B zu paaren, aber weil D eine horizontale Linie und eine vertikale Linie zeichnen muss, müssen sie B verwenden, um zwei horizontale Linien zu erstellen.

  • 00:45:00 In diesem Abschnitt erläutert der Referent den Zweck der Zeichenübung für neuronale Netze. Durch das Zeichnen einfacher Probleme können Menschen die Arten von neuronalen Netzen erkennen, die möglicherweise zur Lösung erforderlich sind. Dies kann Menschen dabei helfen, den Entwurf neuronaler Netze zu vermeiden, die für ein bestimmtes Problem zu einfach oder zu komplex sind. Der Redner liefert auch ein Beispiel für eine aktuelle reale Anwendung von neuronalen Netzen in einem Spielwettbewerb an der University of Maryland.

  • 00:50:00 In diesem Abschnitt des Videos diskutiert der Sprecher das Potenzial neuronaler Netze beim Lernen verschiedener Aufgaben und Regeln. Er beschreibt ein Experiment, bei dem ein neuronales Netz darauf trainiert wurde, irgendetwas aus einer Reihe zufälliger Daten zu lernen, und während die Ergebnisse des Experiments unklar waren, versuchten andere Teilnehmer der Studie, grundlegende Eigenschaften der Regeln durch experimentelle Tests herauszufinden. Der Redner erklärt weiter, dass neuronale Netze in vielen Forschungsbereichen, einschließlich der Kognitionswissenschaft und der künstlichen Intelligenz, verwendet wurden, sie jedoch aufgrund ihrer Einschränkungen und Komplexität in Ungnade gefallen sind. Trotzdem erwähnt der Referent, dass sie einfache Netze für Quizzwecke erstellen, stellt jedoch klar, dass jedes tatsächliche neuronale Netz, das heute in der Forschung verwendet wird, für ein Quiz zu kompliziert wäre.
Mega-R4. Neural Nets
Mega-R4. Neural Nets
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterWe begin by discussing neural net fo...
 

Mega-R5. Support-Vektor-Maschinen



Mega-R5. Support-Vektor-Maschinen

Das Video erklärt Support Vector Machines (SVMs), die die Trennlinie oder Entscheidungsgrenzen in den Daten bestimmen, indem sie die Support-Vektoren finden, die nicht mit anderen Datenpunkten übereinstimmen. Es beinhaltet auch die Verwendung von Kernelfunktionen, die es dem Kernel ermöglichen, das Skalarprodukt zu berechnen, ohne die Vektoren direkt zu manipulieren. Der Professor verdeutlicht das Ziel, die Alphas zu finden, die das beste W für die breiteste Straße liefern, und wie W die Entscheidungsgrenze für SVM ist. Studenten fragen nach der Intuition hinter SVM, und die auf Alphas basierende Optimierung schafft den breitesten Weg für eine bessere Datenklassifizierung. SVM Kernel hilft auch bei der Optimierung des Prozesses und macht ihn effizienter.

  • 00:00:00 In diesem Abschnitt stellt der Referent Support Vector Machines (SVMs) vor und erklärt, dass sie eines der am schwierigsten zu erlernenden Dinge in diesem Kurs sind. Er erklärt jedoch, dass es jetzt einige Abkürzungen gibt, die helfen können, einige Probleme zu lösen, ohne sich mit riesigen, komplexen Gleichungssystemen auseinandersetzen zu müssen. Das vorliegende Problem erfordert das Kreisen von Stützvektoren, das Zeichnen der Straßenränder, das Darstellen der gepunkteten Linie in der Mitte und die Angabe von W und B. Der Referent erklärt dann die wichtigen Gleichungen in SVMs und wie man die gepunktete Linie mithilfe von zwei Koeffizienten findet und eine lineare Gleichung, wobei W1 und W2 zwei Koeffizienten und X1 und X2 zwei Komponenten des Vektors X sind.

  • 00:05:00 In diesem Abschnitt behandelt das Video die Gleichung einer Linie in kartesischen Koordinaten und ihre Beziehung zur Gleichung W Punkt X plus B gleich 0 in Support Vector Machines. Das Video erklärt, dass Alphas verwendet werden, um die Bedeutung jedes Punktes für die Erstellung der Grenze zu bestimmen, und dass die positiven Alphas gleich den negativen Alphas sind. Das Video enthält auch Gleichungen, die beim Auflösen nach W und B verwendet werden können, und erwähnt, dass Stützvektoren bei der Bestimmung der Lösung wichtig sind. Der Moderator stellt klar, dass Unterstützungsvektoren Vektoren auf den Grenzlinien sind und das Ziel darin besteht, sie zu umkreisen.

  • 00:10:00 In diesem Abschnitt geht der Referent auf die Frage ein, was ein Stützvektor ist, und stellt klar, dass bei komplexeren Problemen mit zahlreichen Dimensionen Vektoren verwendet werden, um die Datenpunkte darzustellen, wenn sie nicht auf einer Zwei dargestellt werden können -dimensionale Ebene. Der Sprecher erklärt, dass Stützvektoren die Punkte sind, die die Hyperebene verbinden und gefunden werden, indem man versucht, den größtmöglichen Abstand zwischen den positiven und negativen Datenpunkten zu haben. Darüber hinaus merkt der Sprecher an, dass der dritte Unterstützungsvektor manchmal nicht existiert, und sie veranschaulichen ihren Standpunkt mit einem Beispiel eines Punktepaars auf einer Ebene.

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie man W und B in einer Support Vector Machine findet. Anstatt die alte Methode zu verwenden, Punkte in eine Gleichung einzufügen, führt der Sprecher eine billige Strategie ein, indem er die Gleichung in die Form y = mx + b umwandelt. Durch Setzen von y = x - 1 zeigt der Sprecher, wie dies verwendet werden kann, um eine neue Gleichung y = -w1/w2 - b/w2 zu finden. Mit dieser Form zeigt der Sprecher, dass es unendlich viele mögliche Gleichungen gibt und dass w1/w2 ein skalares Vielfaches von -1 und B/w2 ein skalares Vielfaches von 1 ist.

  • 00:20:00 In diesem Abschnitt erläutert der Referent, wie der Wert von K bestimmt wird, um W1, W2 und B für eine Support-Vektor-Maschine zu berechnen. Die Größe von W kann unter Verwendung der Quadratwurzel der Summe der quadrierten Komponenten berechnet werden, was Wurzel 2 zu 4 entspricht. Da das Verhältnis von W1 und W2 gleich minus 1 ist, ist W1 quadratisch gleich W2 quadratisch, wenn es quadriert wird. Somit wird unter Verwendung dieser Formel W1 als negativ 1/4 berechnet, und da W1 negativ ist, sind W2 und B gleich positiv 1/4. Der Sprecher schlägt auch vor, dass die Alpha-Plus- und Alpha-Minus-Werte auf der Grundlage einer Gleichung gleich sind.

  • 00:25:00 In diesem Abschnitt arbeitet der Referent weiter an Beispielen von Support Vector Machines. Der Sprecher merkt an, dass in Beispiel Nummer zwei ein zusätzliches Minuszeichen hinzugefügt wurde. Sie erklären weiter, wie man den Unterstützungsvektor angesichts dieses neuen negativen Vorzeichens bestimmen kann. Die Berechnungen zur Bestimmung des Abstands werden gezeigt, und die Größe von W wird als Wurzel 2 über 3 ermittelt. Der Sprecher merkt an, dass die Berechnung der Alphas in diesem Beispiel aufgrund der Hinzufügung neuer Punkte länger dauert, aber die endgültige Antwort erreicht wird .

  • 00:30:00 In diesem Abschnitt liegt der Fokus auf der Verwendung von Support Vector Machines auf einem eindimensionalen Vektor, was eine lineare Basislinie für die Klassifizierung der Daten ungeeignet macht. Um dieses Problem zu lösen, wird eine Kernel-Funktion verwendet, um die Daten in eine neue Dimension zu bringen. Die Funktion wird typischerweise Phi genannt, und wenn sie auf den Vektor X angewendet wird, bringt sie ihn in diese neue Dimension. In dieser neuen Dimension kann eine gerade Linie gezogen werden, um die Daten einzuordnen. Der Erfinder der SVMs hat erkannt, dass man nicht mit der Funktion Phi arbeiten muss, auch wenn es ein schreckliches Monster ist, da der Kernel verwendet werden kann, um das Skalarprodukt zwischen zwei Vektoren in der neuen Dimension zu berechnen, ohne Phi explizit zu berechnen.

  • 00:35:00 In diesem Abschnitt erklärt der Sprecher, wie man eine Kernel-Funktion verwendet, um das Skalarprodukt zweier Vektoren in einem regulären Raum zu finden, wodurch die Notwendigkeit entfällt, die Vektoren selbst direkt zu verwenden. Indem die Vektoren X und Z in den Kernel eingefügt werden, gibt die resultierende Funktion Phi von X gepunktet mit Phi von Z zurück, wodurch das Skalarprodukt der beiden Vektoren ersetzt wird. Der Sprecher gibt ein Beispiel für eine Kernel-Funktion und fordert das Publikum auf, die entsprechende Phi-Funktion zu finden, um das Quiz zu lösen. Der Sprecher merkt auch an, dass die Berechnung von Alphas für SVMs zwar kompliziert sein kann, die Verwendung der Kernelfunktion jedoch eine hilfreiche Abkürzung ist, um die Notwendigkeit einer direkten Vektormanipulation zu beseitigen.

  • 00:40:00 In diesem Abschnitt erörtert der Sprecher die grafische Darstellung von Punkten in einer neuen Dimension unter Verwendung ihrer Kosinus- und Sinuswerte. Die Plus- und Minuspunkte werden zusammen mit ihren jeweiligen Cosinus- und Sinuswerten angezeigt. Es gibt drei Punkte im zweiten Quadranten und drei Punkte im dritten Quadranten. Der Sprecher erörtert dann die Unterscheidung zwischen zwei Negativen und wie man die Unterstützungsvektoren lokalisiert, die als negative und positive Punkte auf der Mittelsenkrechten gefunden werden. Die beiden negativen Punkte befinden sich auf derselben Linie und sind eingekreist, anstatt auf gegenüberliegenden Seiten der Winkelhalbierenden zu liegen.

  • 00:45:00 In diesem Abschnitt erläutert der Professor die Idee hinter Support-Vektoren und deren Verwendung in SVM. Er stellt klar, dass ein Unterstützungsvektor nicht mit jedem anderen Datenpunkt identisch ist und die von SVM erstellten Trennlinien oder Grenzen von diesen Vektoren bestimmt werden. In Testdaten ist die gepunktete Linie die Entscheidungsgrenze für SVM. Der Algorithmus optimiert Alphas, indem er mathematisch die Kombination der Alphas überprüft, die das beste W für die breiteste Straße ergeben. Die Studenten hinterfragen die Intuition hinter SVM, und der Professor erklärt, dass W die Entscheidungsgrenze ist und die auf Alphas basierende Optimierung den breitesten Weg zur besseren Klassifizierung von Daten schafft. Der SVM-Kernel hilft auch bei der Optimierung des Optimierungsprozesses, wodurch er einfacher und effizienter wird.
Mega-R5. Support Vector Machines
Mega-R5. Support Vector Machines
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterWe start by discussing what a suppor...