Maschinelles Lernen und neuronale Netze - Seite 3

 

Guide to MidJourney AI Art – So starten Sie KOSTENLOS!



Guide to MidJourney AI Art – So starten Sie KOSTENLOS!

In diesem Video stellt der Referent MidJourney vor, ein Tool, das auf der Grundlage von Eingabeaufforderungen KI-Grafiken generiert, und bietet Schritt-für-Schritt-Anleitungen für den Einstieg. Sie demonstrieren anhand von Beispielen wie „3D-Rendering“ oder „Tropfende Tinte skizzieren“, wie Sie mit Befehlen den Stil und die Qualität der generierten Bilder ändern können. Darüber hinaus erklären sie den Community-Bereich der MidJourney-Website, wo Benutzer Inspiration finden und Aufforderungen kopieren können, um sie selbst auszuprobieren. Der Redner teilt auch seine Reise mit KI-Kunst und stellt zusätzliche Ressourcen und Codes für diejenigen bereit, die daran interessiert sind, mehr zu erfahren.

  • 00:00:00 In diesem Teil werden die ersten Schritte mit MidJourney erläutert, einem Tool, das KI-Kunst basierend auf Eingabeaufforderungen generiert. Um sich anzumelden, gehen Sie zur MidJourney-Website und folgen Sie den Anweisungen, um sich zu registrieren und die Discord-Einladung anzunehmen. Geben Sie in Discord den Befehl „/imagine“ gefolgt von einer Eingabeaufforderung wie „lila Mensch mit Flügeln“ ein, um ein Bild zu erstellen. Der Referent zeigt auch, wie Sie das Bild für mehr Details hochskalieren und wie Sie den Stil des Bildes mit verschiedenen Befehlen wie „3D-Rendering“ oder „Driping Ink Sketch“ ändern können. Jedes Mal, wenn ein Befehl eingegeben wird, ist das resultierende Bild einzigartig.

  • 00:05:00 In diesem Abschnitt untersucht der Erzähler die verschiedenen Stile und Qualitätsoptionen, die in der MidJourney-KI-Kunst verfügbar sind. Sie demonstrieren die Verwendung von Schlüsselwörtern und Befehlen zum Erstellen einer Reihe von Effekten auf einem 3D-Rendering, einschließlich Hyperrealismus und Stilisierung. Sie experimentieren auch damit, ein Bild von sich selbst als Eingabeaufforderung zu verwenden und die Bildgewichtung anzupassen, um unterschiedliche Ergebnisse zu erzielen.
    Darüber hinaus diskutieren sie den Community-Bereich der MidJourney-Website, wo Benutzer Inspiration finden und Eingabeaufforderungen kopieren können, um sie selbst auszuprobieren. Der Erzähler gibt auch Tipps zur verantwortungsvollen Nutzung von MidJourney, z. B. zum Hinzufügen eines Haftungsausschlusses, wenn generierte Kunst online geteilt wird.

  • 00:10:00 Der Erzähler bietet Links zu seiner Discord- und MidJourney-KI-Kunst sowie zu anderen Ressourcen und Codes im Zusammenhang mit seiner KI-Kunstreise. Sie ermutigen die Zuschauer, sich ihre Reise selbst anzusehen, und bieten zusätzliche Informationen für diejenigen, die daran interessiert sind, mehr zu erfahren.
Guide to MidJourney AI Art - How to get started FREE!
Guide to MidJourney AI Art - How to get started FREE!
  • 2022.08.18
  • www.youtube.com
Start for Free. This Guide to Midjourney AI Art will show you how to get started and show you a few tricks and give ean you an idea of how powerful this pla...
 

MidJourney – Erste Schritte [Neu & Aktualisiert] Ein kurzes Tutorial, um Ihnen den Einstieg in die KI-Kunsterzeugung zu erleichtern



MidJourney – Erste Schritte [Neu & Aktualisiert] Ein kurzes Tutorial, um Ihnen den Einstieg in die KI-Kunsterzeugung zu erleichtern

Das Video-Tutorial bietet einen umfassenden Überblick über die Verwendung der KI-Kunstgenerierungsplattform von MidJourney, auf die nur über Discord zugegriffen werden kann. Der Referent erklärt die verschiedenen verfügbaren Abonnementmodi, wie man Eingabeaufforderungen mit Künstlern und verschiedenen Bedingungen erstellt, wie man Schalter verwendet, um unerwünschte Elemente aus KI-generierten Bildern zu entfernen, und wie man die Seitenverhältnisse von Bildern hochskaliert und anpasst. Sie geben auch Tipps, wie Sie einzigartige KI-Grafiken mithilfe visuell ansprechender Eingabeaufforderungen und durch Verwendung der Variationsschaltfläche vor dem Hochskalieren erstellen können. Insgesamt wird MidJourney eher als Werkzeug für künstlerische Erforschung und Aufbruch präsentiert als als Mittel zur Schaffung fertiger Kunstwerke.

  • 00:00:00 Dieser Teil bietet einen Überblick über Mid-Journey und Discord und erklärt, dass Mid-Journey nur über Discord zugänglich ist. Sie besprechen, dass Discord eine Plattform ist, die für Voice-Chats verwendet wird, die auch zum Erstellen von Bots verwendet werden kann, wie Mid-Journey funktioniert. Sie erklären auch das Eigentum an den Vermögenswerten, die während der Reise erstellt wurden, und die Preisoptionen, die für die Nutzung des Dienstes verfügbar sind. Der Sprecher geht dann auf die verschiedenen Räume und Funktionen in Discord ein und erläutert, wie man mit der Reise beginnt, einschließlich der Verwendung der verschiedenen Befehle, die über den Schrägstrich verfügbar sind.

  • 00:05:00 In diesem Abschnitt des Tutorials erläutert der Erzähler die verschiedenen Abonnementmodi, die auf MidJourney verfügbar sind, einschließlich entspannter Modus und privater Modus. Sie erklären auch die verschiedenen Hochskalierungsmodi und warnen vor einer zu hohen Qualität, um nicht zu viele Bildnachweise zu verwenden. Der Erzähler behandelt auch kurz die Journey-Website, einschließlich des Community-Feeds, in dem Benutzer die Kreationen anderer Personen anzeigen und ihre Eingaben kopieren können. Abschließend stellt der Erzähler den „imagine“-Befehl vor und erläutert den Vorgang zum Erstellen eines Bildes mithilfe von Eingabeaufforderungen und verschiedenen Schaltern.

  • 00:10:00 In diesem Abschnitt des Tutorials erklärt der Benutzer, wie man auf der KI-Kunstgenerierungsplattform von MidJourney navigiert, einschließlich der Bewertung von Bildern für kostenlose Stunden der Bildgenerierung, der Hochskalierung und des Zugriffs auf Variationen von Bildern und der Erstellung von Eingabeaufforderungen unter Verwendung von Künstlern und anderen Bedingungen. Sie weisen darauf hin, dass schnelles Engineering zwar ein wichtiger Aspekt der KI-Kunsterstellung ist, die Benutzer jedoch auf unerwartete Ergebnisse vorbereitet sein und die Plattform eher als Ideenmotor denn als fertiges Produkt betrachten sollten.

  • 00:15:00 Dieser Teil des Video-Tutorials erklärt, wie man bestimmte Schalter verwendet, um unerwünschte Elemente aus einem KI-generierten Bild zu entfernen, wie z. B. den Schalter „no – people“. Die Wirksamkeit solcher Schalter hängt jedoch vom ausgewählten Künstler und der Komplexität des Bildes ab. Das Tutorial geht auch auf allgemeine Anweisungen ein, die einer KI-Kunstaufforderung hinzugefügt werden können, wie z. B. „sehr detailliert“ oder „Ölgemälde“, und wie wichtig es ist, Eingabeaufforderungen kurz zu halten, um den KI-Bot nicht zu verwirren. Schließlich behandelt das Tutorial, wie Sie Bilder hochskalieren und ihre Seitenverhältnisse mit MidJourney anpassen.

  • 00:20:00 Der Autor erklärt, wie man beim Hochskalieren eines Bildes zusätzliche Flags verwendet, um andere Ergebnisse zu erzielen. Die Flags beginnen mit „AR“, was für das Seitenverhältnis steht, gefolgt von Breite und Höhe, getrennt durch einen Doppelpunkt. Der Sprecher weist darauf hin, dass es Einschränkungen bei der Technologie gibt, wie z. B. Probleme mit Fingern, Gesichtern und zusätzlichen Gliedmaßen. Sie erkunden auch verschiedene Arten von Eingabeaufforderungen, wie z. B. Kryomaschine und Aquarell, und wie man sie neu mischt. Abschließend empfiehlt der Referent, mit einem einfachen Prompt zu beginnen und ihn dann durch Remixen und Hochskalieren zu perfektionieren. Das endgültige Bild kann gespeichert und von der MidJourney-Website heruntergeladen werden.

  • 00:25:00 In diesem Teil werden verschiedene Strategien zur Erstellung einzigartiger KI-Kunst mit MidJourney erörtert. Er erwähnt, dass die Verwendung von Eingabeaufforderungen mit visueller Anziehungskraft oder spezifischem Aussehen wie „Blade Runner“ oder „Cyberpunk“ hilfreich sein kann, um die Ausgabe von MidJourney zu steuern. Er schlägt auch vor, die Variationsschaltfläche zu verwenden, bevor Sie sich dazu verpflichten, ein Bild hochzuskalieren, um das bestmögliche Ergebnis zu erzielen. Schließlich erinnert er die Betrachter daran, dass MidJourney ein Werkzeug für künstlerische Erkundung und Aufbruch ist, nicht unbedingt für fertige Kunstwerke.
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
  • 2022.10.26
  • www.youtube.com
There have been a lot of changes since the launch of MidJourney and it was about time I made an updated tutorial on how to get started. As more people disco...
 

ChatGPT, erklärt: Wissenswertes über den Chatbot von OpenAI | Tech-News-Briefing-Podcast | Wallstreet Journal



ChatGPT, erklärt: Wissenswertes über den Chatbot von OpenAI | Tech-News-Briefing-Podcast | WSJ

Chatbots sind jetzt öffentlich zugänglich und können verwendet werden, um Fragen zu stellen und Antworten zu erhalten. Es gibt Bedenken darüber, wie diese Tools verwendet werden könnten, aber Experten sagen, dass die Menschen sie verwenden sollten, um ihre Arbeit zu verbessern, und nicht, um ihre Rollen zu ersetzen.

  • 00:00:00 ChatGPT, ein hochmodernes Konversations-KI-Modell, ist in der Lage, menschenähnliche Konversationen zu führen und Antworten auf Fragen zu geben. Es basiert auf riesigen Datenmengen und wird von OpenAI, einem Unternehmen für künstliche Intelligenz, verwendet, um Dolly zu entwickeln, eine KI-Plattform, die Bilder erstellt. Während ChatGPT Einschränkungen hat, wirft seine Popularität und Ausgereiftheit Fragen über seine potenzielle Verwendung und seinen Missbrauch auf.

  • 00:05:00 Chatbots sind jetzt öffentlich zugänglich und können verwendet werden, um Fragen zu stellen und Antworten zu erhalten. Es gibt Bedenken darüber, wie diese Tools verwendet werden könnten, aber Experten sagen, dass die Menschen sie verwenden sollten, um ihre Arbeit zu verbessern, und nicht, um ihre Rollen zu ersetzen.
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
  • 2022.12.07
  • www.youtube.com
ChatGPT, Lensa and DALL-E are giving more people without computing skills the chance to interact with artificial intelligence. These AI programs that can wri...
 

CS 156 Vorlesung 01 - Das Lernproblem




Machine Learning Course von Caltech – CS 156. Vorlesung 01 – Das Lernproblem

Die erste Vorlesung des Machine Learning-Kurses von Yaser Abu-Mostafa führt in das Lernproblem ein, bei dem es darum geht, Muster in Daten zu finden, um ohne menschliches Eingreifen Vorhersagen zu treffen. Er erklärt die Notwendigkeit der mathematischen Formalisierung zur Abstraktion praktischer Lernprobleme und stellt den ersten Algorithmus für maschinelles Lernen im Kurs vor, das Perceptron-Modell, das einen Gewichtsvektor verwendet, um Datenpunkte in binäre Kategorien zu klassifizieren. Der Vortrag deckt auch verschiedene Arten des Lernens ab, darunter überwachtes, unüberwachtes und bestärkendes Lernen, und stellt dem Publikum ein Problem des überwachten Lernens vor, um die Frage der Bestimmung einer Zielfunktion für das Lernen zu behandeln. Der Professor behandelt verschiedene Themen im Zusammenhang mit maschinellem Lernen. Er betont die Notwendigkeit, bei der Auswahl von Datensätzen Voreingenommenheit zu vermeiden, sowie die Wichtigkeit, eine ausreichende Datenmenge zu sammeln. Der Professor diskutiert auch die Rolle des Hypothesensatzes beim maschinellen Lernen und die Auswirkungen der Wahl der Fehlerfunktion auf die Optimierungstechnik. Er geht auch auf die Kriterien für die Aufnahme von Methoden des maschinellen Lernens in den Kurs und seinen Fokus auf die Vermittlung von praktischem Wissen statt reiner Theorie ein.

  • 00:00:00 In diesem Abschnitt stellt Yaser Abu-Mostafa den Kursplan für maschinelles Lernen vor und erklärt die Bedeutung sowohl mathematischer als auch praktischer Aspekte des Fachs. Er erklärt, dass die Kursthemen nicht voneinander getrennt sein sollen, sondern einer logischen Handlung folgen. Anschließend geht er auf das Lernproblem ein, indem er ein Beispiel dafür gibt, wie ein Zuschauer einen Film bewerten würde, was für Netflix relevant ist, da sie ihn verwenden, um Empfehlungen für ihre Kunden zu personalisieren. Er erwähnt die Bedeutung der mathematischen Formalisierung bei der Abstraktion praktischer Lernprobleme und stellt den ersten Algorithmus für maschinelles Lernen im Kurs vor. Außerdem gibt er einen Überblick über die Lernarten und endet mit einem interessanten Rätsel.

  • 00:05:00 In diesem Abschnitt erklärt der Dozent, dass die Essenz des maschinellen Lernens in der Existenz von Mustern zusammen mit der Verfügbarkeit von Daten liegt. Darüber hinaus beschreibt er die Notwendigkeit, Muster zu finden, was ohne geeignete Daten mathematisch nicht möglich ist. Am Beispiel von Filmbewertungen spricht er über die Schaffung eines Systems zur Vorhersage der Bewertung unter Verwendung der Vorlieben des Zuschauers als Vektor von Faktoren und vergleicht sie mit dem Inhalt des Films. Obwohl dieses System funktioniert, wird es nicht als maschinelles Lernen betrachtet, da es menschliches Eingreifen erfordert. Die Idee des maschinellen Lernens ist, dass es das Problem ohne menschliches Eingreifen lösen kann, indem es Muster findet und Korrekturmaßnahmen ergreift, um das System selbst zu verbessern.

  • 00:10:00 In diesem Abschnitt erörtert der Referent den Lernansatz und wie er den Bewertungsprozess zurückentwickelt, um herauszufinden, welche Faktoren mit dieser Bewertung übereinstimmen würden. Der maschinelle Lernprozess beginnt mit zufälligen Faktoren und schiebt sie in Richtung der Bewertungswerte, indem er immer wieder 100 Millionen Bewertungen durchläuft und schließlich sinnvolle Faktoren in Bezug auf die Bewertungen findet. Der Sprecher verwendet dann eine Metapher aus einem Finanzantrag, der Kreditgenehmigung, um die mathematischen Komponenten zu erläutern, die das Lernproblem ausmachen, darunter die Bewerberinformationen, das Kreditwürdigkeitsmuster und die Entscheidung, den Kredit zu genehmigen oder abzulehnen.

  • 00:15:00 In diesem Abschnitt erörtert der Kursleiter das Lernproblem und wie es sich auf die Kreditgenehmigung auswirkt. Die Zielfunktion ist die ideale Kreditgenehmigungsformel, die unbekannt ist, und die Hypothese ist die Formel, die zur Annäherung an die Zielfunktion erstellt wurde. Daten werden verwendet, um die Hypothese zu lernen, und ein Lernalgorithmus wird verwendet, um die Formel aus einem Satz von Kandidatenformeln zu erstellen, der als Hypothesensatz bekannt ist. Der Grund für die Beschränkung des Lernalgorithmus auf den Hypothesensatz besteht darin, den Nachteil einer uneingeschränkten Formel zu vermeiden und von einem vordefinierten Satz von Formeln zur Auswahl zu profitieren.

  • 00:20:00 In diesem Abschnitt erklärt der Sprecher, dass er das Lernproblem als Bild dargestellt hat, um die Lösungsbestandteile der Abbildung zu diskutieren. Er stellt fest, dass das Hypothesen-Set eine wichtige Rolle in der Lerntheorie spielt, da es uns unter anderem sagt, wie gut wir lernen. Er erklärt, dass der Hypothesensatz, der Lernalgorithmus und die endgültige Hypothese ein Lernmodell wie das Perzeptronmodell und einen Perzeptron-Lernalgorithmus bilden. Anschließend gibt er ein einfaches Perceptron-Modellbeispiel, das eine Kreditbewertungsformel verwendet, die auf verschiedenen Attributen eines Kunden basiert und einen Kreditkartenantrag basierend auf einem Schwellenwert entweder genehmigen oder ablehnen kann.

  • 00:25:00 In diesem Abschnitt erörtert der Professor, wie man eine Hypothese h und den Hypothesensatz definiert, der alle Hypothesen enthält, die dieselbe funktionale Form haben. Durch die Verwendung des Perceptron-Modells, das Daten in zwei Bereiche aufteilt, spielt der Lernalgorithmus mit Parametern herum, um die Linie zu verschieben, in der Hoffnung, zur richtigen Lösung zu gelangen. Der Professor stellt auch den Perceptron-Lernalgorithmus vor, der Trainingsdaten nimmt und durch den Raum der Hypothesen navigiert, um die endgültige Hypothese hervorzubringen, die dem Kunden gegeben wird. Der Algorithmus beginnt mit zufälligen Gewichten und bewegt sich, bis er das richtige Gewicht findet, das in der endgültigen Hypothese verwendet wird.

  • 00:30:00 In diesem Abschnitt erklärt der Referent den Perzeptron-Lernalgorithmus (PLA), ein lineares Modell, das in der Lage ist, Datenpunkte in binäre Kategorien zu klassifizieren. Der Algorithmus verwendet einen Gewichtsvektor, der alle Attribute im Datensatz berücksichtigt, und wenn ein Punkt falsch klassifiziert wird, aktualisiert der Algorithmus den Gewichtsvektor, damit er sich an diesem bestimmten Punkt besser verhält. Der Redner erörtert auch, wie es Probleme mit diesem Ansatz und den Iterationen der PLA gibt, aber dass Sie durch Auswählen eines falsch klassifizierten Punkts und Anwenden der Iteration darauf schließlich zu einer korrekten Lösung gelangen, wenn die Daten ursprünglich linear trennbar waren.

  • 00:35:00 In diesem Abschnitt erörtert der Dozent verschiedene Arten des Lernens, beginnend mit der beliebtesten Art, dem überwachten Lernen. Diese Art des Lernens beinhaltet die Verwendung von Daten mit explizit gegebenen Ergebnissen, wie z. B. das Kreditverhalten von Kunden, um bei der Klassifizierung zukünftiger Instanzen zu helfen. Der Dozent verwendet das Beispiel, einer Maschine beizubringen, verschiedene Münzen anhand physikalischer Größen wie Größe und Masse zu erkennen. Die Münzen können basierend auf ihren Abmessungen gruppiert werden, was der Maschine helfen kann, zwischen ihnen zu unterscheiden. Andere erwähnte Arten des Lernens umfassen unüberwachtes Lernen, das später im Kurs ausführlich besprochen wird, und bestärkendes Lernen, das kurz vorgestellt wird.

  • 00:40:00 In diesem Abschnitt diskutiert der Dozent überwachtes und unüberwachtes Lernen anhand von Beispielen der Münzklassifizierung und des Sprachenlernens. Beim überwachten Lernen werden die Trainingsdaten und die korrekte Ausgabe angegeben, und sobald das System trainiert ist, kann es verwendet werden, um ein zukünftiges Beispiel zu klassifizieren. Beim unüberwachten Lernen werden jedoch nur die Eingabedaten bereitgestellt, und die Zielfunktion ist nicht bekannt. Trotzdem kann unüberwachtes Lernen immer noch nützlich sein, um Daten in Clustern zu gruppieren und Muster zu identifizieren, die bei der zukünftigen Klassifizierung helfen können. Der Dozent erklärt auch, wie unüberwachtes Lernen für das Sprachenlernen genutzt werden kann, indem man in die Sprache eintaucht und durch den Kontakt mit ihr ein Modell der Sprache entwickelt.

  • 00:45:00 In diesem Abschnitt erklärt das Video das Konzept des bestärkenden Lernens als eine Methode, die es einem System ermöglicht, durch Erfahrung zu lernen. Der Dozent zeigt am Beispiel eines Kleinkindes, das eine heiße Tasse Tee berührt, wie Reinforcement Learning funktioniert. Indem man dem System erlaubt, jede Ausgabe zu machen (selbst verrückte) und sich allmählich auf die Konditionierung durch belohnende oder bestrafende Ergebnisse verlässt, kann das System schließlich lernen, sich in Spielen wie Backgammon zurechtzufinden. Dieser Ansatz ist eine bequeme und einfachere Methode, um das gewünschte System zu erstellen, anstatt Code zu schreiben und die Mathematik dahinter zu studieren.

  • 00:50:00 In diesem Abschnitt der Vorlesung stellt der Professor der Klasse und dem Online-Publikum ein überwachtes Lernproblem vor. Das Problem betrifft Trainingsdaten, bei denen einige Punkte auf +1 und andere auf -1 abgebildet sind. Ziel ist es, die Zielfunktion zu lernen und den Wert der Funktion für einen Testpunkt zu bestimmen. Der Professor betont, dass die Zielfunktion unbekannt ist und beliebig sein kann, was es unmöglich macht, ein Muster zu bestimmen, das außerhalb des gegebenen Trainingssatzes gilt. Dies stellt eine schwierige Herausforderung für das Lernen dar und erfordert Methoden, die über das einfache Auswendiglernen von Beispielen hinausgehen.

  • 00:55:00 In diesem Abschnitt der Vorlesung diskutiert der Professor Fragen aus der Q&A-Runde. Er spricht das Problem der linearen Trennbarkeit an und erklärt, dass es zwar eine vereinfachende Annahme ist, dass es jedoch Algorithmen gibt, die mit dem Fall der linearen Untrennbarkeit umgehen können, und dass in der nächsten Woche eine Technik untersucht wird, um nichtlinear trennbare Punkte linear trennbar zu machen. Der Professor erwähnt auch, dass sich die Konvergenzrate des Perceptron-Algorithmus mit der Dimensionalität ändert und pathologische Fälle erstellen kann, bei denen es ewig dauern wird. Darüber hinaus erläutert er, dass es schwierig ist zu wissen, ob es ein bestimmtes Muster zu erkennen gibt, aber es gibt eine Trennung zwischen der Zielfunktion und der Frage, ob wir sie lernen können, was später in einem vollständigen Vortrag erklärt wird.

  • 01:00:00 In diesem Abschnitt des Videos erläutert der Professor, wie er versucht, es zu vermeiden, sich den bestimmten Datensatz anzusehen, der ihm gegeben wurde, oder sein System darauf zuzuschneiden, um Enttäuschungen zu vermeiden, wenn ein weiterer Datensatz hinzukommt. Er erklärt, dass maschinelles Lernen eine Disziplin ist, die versucht, mit den wenigsten Annahmen das meiste Gebiet abzudecken, und dass es sowohl praktisch als auch wissenschaftlich angewendet werden kann. Darüber hinaus erwähnt der Professor, dass die Optimierung ein Werkzeug für das maschinelle Lernen ist, aber es ist nichts, was die Leute des maschinellen Lernens um ihrer selbst willen studieren. Schließlich stellt er fest, dass der Hypothesensatz für maschinelles Lernen alles sein kann, entweder kontinuierlich oder diskret.

  • 01:05:00 In diesem Abschnitt spricht der Professor über Stichprobenverzerrungen bei der Kreditvergabe und wie sich dies auf die Qualität der verwendeten Daten auswirkt. Er erklärt, dass die Entnahme einer voreingenommenen Stichprobe zu ungenauen Ergebnissen führen kann, aber die Verwendung eines Kundenstamms zum Treffen von Entscheidungen dennoch funktionieren kann, da der Kundenstamm weiter im Klassifizierungsbereich liegt. Anschließend erörtert er die theoretischen und praktischen Aspekte der Datenerhebung und wie viele Daten erforderlich sind, um ein vernünftiges System zu erstellen. Abschließend spricht er das Problem der Auswahl der Größe des Hypothesensatzes an und stellt fest, dass das Ziel des Lernens darin besteht, die Verwendung von Daten vorherzusagen, um ein vernünftiges Muster zu erhalten, das sich außerhalb des Datensatzes verallgemeinert.

  • 01:10:00 In diesem Abschnitt der Vorlesung zum Lernproblem geht der Professor auf die Rolle der Theorie beim maschinellen Lernen ein, insbesondere darauf, wie sie die Ausgereiftheit eines Hypothesensatzes und die Datenmenge misst, die für Aussagen zur Verallgemeinerung benötigt wird. Der Professor geht auch auf Fragen des Online-Publikums ein, darunter die Korrektur von Feedback durch Validierung und die Verwendung verschiedener Arten von Funktionen für Hypothesen. Darüber hinaus wird die Rolle des Lernalgorithmus und des Hypothesensatzes diskutiert, wobei der Schwerpunkt darauf liegt, wie sich die Wahl der Fehlerfunktion auf die Wahl der Optimierungstechnik auswirkt. Abschließend klärt der Professor, was passiert, wenn eine Ausgabe genau an der Schwelle für den Perceptron-Algorithmus liegt.

  • 01:15:00 In diesem Abschnitt der Vorlesung diskutiert der Professor die Idee, dass es ein Muster geben muss, damit maschinelles Lernen funktioniert. Wenn es kein Muster gibt, gibt es nichts zu lernen. Er erwähnt auch die Bedeutung von Daten und wie sie der Schlüssel zum Lernen sind. Der Professor betont, wie wichtig es ist, die mathematisch geneigten Abschnitte der Gliederung durchzugehen, um die Komponenten, die das Lernen ermöglichen, vollständig zu verstehen. Er geht auch kurz auf die Frage ein, warum das Perzeptron oft mit einem Neuron verwandt ist und erwähnt, dass auf die Analogie zur Biologie später noch näher eingegangen wird. Abschließend erwähnt der Professor, dass die Modellauswahl und die bayesschen Prinzipien später im Kurs besprochen werden.

  • 01:20:00 In diesem Abschnitt geht der Referent auf die Kriterien für die Aufnahme von Methoden des maschinellen Lernens in den Kurs ein. Er erklärt, dass die nützlichsten Methoden in der Praxis enthalten sein werden und dass er darauf abzielt, ein umfassendes Verständnis der Konzepte und Werkzeuge zu vermitteln, um sie in der Praxis anzuwenden. Er erwähnt, dass es verschiedene hierarchische Methoden mit verallgemeinerten Verzweigungen gibt, die er bei der Diskussion von Support Vector Machines ansprechen kann, aber insgesamt liegt sein Fokus eher auf der Vermittlung von praktischem Wissen als auf reiner Theorie.
Lecture 01 - The Learning Problem
Lecture 01 - The Learning Problem
  • 2012.08.28
  • www.youtube.com
The Learning Problem - Introduction; supervised, unsupervised, and reinforcement learning. Components of the learning problem. Lecture 1 of 18 of Caltech's M...
 

Vortrag 2. Ist Lernen machbar?



Machine Learning Course von Caltech - CS 156. Vorlesung 02 - Ist Lernen machbar?

Die Vorlesung diskutiert die Machbarkeit des Lernens, insbesondere den Einsatz von maschinellem Lernen zur Bestimmung von Mustern aus gegebenen Daten. Der Dozent stellt das Konzept von nu und mu in der Wahrscheinlichkeit vor und wie es sich auf das Lernproblem bezieht. Das Hinzufügen von Wahrscheinlichkeiten wird untersucht, was die Machbarkeit des Lernens ermöglicht, ohne die Zielfunktion zu beeinträchtigen, was bedeutet, dass keine Annahmen über die zu lernende Funktion getroffen werden müssen. Das Konzept der Überanpassung und seine Beziehung zur Modellausgereiftheit wird diskutiert, wobei eine größere Anzahl von Hypothesen zu einer schlechteren Verallgemeinerung führt. Letztendlich endet die Vorlesung mit der Bitte, die Folie zur Implikation von nu gleich mu zu überprüfen.

  • 00:00:00 In diesem Abschnitt erörtert Yaser Abu-Mostafa die drei Kriterien zur Bestimmung, ob maschinelles Lernen die richtige Technik für eine Anwendung ist: ob es ein Muster gibt, das erlernt werden kann, ob das Muster nicht mathematisch festgelegt werden kann, und wenn genügend Daten vorhanden sind, um das Muster darzustellen. Darüber hinaus erklärt er, dass maschinelles Lernen auch ohne Muster versucht werden kann, aber fehlschlagen wird, und wenn das Muster mathematisch bestimmt werden kann, ist maschinelles Lernen möglicherweise nicht die optimale Technik. Abu-Mostafa erklärt weiter das überwachte Lernen, bei dem die Zielfunktion unbekannt ist, aber die Dateneingabe und -ausgabe bereitgestellt wird, und wie es als "überwacht" bezeichnet wird, da die Ausgabe als Überwacher des Lernprozesses fungiert.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent die Machbarkeit des Lernens und wie es unmöglich ist, eine unbekannte Funktion zu lernen. Um diese Frage zu beantworten, konzentriert sich die Vorlesung auf eine probabilistische Situation, in der eine Probe aus einem Behälter mit entweder roten oder grünen Murmeln entnommen wird, mit einer Wahrscheinlichkeit, dass eine rote Murmel ausgewählt wird, die durch mu repräsentiert wird. Der Vortrag übersetzt diese Situation auf Lernen und findet dann eine Lösung des Dilemmas, um schließlich zu erklären, dass Lernen in einem bestimmten Sinne machbar ist.

  • 00:10:00 In diesem Abschnitt des Videos beschreibt der Moderator ein Experiment mit einem undurchsichtigen Behälter mit Murmeln, bei dem die Wahrscheinlichkeit, eine rote Murmel zu ziehen, mu und die Wahrscheinlichkeit, eine grüne Murmel zu nehmen, 1 minus mu beträgt. Der Wert von mu ist unbekannt, und das Ziel ist zu bestimmen, ob die Probenhäufigkeit nu (Anteil roter Murmeln in einer Murmelprobe) Informationen über mu liefern kann. Die Antwort ist nein für kleine Stichproben, aber für größere Stichproben kann nu mit einer höheren Wahrscheinlichkeit nahe bei mu liegen, was Möglichkeiten für statistische Schlussfolgerungen eröffnet. Die Unterscheidung zwischen möglich und wahrscheinlich ist der Schlüssel in Wissenschaft und Technik.

  • 00:15:00 In diesem Abschnitt stellt der Dozent die Hoeffdingsche Ungleichung vor, eine Formel, die während des gesamten Kurses verwendet wird, um etwas über die VC-Dimension zu beweisen. Die Ungleichung besagt, dass die Wahrscheinlichkeit eines Ereignisses, bei dem sich die Stichprobenhäufigkeit nicht der Klassenhäufigkeit innerhalb einer bestimmten Toleranz annähert, klein ist und mit einer größeren Stichprobengröße exponentiell abnimmt. Eine kleinere Toleranz führt jedoch zu einem höheren Exponenten, was die Vorteile des negativen Exponentials dämpft. Die Formel mit den 2ern wird der ursprünglichen Formel vorgezogen, da sie wahr ist.

  • 00:20:00 In diesem Abschnitt der Vorlesung wird die Hoeffdingsche Ungleichung als Werkzeug eingeführt, um die Abweichung der Abtastfrequenz von der wahren Frequenz zu begrenzen. Die Ungleichung gilt für jedes N und Epsilon, was es zu einem sehr attraktiven Vorschlag macht, obwohl es eine Exponentialfunktion enthält. Die Wahrscheinlichkeitsverteilung von nu hängt explizit von mu ab, dem unbekannten Wert, aber die Ungleichung hängt nicht von mu ab, was ein Vorteil ist. Der Kompromiss zwischen N und Epsilon wird ebenfalls diskutiert, da je kleiner das Epsilon ist, desto größer ist das N, das benötigt wird, um das gleiche Niveau der Wahrscheinlichkeitsgrenze zu kompensieren. Schließlich wird die Logik der Aussage erklärt, dass nu ungefähr dasselbe wie mu ist, was impliziert, dass mu ungefähr dasselbe wie nu ist.

  • 00:25:00 In diesem Abschnitt des Videos diskutiert der Sprecher das Konzept von mu und nu in der Wahrscheinlichkeit und wie es sich auf das Lernproblem bezieht. Sie erklären, dass der Zweck in der Wahrscheinlichkeit zwar darin besteht, mu von nu abzuleiten, indem verschiedene Stichproben generiert und die Wahrscheinlichkeit berechnet werden, die unbekannte Größe im Lernproblem jedoch eine vollständige Funktion mit einem Bereich ist, der ein euklidischer Raum 10. Ordnung sein könnte. Der Sprecher führt dann das Konzept der Farbcodierung in diesem Szenario ein, um die Übereinstimmung zwischen einer Hypothese und einer Zielfunktion anzuzeigen. Durch diese Zuordnung hat der Sprecher dem Lernproblem effektiv eine Wahrscheinlichkeit hinzugefügt.

  • 00:30:00 In diesem Abschnitt wird das Hinzufügen von Wahrscheinlichkeiten zum Lernproblem untersucht. Die Wahrscheinlichkeit wird in den Eingaberaum eingeführt, indem eine Wahrscheinlichkeitsverteilung über den Eingaberaum angewendet wird, wodurch Punkte unabhängig generiert werden. Die eingeführte Wahrscheinlichkeitsverteilung erfordert keine Annahmen, und die Maschinerie kann auf jede Wahrscheinlichkeitsverteilung angewendet werden. Die Hinzufügung der Wahrscheinlichkeit ermöglicht die Durchführbarkeit des Lernens, ohne die Zielfunktion zu beeinträchtigen, was bedeutet, dass keine Annahmen über die zu lernende Funktion getroffen werden müssen. Allerdings wird das Verifizierungsproblem diskutiert, wobei die beschriebene Situation gleichbedeutend damit ist, dass eine Bank auf der Grundlage gegebener Daten eine bestimmte Formel für die Kreditzusage sucht.

  • 00:35:00 In diesem Abschnitt erklärt der Dozent, wie man ein einfaches Hypothesentestproblem in ein binäres Problem umwandelt, das erlernt werden kann. Beginnend mit einem einzigen Bin und einer hohen Schwelle wählt er ein Gewicht von 0,1 für die Jahre des Wohnens, da dies nur schwach zum Lernproblem beiträgt. Diese Technik berücksichtigt jedoch nicht mehrere Hypothesen, was bedeutet, dass es intelligenter ist, aus mehreren Behältern auszuwählen. Dazu müssen verschiedene Proben gescannt werden, was ein effektives Lernen ermöglichen kann. Der Dozent führt die Notation ein, die im weiteren Verlauf des Vortrags verwendet wird, indem er nu und mu mit aussagekräftigen Namen bezeichnet, da sie die Frequenz in der Stichprobe bzw.

  • 00:40:00 In diesem Abschnitt der Vorlesung stellt der Professor die Notation für In-Sample- und Out-of-Sample-Performance vor. Out-of-Sample-Leistung bezieht sich auf etwas, das noch nie zuvor gesehen wurde, und wenn ein Modell bei Out-of-Sample-Daten gut abschneidet, bedeutet dies, dass es gelernt hat. Die Hoeffding-Ungleichung, die verwendet wird, um die Unterschiede in der In-Sample- und Out-of-Sample-Leistung zu messen, wird dann auf mehrere Bins von Hypothesen angewendet, aber der Professor erklärt, dass sie in diesem Fall nicht zutrifft. Der Grund, warum es nicht zutrifft, wird dann diskutiert, und das Publikum wird gebeten, fünfmal eine Münze zu werfen und die Ergebnisse aufzuzeichnen, um den Punkt zu veranschaulichen.

  • 00:45:00 In diesem Abschnitt beschreibt der Professor, wie sich die Hoeffding-Ungleichung auf die Lernsituation bezieht, in der die Daten zufällig in eine von zwei Kategorien fallen. Er erklärt, dass mehrere Bins den Umgang mit dem Problem erschweren und die Garantie der Hoeffdingschen Ungleichung verwässern, da sie die Wahrscheinlichkeit berechnet, dass ein Bin fünf Kopf ergibt. Obwohl jeder der Behälter den Test von fünf Köpfen bestehen kann, sind sie kein Hinweis auf die tatsächliche Wahrscheinlichkeit des Behälters, da eine extrem hohe Wahrscheinlichkeit besteht, dass irgendwo etwas Schlimmes passieren wird. Der Professor beendet diesen Abschnitt mit der Feststellung, dass sie etwas finden müssen, mit dem sie effizient mit mehreren Behältern umgehen können.

  • 00:50:00 In diesem Abschnitt erörtert der Dozent die Wahrscheinlichkeit, dass der In-Sample-Fehler nahe am Out-of-Sample-Fehler liegt, im Rahmen des Echten Lernszenarios, bei dem eine Hypothese aus einem Satz ausgewählt wird, der auf einem In-Sample basiert Kriterium. Die Wahrscheinlichkeit dieses Ereignisses ist kleiner oder gleich der Wahrscheinlichkeit, dass eine beliebige Hypothese aus der endlichen Menge schlecht ist, was unter Verwendung der Union Bound in Probability berechnet wird. Obwohl diese Grenze pessimistisch ist und keine Überlappung berücksichtigt, kann sie verwendet werden, um die Obergrenze für alle Wahrscheinlichkeiten zu berechnen. Jeder Term in dieser Grenze entspricht einer festen Hypothese, die durch die Hoeffding-Grenze ersetzt werden kann. Letztendlich ist die Wahrscheinlichkeit, dass der In-Sample-Fehler nahe dem Out-of-Sample-Fehler liegt, immer noch durch einen Term mit einem Exponential darin begrenzt, aber es enthält einen zusätzlichen Faktor, der störend ist.

  • 00:55:00 In diesem Abschnitt erörtert der Professor das Problem der Überanpassung und wie es mit der Ausgereiftheit des verwendeten Modells zusammenhängt. Mit einer größeren Anzahl von Hypothesen steigt auch die Wahrscheinlichkeit, dass etwas Schlimmes passiert. Der Professor erklärt, dass ein ausgefeilteres Modell zu Auswendiglernen in der Stichprobe und schlechter Verallgemeinerung außerhalb der Stichprobe führen kann. Die Q&A-Sitzung diskutiert die Hoeffding-Ungleichung und ihre Auswirkungen, einschließlich des Falls, wenn das Ergebnis trivial ist, und wie die Anzahl der Hypothesen für Lernmodelle oft unendlich ist. Die Vorlesung endet mit der Bitte, Folie 6 zur Implikation von nu gleich mu noch einmal durchzugehen.

  • 01:00:00 In diesem Abschnitt des Videos erklärt der Professor das Konzept von Ursache und Wirkung in der Statistik und wie es mit maschinellem Lernen zusammenhängt. Er betont, dass die Frequenz in der Probe die Wirkung ist, während die Tonne die Ursache ist. Dieses Verständnis ist entscheidend, wenn die Hoeffding-Ungleichung verwendet wird, um den Bin basierend auf der Stichprobe abzuleiten, während mu als Konstante und nu als Ursache behandelt wird. Der Professor stellt auch klar, dass jedes h beim maschinellen Lernen eine Hypothese ist und das Modell der Satz von Hypothesen ist, die zur Auswahl stehen. Die Komplexität des Modells und einzelne Hypothesen werden später im Kurs diskutiert. Abschließend erläutert der Professor, wie die Gleichung erweitert werden kann, um eine Reihe von Antworten und nicht nur eine binäre Antwort zu unterstützen, was erreicht werden kann, indem der erwartete Wert von etwas gegen den Stichprobendurchschnitt gesetzt wird.

  • 01:05:00 In diesem Abschnitt erklärt der Professor, dass Lernen möglich ist, aber die Varianz der Variablen berücksichtigt werden muss. Er stellt fest, dass der erwartete Wert und der Stichprobendurchschnitt einer Funktion mit der Wahrscheinlichkeit zusammenhängen und dass es sich nur um einen einfacheren Fall der Wahrscheinlichkeit und des Stichprobendurchschnitts handelt. Darüber hinaus stellt er klar, dass die Verwendung mehrerer Bins notwendig ist, um mehrere Hypothesen beim Lernen darzustellen, da unterschiedliche Hypothesen zu unterschiedlichen Farben führen. Der Professor erklärt auch, wie die Auswahl der besten Hyperebenen funktioniert und wie Lernalgorithmen dieses Problem lösen, indem sie die spezifische Lösung auswählen, mit der sie enden. Schließlich weist er darauf hin, dass der einzige Aufruf der Wahrscheinlichkeit, der beim Lernen benötigt wird, darin besteht, eine Wahrscheinlichkeitsverteilung auf X zu setzen, um den Vorteil der probabilistischen Analyse beim Lernen zu erzielen, aber dass der Bayes'sche Ansatz am Ende eine Wahrscheinlichkeitsverteilung auf H setzen wird Kurs.

  • 01:10:00 In diesem Abschnitt dreht sich die Diskussion um die Flexibilität des Hypothesensatzes (H), der in einem Lernalgorithmus verwendet wird. Das Symbol „g“ wird verwendet, um die endgültige Hypothese zu bezeichnen, die von einem Algorithmus aus H ausgewählt wurde. g kann jedoch unterschiedlich sein, da es sich auf den gesamten Lernprozess bezieht, der dazu führte, dass es aus dem Hypothesensatz gemäß den Daten und der Lernregel ausgewählt wurde. Auch ist es wichtig zu beachten, dass, obwohl der Perceptron-Algorithmus oder jeder lineare Lernalgorithmus bei jedem Schritt eine Hypothese auswählt, dies aus analytischer Sicht ein versteckter Prozess ist, da das Ziel darin besteht, eine korrekte endgültige Hypothese, g, aus H auszuwählen. Schließlich ist die modifizierte Hoeffding-Ungleichung eine Erweiterung der Plain-Vanilla-Hoeffding-Ungleichung, die es ermöglicht, gleichzeitig Aussagen zu einer Reihe von Hypothesen im Hypothesensatz zu machen, um eine gute Leistung zu garantieren und gleichzeitig die Wahrscheinlichkeit zu berücksichtigen, dass schlechte Dinge passieren können.

  • 01:15:00 In diesem Abschnitt erörtert der Professor die Beziehung zwischen der Hoeffding-Ungleichung und p-Werten in der Statistik. Er erklärt, dass die Hoeffding-Ungleichung mit der Schätzung der Zuverlässigkeit und Wahrscheinlichkeit einer Abweichung einer Stichprobe zusammenhängt. Er weist auch darauf hin, dass es in der Statistik noch andere Gesetze für große Zahlen gibt, aber er konzentriert sich auf diese Formel als die nützlichste für das Verständnis der Verallgemeinerungstheorie. Der Professor erwähnt, dass es zwar nützlich ist, verschiedene Manifestationen von In-Sample-Nähe zu Out-of-Sample und Fehlerwahrscheinlichkeiten zu untersuchen, dies jedoch kein Kernthema des Kurses ist. Die Vorlesung endet, und die Studenten werden bis zur nächsten Woche entlassen.
Lecture 02 - Is Learning Feasible?
Lecture 02 - Is Learning Feasible?
  • 2012.04.09
  • www.youtube.com
Is Learning Feasible? - Can we generalize from a limited sample to the entire space? Relationship between in-sample and out-of-sample. Lecture 2 of 18 of Cal...
 

Vorlesung 3 – Das lineare Modell I




Machine Learning Course von Caltech – CS 156. Vorlesung 03 – Das lineare Modell I

Diese Vorlesung behandelt die Themen lineare Modelle im maschinellen Lernen, Eingabedarstellung, den Perzeptron-Algorithmus, den Taschenalgorithmus und die lineare Regression, einschließlich ihrer Verwendung in der Klassifikation. Der Professor betont, wie wichtig es ist, reale Daten zu verwenden, um verschiedene Ideen auszuprobieren, und stellt das Konzept der Funktionen vor, um das Leben des Lernalgorithmus zu vereinfachen. Die Vorlesung behandelt auch die rechnerischen Aspekte der Pseudo-Inversen in der linearen Regression und die Probleme, die auftreten können, wenn die lineare Regression zur Klassifizierung von nicht separierbaren Daten verwendet wird. Schließlich wird das Konzept der Verwendung nichtlinearer Transformationen vorgestellt, um Daten linearer zu machen, mit einem Beispiel, das demonstriert, wie man unter Verwendung der Transformation x1² und x2² vom Ursprung trennbare Daten erhält.

Außerdem behandelt der Professor verschiedene Themen rund um das lineare Modell im maschinellen Lernen. Er erörtert nichtlineare Transformationen und Richtlinien zu deren Auswahl, In-Sample- und Out-of-Sample-Fehler bei der binären Klassifizierung, die Verwendung linearer Regression für die Korrelationsanalyse und die Ableitung sinnvoller Merkmale aus Eingaben. Der Professor betont auch, wie wichtig es ist, den Unterschied zwischen E_in und E_out zu verstehen und wie sie sich auf die Modellleistung auswirken. Schließlich geht er auf die Beziehung zwischen linearer Regression und Maximum-Likelihood-Schätzung, die Verwendung nichtlinearer Transformationen und die Rolle der Theorie beim Verständnis von Konzepten des maschinellen Lernens ein.

  • 00:00:00 In diesem Abschnitt vertieft sich Yaser Abu-Mostafa in das Thema mehrerer Hypothesen in einem Modell. Da sich die Wahrscheinlichkeit, dass etwas Schlimmes passiert, über mehrere Hypothesen hinweg ansammeln könnte, kann die Vereinigungsgrenze – eine mathematische Regel – angewendet werden. Diese Technik ermöglicht es, dass die Wahrscheinlichkeit eines Ereignisses oder eines anderen Ereignisses kleiner oder gleich der Summe der einzelnen Wahrscheinlichkeiten ist, wodurch ein nützliches Werkzeug zur Verfügung gestellt wird, um die Wahrscheinlichkeit zu begrenzen, dass etwas Schlimmes passiert. Wenn ein einzelner Hypothesensatz oder -bin einer einzelnen Hypothese entspricht, ist die Wahrscheinlichkeit, dass die endgültige Hypothese schlecht ist, gering. Ein größerer Hypothesensatz führt jedoch zu einem großen M-Faktor, wodurch die Wahrscheinlichkeit bedeutungslos wird.

  • 00:05:00 In diesem Abschnitt geht der Dozent auf die Bedeutung linearer Modelle beim maschinellen Lernen ein und stellt eine Abfolge von in der Vorlesung behandelten Themen vor, darunter das Perzeptron und seine Verallgemeinerung auf nicht separierbare Daten, eine reellwertige Funktion, und schließlich zu einem nichtlinearen Fall. Er stellt auch einen praktischen Datensatz von Postleitzahlen im Postamt vor, der verwendet wird, um verschiedene Ideen auszuprobieren, und betont, wie wichtig es ist, Ideen an echten Daten auszuprobieren. Der Dozent untersucht die Frage der Eingabedarstellung und hebt die Herausforderung hervor, die 256 reellen Zahlen der 16 mal 16 Graustufenpixel-Roheingabe zu codieren, was zu zu vielen Parametern führen könnte, aber mit Merkmalsextraktionstechniken gelöst wird.

  • 00:10:00 In diesem Abschnitt erörtert das Video das Konzept der Eingabedarstellung und die Idee von Funktionen, um das Leben des Lernalgorithmus zu vereinfachen. Der Dozent gibt ein Beispiel für das Extrahieren von Deskriptoren eines Bildes, wie z. B. Intensität und Symmetrie, um eine übergeordnete Darstellung der Rohinformationen zu erhalten. Durch die Verwendung dieser Funktionen muss der Algorithmus nur die Werte einiger weniger Parameter anstelle aller 257 Parameter im ursprünglichen Raum bestimmen, was für die Verallgemeinerung besser ist. Die Vorlesung präsentiert dann Streudiagramme der Intensitäts- und Symmetriekoordinaten, um zu veranschaulichen, wie die Merkmale das Problem linear trennbar machen, und stellt die Rolle des Perzeptron-Lernalgorithmus bei der Bestimmung der Entscheidungsgrenze vor.

  • 00:15:00 In diesem Abschnitt lernen wir das Verhalten des Perzeptron-Lernalgorithmus kennen, wenn die Daten nicht linear trennbar sind. Aufgrund seiner Art, Fehlklassifikationen einzeln zu korrigieren, wird der Fehler manchmal steigen oder fallen, und es kann für solche Fälle keine Konvergenz garantieren. Um dies zu lösen, führen wir den Taschenalgorithmus ein, was bedeutet, dass wir den In-Sample-Fehler der Zwischenhypothese während jeder Iteration messen und nur die beste in unserer Tasche behalten. Am Ende berichten wir die Hypothese in unserer Tasche als letzte Hypothese. Der Taschenalgorithmus liefert bessere Ergebnisse, da er den Taschenwert bei jeder Iteration berücksichtigt, der als besser als der folgende gefunden wurde, und daher liegen In-Sample- und Out-Sample-Fehler viel näher beieinander.

  • 00:20:00 In diesem Abschnitt der Vorlesung diskutiert Professor Abu-Mostafa den Taschenalgorithmus, der eine modifizierte Version des Perzeptron-Lernalgorithmus ist, der für allgemeine untrennbare Daten verwendet werden kann. Der Algorithmus endet bei einer bestimmten Iteration und meldet den Taschenwert. Er erklärt, dass die Klassifikationsgrenze des Taschenalgorithmus besser ist als die des Perceptron-Lernalgorithmus, obwohl die Daten immer noch nicht perfekt trennbar sind. Anschließend wird die lineare Regression als häufig verwendeter statistischer Ansatz zum Auffinden einer Beziehung zwischen Variablen eingeführt, insbesondere zur Analyse der Beziehung zwischen den GPAs verschiedener Kurse und dem zukünftigen Einkommen. Abschließend wird das Kreditgenehmigungsbeispiel noch einmal aufgegriffen, um zu zeigen, wie die Regression verwendet werden kann, um das Kreditlimit eines Kunden auf der Grundlage seiner Daten vorherzusagen.

  • 00:25:00 In diesem Abschnitt stellt der Professor das Konzept der linearen Regression vor und erklärt, dass es verwendet wird, um reale Ausgabewerte basierend auf Eingabevariablen vorherzusagen. Die Ausgabe ist eine Hypothese, die in Bezug auf die Eingabevariablen eine lineare Form annimmt. Die Variablen werden als Eingänge codiert, und der Algorithmus hängt von der Linearität des Signals ab. Der Datensatz für dieses Beispiel sind historische Daten früherer Kunden, bei denen ein Sachbearbeiter ihre Kreditanträge bewertet und eine Kreditlinie festgelegt hat. Ziel ist es, die Vorgehensweise der Experten nachzubilden, um das System zur Bestimmung der Kreditlinien zu automatisieren. Der lineare Regressionsalgorithmus misst den Fehler und versucht, die optimalen Gewichtungen zu finden, um die Hypothese zu bestimmen, die f gut approximiert. Die bei der linearen Regression verwendete Standardfehlerfunktion ist der quadrierte Fehler.

  • 00:30:00 In diesem Abschnitt erläutert der Dozent, wie man einen Kreditrahmen schätzt und wie wichtig es ist, ein Fehlermaß zu definieren, wie z. B. den quadratischen Fehler, der üblicherweise in der linearen Regression verwendet wird. Der In-Sample-Fehler wird verwendet, um zu messen, wie gut die Hypothese auf dem Datensatz abschneidet, wobei jedes Beispiel einen Beitrag zum Fehler leistet. Der lineare Regressionsalgorithmus versucht, diesen Fehler zu minimieren, indem er eine Linie findet, die gemäß der Regel des quadratischen Fehlers zu den Daten passt. Der Algorithmus gilt für höherdimensionale Räume, in denen die Linie eine Hyperebene ist. Der Ausdruck für E_in wird als Norm im Quadrat von etwas dargestellt, das die verschiedenen x_ns konsolidiert.

  • 00:35:00 In diesem Abschnitt wird das Konzept des linearen Modells eingeführt, bei dem die Eingabedaten als Matrix X mit einem Vektor von Ausgaben y dargestellt werden. Der Gradient wird genommen, um E_in in Bezug auf den Parameter w zu minimieren. Dies führt zu einer einfach zu lösenden quadratischen Gleichung, die X transponiertes X beinhaltet, eine invertierbare quadratische Matrix. Aus diesem Grund ist die Lösung einfach, und die Formel für w ist X^†, wobei X^† die Pseudo-Inverse von X ist, was eine Abkürzung für die Inverse von X transponiertes X multipliziert mit X transponiert ist. Da X nicht invertierbar ist, hat es keine traditionelle Inverse, aber eine Pseudo-Inverse.

  • 00:40:00 In diesem Abschnitt erläutert der Dozent die rechnerischen Aspekte der Pseudo-Inversen in der linearen Regression. Die Formel für die Pseudo-Inverse beinhaltet eine Matrixinversion und -multiplikation, was für große Matrizen rechenintensiv sein kann. Der Dozent merkt jedoch an, dass dies für die meisten praktischen Anwendungen kein Problem darstellt, da viele Pakete zur Berechnung der Pseudo-Inversen oder der Lösung für die lineare Regression verfügbar sind. Um die lineare Regression zu verwenden, muss man die Daten im richtigen Format eingeben, die Matrix X und den Vektor y konstruieren und diese dann in die Formel für die Pseudo-Inverse einsetzen. Die resultierende Multiplikation ergibt die Werte für w, die Gewichte für das lineare Modell.

  • 00:45:00 In diesem Abschnitt wird das Konzept der Verwendung der linearen Regression zur Klassifizierung eingeführt. Es wird erklärt, dass binärwertige Klassifikationsfunktionen auch reellwertig sind und eine lineare Regression verwendet werden kann, um diese Funktionen näherungsweise zu lernen. Die aus der linearen Regression erhaltenen Gewichte können auch als Anfangsgewichte für Klassifizierungsalgorithmen wie den Perzeptron-Algorithmus verwendet werden, was einen Starthilfe und potenziell schnellere Konvergenz bietet. Außerdem wird die Idee diskutiert, das Vorzeichen des aus der linearen Regression erhaltenen Signals zu verwenden, um es als +1 oder -1 zu klassifizieren. Abschließend wird die lineare Regressionsgrenze anhand eines Beispiels erläutert.

  • 00:50:00 In diesem Abschnitt der Vorlesung geht der Professor auf die Probleme ein, die bei der Verwendung der linearen Regression zur Klassifikation auftreten können, insbesondere im Umgang mit nicht separierbaren Daten. Er demonstriert, dass der Algorithmus versucht, alle Werte derselben Klassifizierung zu unterwerfen, was häufig zu Fehlern im Klassifizierungsprozess führt. Anschließend stellt er die Idee vor, nichtlineare Transformationen zu verwenden, um die Daten linearer zu machen, wie beispielsweise im Fall der Bestimmung der Kreditlinienstabilität auf der Grundlage von Jahren des Wohnsitzes. Er betont jedoch, dass es wichtig ist zu verstehen, was mit „linear“ in Bezug auf diese Modelle für eine effektive Nutzung gemeint ist.

  • 00:55:00 In diesem Abschnitt erörtert der Dozent die Bedeutung der Linearität in den Gewichten bei der Ableitung von Lernalgorithmen wie Perzeptron und linearer Regression, da sie es den Algorithmen ermöglicht, unabhängig von den x-Werten zu arbeiten. Dies eröffnet die Möglichkeit, nichtlineare Transformationen an den Eingaben vorzunehmen, ohne den Bereich linearer Modelle zu verlassen, da die Gewichtungen, die den nichtlinearen Merkmalen gegeben werden, linear von den Parametern abhängen. Es wird ein Beispiel für eine nichtlineare Transformation gegeben, bei der Daten unter Verwendung von x1²- und x2²-Messungen vom Ursprung transformiert werden, was zu trennbaren Daten führt. Die nichtlineare Transformation ist jedoch eine belastete Frage, die empfindlich auf Verallgemeinerungsprobleme reagiert, daher werden Richtlinien in der nächsten Vorlesung weiter diskutiert.

  • 01:00:00 In diesem Abschnitt erörtert der Professor nichtlineare Transformationen und Richtlinien, wie weit man bei deren Auswahl gehen kann. Er betont die Bedeutung von Verallgemeinerung und theoretischem Wissen bei der Auswahl nichtlinearer Transformationen. Die Diskussion geht dann weiter zu In-Sample- und Out-of-Sample-Fehlern, insbesondere im Kontext der binären Klassifikation. Der Professor stellt klar, dass beim Lernen nur der In-Sample-Fehler behandelt wird, während der Out-of-Sample-Fehler implizit mit der Garantie behandelt wird, dass eine gute In-Sample-Leistung zu einer guten Out-of-Sample-Leistung führt. Auch die Unterscheidung zwischen Irrtumswahrscheinlichkeit und Irrtumshäufigkeit bei der Klassifizierung wird erläutert. Der Vortrag geht dann auf die Verwendung der linearen Regression ein, um die Korrelation zwischen GPA und zukünftigem Einkommen zu bestimmen. Die Verfügbarkeit von Daten und die Einbeziehung von w_0 in die lineare Regression werden ebenfalls kurz diskutiert.

  • 01:05:00 In diesem Abschnitt erklärt der Professor, dass der Schwellenwert für die lineare Regression notwendig ist, da er den Offset in Abhängigkeit von den Werten der Variablen kompensiert und so ein geeignetes Modell ermöglicht. Wenn im binären Fall +1 oder -1 als Ausgaben verwendet wird, hat die Hypothese aus der linearen Regression den kleinsten quadratischen Fehler von den Zielen in den Beispielen, und die Ausgabe der Hypothese ist dem Wert +1 oder -1 mit a am nächsten mittlere quadratische Fehler. Obwohl diese Technik funktionieren kann, werden Punkte möglicherweise nicht korrekt klassifiziert, da die lineare Regression versucht, irrelevante Punkte anzupassen, die die Klassifizierung durcheinander bringen können. Der Professor schlägt vor, die lineare Regression als Anfangsgewicht zu verwenden und dann einen geeigneten Klassifizierungsalgorithmus zur weiteren Feinabstimmung zu verwenden. Beim Ableiten von Merkmalen gibt es keinen allgemeinen Algorithmus, und der beste Ansatz besteht darin, sich die Roheingabe anzusehen und zu versuchen, aussagekräftige Merkmale auf der Grundlage der Problemstellung abzuleiten. Wenn jedoch zu viele Merkmale vorhanden sind, kann dies zu einem Problem werden, und hier können nichtlineare Transformationen helfen, den Merkmalsraum zu vereinfachen.

  • 01:10:00 In diesem Abschnitt erörtert der Professor das Konzept von Merkmalen, bei denen es sich um Darstellungen einer Roheingabe auf höherer Ebene handelt. Das lineare Modell ist ein Baustein für zahlreiche Modelle im maschinellen Lernen, und andere Modelle bieten in einigen Fällen möglicherweise eine bessere inkrementelle Leistung, aber er betont, dass das lineare Modell die Aufgabe erfüllt. Der Professor hebt auch den Unterschied zwischen E_in und E_out hervor, wobei E_in leicht bewertet werden kann, während E_out theoretische Garantien erfordert, dass der In-Sample-Fehler den Out-of-Sample-Fehler verfolgt. Außerdem erklärt er, dass die lineare Regression immer noch zum Anpassen eines Polynoms verwendet werden kann, indem die Eingabevariable durch eine nichtlineare Transformation transformiert wird. Abschließend spricht er kurz über die Beziehung zwischen der linearen Regression der kleinsten Quadrate und der Maximum-Likelihood-Schätzung in der Statistikliteratur, die mehr Annahmen über Wahrscheinlichkeiten und Rauschen beinhaltet.

  • 01:15:00 In diesem Abschnitt spricht der Professor über die Beziehung zwischen dem linearen Regressionsmodell und der maximalen Wahrscheinlichkeit, zieht es aber vor, die lineare Regression im Kontext des maschinellen Lernens darzustellen, ohne zu viele Annahmen über Verteilungen zu treffen. Der Professor diskutiert auch nichtlineare Transformationen und wie sie beim maschinellen Lernen verwendet werden, einschließlich Polynome und radiale Basisfunktionen. Er befasst sich auch mit Fragen zum Auffinden von Mustern in Pseudozufallszahlengeneratoren und den unterschiedlichen Behandlungen für kontinuierliche versus diskrete Antworten, die vom jeweiligen Problem abhängen. Abschließend betont der Professor die Bedeutung der Theorie für ein tieferes Verständnis der Techniken des maschinellen Lernens.
Lecture 03 -The Linear Model I
Lecture 03 -The Linear Model I
  • 2012.04.12
  • www.youtube.com
The Linear Model I - Linear classification and linear regression. Extending linear models through nonlinear transforms. Lecture 3 of 18 of Caltech's Machine ...
 

Vorlesung 4 - Fehler und Rauschen



Caltech's Machine Learning Course - CS 156. Vorlesung 04 - Fehler und Rauschen

In Vorlesung 04 des Machine Learning-Kurses diskutiert Professor Abu-Mostafa die Bedeutung von Fehlern und Rauschen in realen Problemen des maschinellen Lernens. Er erklärt das Konzept der nichtlinearen Transformation unter Verwendung des Merkmalsraums Z, der für die Wahrung der Linearität beim Lernen unerlässlich ist. Die Vorlesung behandelt auch die Komponenten des überwachten Lerndiagramms und betont die Bedeutung von Fehlermaßen bei der Quantifizierung der Leistung der Hypothese. Verrauschte Ziele werden als typische Komponente von Lernproblemen in der realen Welt eingeführt, die bei der Minimierung des In-Sample-Fehlers berücksichtigt werden müssen. Die Vorlesung endet mit einer Diskussion über die Theorie des Lernens und ihre Relevanz bei der Bewertung von In-Sample-Error, Out-of-Sample-Error und Modellkomplexität.

Der Professor erklärt, wie sich Änderungen in der Wahrscheinlichkeitsverteilung auf den Lernalgorithmus auswirken können und wie sich Fehlermaße für verschiedene Anwendungen unterscheiden können. Er erörtert auch den Algorithmus für die lineare Regression, die Verwendung des quadratischen Fehlers im Vergleich zum absoluten Wert für Fehlermaße bei der Optimierung und den Kompromiss zwischen Komplexität und Leistung in Modellen für maschinelles Lernen. Der Professor verdeutlicht den Unterschied zwischen Eingaberaum und Merkmalsextraktion und stellt fest, dass die Theorie zur gleichzeitigen Verbesserung der Generalisierung und Minimierung von Fehlern in den kommenden Vorlesungen behandelt wird.

  • 00:00:00 In diesem Abschnitt erörtert Professor Abu-Mostafa die Bedeutung von Fehlern und Rauschen bei der Betrachtung realer Probleme beim maschinellen Lernen. Zunächst geht er erneut auf das Konzept der nichtlinearen Transformation ein und wie es hilft, Variablen zu transformieren und die Linearität in w, dem Gewichtsvektor, der für den Lernprozess wesentlich ist, zu bewahren. Anschließend führt er das Konzept von Fehlern und Rauschen in das Lerndiagramm ein und berücksichtigt die praktischen Überlegungen, die in Situationen des wirklichen Lebens auftreten. Die Vorlesung enthält auch ein Beispiel für nicht separierbare Daten, die durch eine nichtlineare Transformation separiert werden können.

  • 00:05:00 In diesem Abschnitt wird eine nichtlineare Transformation namens Phi besprochen, bei der jeder Punkt im Abtastraum x_n der Transformation unterzogen wird und der entsprechende Punkt z_n im Merkmalsraum Z erhalten wird, der ein stark nichtlinearer Raum sein kann. Dadurch kann der Datensatz im neuen Merkmalsraum linear trennbar werden, der dann durch einfache lineare Modellalgorithmen wie lineare Regression oder Klassifizierung angewendet wird, um eine Trenngrenze zu erhalten. Wenn jedoch ein Testpunkt angegeben ist, befindet er sich im Eingaberaum, so dass dieser Punkt unter Verwendung einer inversen Transformation transformiert werden muss, um zu lokalisieren, wo er im Merkmalsraum liegt, um entsprechend klassifiziert zu werden. Dieses Verfahren funktioniert gut in jeder Dimensionengröße für jede nichtlineare Transformation, aber es ist wichtig, bei der Transformation vorsichtig zu sein, um Verallgemeinerungsprobleme zu vermeiden.

  • 00:10:00 In diesem Abschnitt erörtert der Ausbilder die Komponenten des überwachten Lerndiagramms und stellt das Konzept der Fehlermaße und verrauschten Ziele vor. Er erklärt, dass das Ziel von Fehlermaßen darin besteht, zu quantifizieren, wie gut oder wie schlecht sich eine Hypothese einer unbekannten Zielfunktion annähert. Das Fehlermaß ist als E von zwei Funktionen definiert, und er betont, dass es sich um ein quantitatives Maß handelt. Er stellt weiter fest, dass laute Ziele eine praktische Komponente von realen Lernproblemen sind, die berücksichtigt werden müssen.

  • 00:15:00 In diesem Abschnitt erläutert der Referent, wie die Fehlerfunktion verwendet wird, um zu messen, wie gut sich eine Hypothesenfunktion einer Zielfunktion in maschinellen Lernalgorithmen annähert. Die Fehlerfunktion gibt eine Zahl zurück, die berechnet wird, indem der Wert zweier Funktionen am selben Punkt verglichen wird. Die punktweise Definition wird üblicherweise verwendet, und der Durchschnitt der punktweisen Fehler wird verwendet, um die Fehlerfunktion für den gesamten Raum zu definieren. Der In-Sample-Fehler der Fehlerfunktion ist der Durchschnitt der punktweisen Fehler im Trainingssatz, während der Out-of-Sample-Fehler die Aufteilung der Daten in Trainings- und Testsätze erfordert. Der Sprecher betont, wie wichtig es ist, die Fehlerfunktion zu minimieren, um eine genaue Hypothesenfunktion zu entwickeln.

  • 00:20:00 In diesem Abschnitt erörtert der Dozent den Out-of-Sample-Fehler, der die Out-of-Sample-Version eines Fehlermaßes ist. Der Erwartungswert ergibt sich durch Mittelung aller Punkte im Eingaberaum X. Der binäre Fehler ist die Fehlerwahrscheinlichkeit insgesamt, die sich aus der Wahrscheinlichkeitsverteilung über den Eingaberaum X errechnet. Das Lerndiagramm wird mit der Addition des Fehlermaßes aktualisiert , die Punkt für Punkt definiert wird. Das Fehlermaß wird im Kontext der Fingerabdrucküberprüfung mit zwei Arten von Fehlern definiert – falsches Akzeptieren und falsches Zurückweisen. Bei der Definition eines Fehlermaßes wird jede Art von Fehler bestraft, um eine bessere Hypothese zu erhalten.

  • 00:25:00 In diesem Abschnitt erörtert der Redner das Konzept von Fehlern und Rauschen in Fingerabdruck-Verifizierungssystemen und wie maschinelles Lernen verwendet werden kann, um eine Hypothese für die Annahme oder Ablehnung von Personen basierend auf ihren Fingerabdrücken zu erstellen. Der Sprecher merkt an, dass es keinen inhärenten Vorteil hat, eine Fehlerfunktion einer anderen vorzuziehen, und dass dies von der Anwendungsdomäne abhängt. Im Falle von Supermärkten beispielsweise sind falsche Ablehnungen kostspielig, da sie Kunden frustrieren und ihr Geschäft woanders hinführen können, während falsche Annahmen keine so große Sache sind. Im Fall der CIA könnten falsche Annahmen jedoch möglicherweise zu Sicherheitsverletzungen führen, was sie teurer macht als falsche Ablehnungen. Daher muss die Fehlermatrix basierend auf der spezifischen Anwendung angepasst werden.

  • 00:30:00 In diesem Abschnitt erörtert der Sprecher die Bedeutung von Fehlermaßen bei praktischen Lernproblemen und erklärt, dass das verwendete Fehlermaß von dem Benutzer angegeben werden sollte, der das unvollkommene System verwenden wird. Er schlägt vor, dass, wenn der Benutzer eine quantitative Fehlerfunktion artikulieren kann, dies die Fehlerfunktion ist, mit der er arbeiten muss. Wenn Benutzer jedoch keine spezifischen Fehlerfunktionen angeben, können andere plausible oder freundliche Maßnahmen verwendet werden. Plausible Maße haben analytische Vorzüge, während freundliche Maße einfach anzuwenden sind. Der Sprecher modifiziert das Lerndiagramm, um das Fehlermaß einzuführen, das entscheidend ist, um deutlich zu machen, was das System lernen soll.

  • 00:35:00 In diesem Abschnitt liegt der Schwerpunkt auf dem Fehlermaß und seiner Rolle im Lernalgorithmus. Das Fehlermaß hat zwei Hauptfunktionen: die endgültige Hypothese zu bewerten und die Zielfunktion zu approximieren und das Fehlermaß dem Lernalgorithmus zuzuführen, um den In-Sample-Fehler zu minimieren. Zusätzlich werden verrauschte Ziele als Norm für reale Probleme eingeführt. Die Zielfunktion ist nicht immer eine Funktion und kann durch Rauschen von nicht erklärten Informationen und Umständen beeinflusst werden, was sie eher probabilistisch als deterministisch macht. Anstelle einer Zielfunktion wird eine Zielverteilung verwendet, wobei y durch die Wahrscheinlichkeitsverteilung bei gegebenem x erzeugt wird, was eine probabilistische Abhängigkeit darstellt. Das Konzept verrauschter Ziele wird angesprochen, indem die Idee einer deterministischen Zielfunktion plus Rauschen eingeführt wird, und dieser Ansatz wird verwendet, um den Begriff einer Zielverteilung zu vereinfachen.

  • 00:40:00 In diesem Abschnitt erörtert der Referent das Konzept des Rauschens beim maschinellen Lernen und wie es den Lernprozess beeinflussen kann. Die Zielfunktion ist definiert als der erwartete Wert von y bei gegebenem x, wobei der verbleibende Teil als Rauschen bezeichnet wird. Wenn die Zielfunktion nicht wohldefiniert ist, kann sie als Wahrscheinlichkeitsverteilung dargestellt werden, und die verrauschten Ziele können als bedingte Wahrscheinlichkeitsverteilung von y bei gegebenem x dargestellt werden. Das Lerndiagramm für überwachtes Lernen enthält die verrauschten Ziele, und es wird zwischen den Wahrscheinlichkeiten von x und y bei gegebenem x unterschieden. Trotz der damit verbundenen Komplexität stellt der Sprecher fest, dass jede Komponente im Lerndiagramm einen Grund hat, dort zu sein.

  • 00:45:00 In diesem Abschnitt erläutert der Referent das Konzept der Zielverteilung, bei der es sich um die Wahrscheinlichkeitsverteilung der Kreditwürdigkeit bei gegebenem Input handelt, und betont, dass es das ist, was Sie durch überwachtes Lernen zu lernen versuchen. Die Eingabeverteilung hingegen spielt die Rolle, die relative Bedeutung der Eingabe in der Zielverteilung zu quantifizieren, aber es ist nicht das, was Sie zu lernen versuchen. Der Referent warnt auch davor, dass das Mischen der beiden Verteilungen, was theoretisch möglich ist, zu Verwirrung über die wahre Zielverteilung führen kann. Abschließend stellt der Referent die Theorie des Lernens vor, die auf eine Annäherung an die Zielverteilung abzielt, und betont deren Bedeutung für die Erkenntnisgewinnung und den Erwerb sekundärer Werkzeuge.

  • 00:50:00 In diesem Abschnitt erklärt der Dozent, dass der Out-of-Sample-Fehler für eine Funktion g nahe Null sein sollte, da dies eine gute Verallgemeinerung bedeutet. Da diese Größe jedoch nicht bekannt ist, können wir den In-Sample-Fehler als Proxy für den Out-of-Sample-Fehler verwenden, solange wir die richtigen Überprüfungen durchgeführt haben. Die ganze Geschichte des Lernens umfasst zwei Fragen: Können wir sicherstellen, dass die Out-of-Sample-Performance nahe genug an der In-Sample-Performance liegt (eine theoretische Frage), und können wir den In-Sample-Fehler klein genug machen (eine praktische Frage). )? Der Dozent merkt an, dass es in einigen Anwendungen unmöglich ist, eine Out-of-Sample-Leistung nahe Null zu erzielen, wie beispielsweise bei Finanzprognosen, bei denen nur verrauschte Daten vorliegen. Trotzdem können Hedgefonds immer noch Geld verdienen, indem sie ein wenig Ineffizienz ausnutzen.

  • 00:55:00 In diesem Abschnitt der Vorlesung diskutiert der Professor die Bedeutung des Out-of-Sample-Fehlers und die Theorie, die in den nächsten zwei Wochen behandelt wird. Die Theorie befasst sich mit dem Verständnis des In-Sample-Fehlers, des Out-of-Sample-Fehlers und der Modellkomplexität, und es werden formale Definitionen gegeben, um diese Faktoren zu bewerten. Das Hauptziel der Theorie ist es, die Machbarkeit des Lernens für Fälle zu charakterisieren, in denen der Hypothesensatz unendlich ist, wie das Perzeptron und lineare Regressionsmodelle. Die Theorie misst das Modell anhand eines einzigen Parameters, der die Ausgereiftheit des Modells widerspiegelt, was dazu beitragen wird, beim praktischen Lernen einen großen Unterschied zu machen. Der Professor beantwortet auch eine Frage, indem er den relativen Einfluss von P von x im Lernalgorithmus diskutiert.

  • 01:00:00 In diesem Abschnitt geht der Professor darauf ein, wie sich Änderungen in der Wahrscheinlichkeitsverteilung auf den Lernalgorithmus auswirken können, insbesondere bei der Auswahl von Lernbeispielen. Der Professor erklärt, dass die Wahrscheinlichkeitsverteilung der Eingabe eine technische Rolle spielt, aber die Betonung bestimmter Teile des Raums gegenüber anderen kann die vom Algorithmus getroffenen Entscheidungen beeinflussen. In Bezug auf die beste Möglichkeit, zwischen N Paaren von x und y oder N y pro x zu wählen, schlägt der Professor vor, sie unabhängig voneinander zu besorgen, anstatt für die gleiche Eingabe, um zu vermeiden, sich mit einem sehr spezifischen Teil des Eingaberaums zu befassen und die Verallgemeinerung zu verbessern. Abschließend stellt der Professor fest, dass es eine Möglichkeit gibt, schlechte Verallgemeinerung oder gute Verallgemeinerung zu messen, was Teil der Theorie sein wird.

  • 01:05:00 In diesem Abschnitt erklärt der Professor, dass Fehlermaße für verschiedene Anwendungsdomänen unterschiedlich sein können, sogar für dasselbe System und dieselben Trainingsdaten. Er gibt Beispiele dafür, wie sich das richtige Gleichgewicht zwischen falscher Annahme und falscher Ablehnung für einen Supermarkt und die CIA unterscheiden kann. Der Professor stellt auch klar, dass die Struktur der Wahrscheinlichkeit von x (P(x)) beim überwachten Lernen keine Rolle spielt, solange dieselbe Verteilung für Training und Test verwendet wird. Er erklärt weiter, dass jede Wahrscheinlichkeitsverteilung ausreichen wird, um den probabilistischen Ansatz für das Lernproblem aufzurufen. Abschließend nimmt der Professor eine Bitte zur Vereinfachung des Falls eines quadratischen Fehlermaßes und einer Lösung in geschlossener Form zur Kenntnis, die er in der Überprüfung behandeln wird.

  • 01:10:00 In diesem Abschnitt erläutert der Professor, wie der Algorithmus für die lineare Regression basierend auf der Minimierung des quadratischen Fehlers abgeleitet wurde, was zu einer einfachen Lösung in geschlossener Form führte. Er erklärt auch, wie sich ein Ungleichgewicht in der Wahrscheinlichkeit von y auf den Lernprozess auswirkt und dass Belohnungen und Kosten gleichwertig sind. Darüber hinaus stellt er klar, dass bei der Bezugnahme auf den Eingaberaum beim maschinellen Lernen alle möglichen Punkte nur in Bezug auf ihre Eingabeteile enthalten sind, während die Merkmalsextraktion die Verarbeitung der Eingabe beinhaltet, um irrelevante Informationen zu entfernen. Die Hauptkomponentenanalyse ist ein weiteres Verfahren zum Erfassen informativer Richtungen im Eingabedarstellungsraum.

  • 01:15:00 In diesem Abschnitt der Vorlesung diskutiert der Professor die Verwendung des quadrierten Fehlermaßes gegenüber dem Absolutwert für Fehlermaße in der Optimierung. Er erklärt, dass der quadratische Fehler eine glatte Funktion ist und viele wünschenswerte Eigenschaften hat, während der Absolutwert nicht glatt ist und zu einer kombinatorischen Optimierung führen kann. Wenn jedoch die Verwendung des Absolutwerts für einen bestimmten Wert erforderlich ist, kann er dennoch verwendet werden. Außerdem stellt er klar, dass das Ziel die Funktion f von x ist, nicht w transponiertes x, und dass Rauschen die Differenz zwischen y und dem erwarteten Wert von y bei einem bestimmten x ist. Abschließend stellt der Professor fest, dass es einen Kompromiss zwischen Komplexität und Leistung bei maschinellen Lernmodellen gibt, aber Antworten darauf, wie gleichzeitig die Verallgemeinerung verbessert und Fehler minimiert werden können, werden in den nächsten vier Vorlesungen behandelt.
Lecture 04 - Error and Noise
Lecture 04 - Error and Noise
  • 2012.04.15
  • www.youtube.com
Error and Noise - The principled choice of error measures. What happens when the target we want to learn is noisy. Lecture 4 of 18 of Caltech's Machine Learn...
 

Vortrag 5 - Training versus Test



Machine Learning Course von Caltech – CS 156. Vorlesung 05 – Training versus Testen

In Vorlesung 5 seines Kurses zum Lernen aus Daten diskutiert Professor Abu-Mostafa die Konzepte von Fehlern und Rauschen beim maschinellen Lernen, den Unterschied zwischen Training und Testen und die Wachstumsfunktion, die die maximale Anzahl von Dichotomien misst, die durch produziert werden können ein Hypothesensatz für eine gegebene Anzahl von Punkten. Er führt auch den Bruchpunkt ein, der der Komplexität einer Hypothesenmenge entspricht und eine polynomiale Wachstumsrate in N garantiert, falls vorhanden, und diskutiert verschiedene Beispiele für Hypothesenmengen wie positive Strahlen, Intervalle und konvexe Mengen. Die Vorlesung betont, wie wichtig es ist, diese Konzepte und ihre mathematischen Rahmenbedingungen zu verstehen, um die Komplexität von Hypothesensätzen und ihr Potenzial für realisierbares Lernen vollständig zu verstehen.

Der Professor behandelte verschiedene Themen im Zusammenhang mit Training versus Testing. Er ging auf Fragen aus dem Publikum zu nicht-binären Ziel- und Hypothesenfunktionen und dem Kompromiss zwischen Bruchpunkten ein. Der Professor erklärte, wie wichtig es ist, eine Wachstumsfunktion zu finden, und warum sie der Verwendung von 2 hoch N vorgezogen wird, um die Wahrscheinlichkeit einer hohen Verallgemeinerung zu messen. Darüber hinaus diskutierte er die Beziehung zwischen dem Haltepunkt und der Lernsituation und stellte fest, dass das Vorhandensein des Haltepunkts bedeutet, dass Lernen möglich ist, während der Wert des Haltepunkts uns die Ressourcen angibt, die zum Erreichen einer bestimmten Leistung erforderlich sind. Abschließend erläuterte der Professor die Alternativen zu Hoeffding und warum er daran festhält, damit die Leute sich damit vertraut machen.

  • 00:00:00 In diesem Abschnitt erörtert Professor Abu-Mostafa die Konzepte Fehler und Rauschen und ihre Beziehung zum maschinellen Lernen in praktischen Situationen. Er erklärt, wie wichtig es ist, Fehlermaße zu definieren und wie sie verwendet werden, um die Leistung einer Hypothese im Vergleich zu einer Zielfunktion zu bestimmen. Darüber hinaus diskutiert er das Konzept verrauschter Ziele, bei denen das Ziel keine deterministische Funktion ist, sondern von x beeinflusst und gemäß einer Wahrscheinlichkeitsverteilung verteilt wird. Professor Abu-Mostafa stellt auch den Theorie-Track vor, der die nächsten drei Vorlesungen dauern wird und sich auf Training versus Testen und den mathematischen Rahmen konzentriert, der dies auf realistische Weise beschreibt.

  • 00:05:00 In diesem Abschnitt geht der Dozent auf den Unterschied zwischen Training und Prüfung im Rahmen einer Abschlussprüfung ein. Als Übungssatz dienen die vor der Abschlussprüfung gestellten Übungsaufgaben und Lösungen. Die Abschlussprüfung dient als Prüfungssatz. Der Dozent betont, dass das Ziel nicht darin besteht, in der Abschlussprüfung gut abzuschneiden, sondern den Stoff zu verstehen, was sich in einem kleinen E_out widerspiegelt. Die mathematische Beschreibung des Testens beinhaltet, wie gut man bei der Abschlussprüfung abgeschnitten hat, während die mathematische Beschreibung des Trainings beinhaltet, wie man bei den Übungsaufgaben abgeschnitten hat. Die Kontamination des Übungssatzes führt zu einer verschlechterten Leistung bei der E_in-Metrik. Der Dozent betont die Notwendigkeit, bei der Messung der Komplexität von Hypothesenmengen die Größe M durch eine freundlichere zu ersetzen.

  • 00:10:00 In diesem Abschnitt erörtert der Sprecher, wie wichtig es ist, zu verstehen, woher eine Hypothese M kommt und in welchem Kontext sie steht, um sie zu ersetzen. Der Sprecher erklärt, dass es schlechte Ereignisse gibt, die als B bezeichnet werden, und das Ziel darin besteht, die Situation zu vermeiden, in der die In-Sample-Performance die Out-of-Sample-Performance nicht verfolgt. Das Ziel besteht darin, sicherzustellen, dass die Wahrscheinlichkeit eines der schlechten Ereignisse gering ist, unabhängig von Korrelationen zwischen Ereignissen. Der Sprecher erklärt dann das Perceptron-Beispiel und wie man das schlechte Ereignis in Form eines Bildes definiert, um eine bessere Grenze zu gewährleisten.

  • 00:15:00 In diesem Abschnitt diskutiert der Dozent die Konzepte von E_in und E_out, die die In-Sample- bzw. Out-of-Sample-Fehler für eine Hypothese darstellen. Er untersucht dann, wie die Änderungen in E_in und E_out verglichen werden, wenn man von einer Hypothese zu einer anderen wechselt, und argumentiert, dass sie klein sind und sich aufgrund des Überlappungsbereichs zwischen den Hypothesen in die gleiche Richtung bewegen. Der Dozent schlägt vor, dass M, das bisherige Komplexitätsmaß, durch eine neue Größe ersetzt werden kann, die die Komplexität eines beliebigen Modells charakterisiert, aber dies erfordert einen Beweis in der nächsten Vorlesung. Er führt die Menge ein und betont die Notwendigkeit, sie gut zu verstehen, bevor man mit dem Beweis fortfährt.

  • 00:20:00 In diesem Abschnitt erklärt der Dozent, was Dichotomien sind und wie sie sich auf Hypothesen beziehen. Dichotomien sind mehrere Hypothesen, die nur für eine Teilmenge der Punkte definiert sind und die verschiedenen möglichen Muster von Rot und Blau auf einer endlichen Menge von Datenpunkten darstellen. Wenn es beispielsweise nur wenige Dichotomien gibt, ist die Hypothesenmenge nicht stark, aber wenn es viele gibt, ist die Hypothesenmenge stark. Der Dozent beschreibt Dichotomien als undurchsichtiges Blatt Papier mit Löchern darauf, das auf den Eingaberaum gelegt wird und nur das Muster aus roten und blauen Punkten zeigt. Dichotomien sind eine formale Möglichkeit, Hypothesen auszudrücken, bei denen die Funktion entweder -1 oder +1 für die blauen und roten Bereiche erzeugt.

  • 00:25:00 In diesem Abschnitt geht der Dozent auf die Anzahl der Hypothesen und Dichotomien beim Perzeptron ein. Er erklärt, dass es unendlich viele Hypothesen geben kann, da das Perzeptron unendliche Werte hat. Die Anzahl der Dichotomien ist jedoch begrenzt, da es nur eine begrenzte Anzahl von Punkten gibt, auf die +1 oder -1 zurückgegeben werden kann. Die mit "m" bezeichnete Wachstumsfunktion ersetzt die Anzahl der Hypothesen, indem sie die meisten Dichotomien zählt, die man erhalten kann, wenn man ihren Hypothesensatz an beliebigen N Punkten verwendet. Der Dozent erwähnt, dass die Wachstumsfunktion berechnet wird, indem die Anzahl der Dichotomien in Bezug auf eine beliebige Auswahl von N Punkten aus dem Eingaberaum maximiert wird.

  • 00:30:00 In diesem Abschnitt erklärt der Dozent den Begriff der Wachstumsfunktion und wie er auf Perceptrons zutrifft. Die Wachstumsfunktion eines Hypothesensatzes ist eine Funktion, die Ihnen die maximale Anzahl von Dichotomien angibt, die für eine bestimmte Anzahl von Punkten erzeugt werden können. Für Perceptrons ist es eine Herausforderung, die Wachstumsfunktion zu erhalten, da es erforderlich ist, die Wachstumsfunktion für jede Anzahl von Punkten, beginnend bei eins, zu finden. Zusätzlich gibt es für jede Anzahl von Punkten bestimmte Konstellationen von Punkten, die ein Perzeptron nicht erzeugen kann. Dennoch sind diese Einschränkungen zu erwarten, da Perceptrons einfache Modelle mit einem einfachen Algorithmus sind.

  • 00:35:00 In diesem Abschnitt erörtert der Dozent das Konzept der Wachstumsfunktionen anhand von Beispielen verschiedener Modelle, einschließlich positiver Strahlen und positiver Intervalle. Er erklärt, dass die Wachstumsfunktion für positive Strahlen N+1 ist, was bedeutet, dass die Anzahl der Dichotomien von der Anzahl der möglichen Liniensegmente zwischen N Punkten abhängt. Positive Intervalle hingegen haben eine größere Wachstumsfunktion, da zwei Parameter, der Beginn und das Ende des Intervalls, variiert werden können, um unterschiedliche Dichotomien zu erhalten.

  • 00:40:00 In diesem Abschnitt diskutiert der Dozent Wachstumsfunktionen für Hypothesenmengen mit unterschiedlichem Komplexitätsgrad. Für den einfachsten Hypothesensatz von Dichotomien in einer Linie ist die Wachstumsfunktionsformel einfach die Anzahl der Möglichkeiten, 2 Segmente aus den N+1 Segmenten auszuwählen, was äquivalent zu (N+1) wähle 2 ist. Für den nächsten Hypothesensatz von konvexen Bereichen in einer Ebene stellt der Dozent fest, dass einige Bereiche ungültig sind, weil sie nicht konvex sind. Die Wachstumsfunktionsformel für diesen Satz erfordert ein komplizierteres Zählen, da nicht alle Dichotomien gültig sind. Der Dozent schlägt dann eine optimale Wahl für die Punktplatzierung vor, die auf dem Umfang eines Kreises liegt, um die Wachstumsfunktion für diesen Hypothesensatz zu maximieren.

  • 00:45:00 In diesem Abschnitt erörtert der Dozent die Wachstumsfunktion für konvexe Mengen und warum sie nicht so leistungsfähig ist wie die Wachstumsfunktion für positive Intervalle. Der Dozent zeigt, wie die Wachstumsfunktion für jede der Hypothesen funktioniert. Sie diskutieren auch, wie das Maximum M durch eine endliche Zahl m ersetzt werden kann, die die Wachstumsfunktion sein kann. Der Dozent kommt zu dem Schluss, dass das Lernen unter Verwendung dieser Hypothese möglich ist, wenn die Wachstumsfunktion ein Polynom ist. Allerdings räumt der Dozent ein, dass es nicht einfach ist, die Wachstumsfunktion explizit auszuwerten.

  • 00:50:00 In diesem Abschnitt wird das Konzept des Bruchpunkts eingeführt, um den Punkt zu definieren, an dem ein Hypothesensatz nicht alle möglichen Dichotomien erhält. Der Bruchpunkt entspricht der Komplexität des Hypothesensatzes, und wenn kein Datensatz der Größe k durch den Hypothesensatz zerstört werden kann, dann ist k ein Bruchpunkt dafür. Der Bruchpunkt für das 2D-Perzeptron ist 4. Die Vorlesung behandelt auch die Beispiele positiver Strahlen, Intervalle und konvexer Sätze, um zu erklären, wie man den Bruchpunkt für jeden Hypothesensatz findet. Darüber hinaus wird festgestellt, dass ein Hypothesensatz, der keinen Bruchpunkt hat, unendlich wächst.

  • 00:55:00 In diesem Abschnitt erklärt der Professor das Konzept der Wachstumsfunktion und wie sie eine polynomiale Wachstumsrate in N garantiert, wenn ein Bruchpunkt existiert. Mit der Einschränkung eines Bruchpunktes gibt es eine enorme kombinatorische Einschränkung, die mögliche Dichotomien in Scharen eliminiert und die uneingeschränkte 2-zu-N-Wachstumsfunktion auf ein Polynom reduziert. Der Professor gibt ein Beispiel für einen Drei-Punkte-Hypothesensatz mit einem Bruchpunkt von zwei, bei dem die Dichotomien begrenzt sind und Übertreter entfernt werden, bis nur noch eine Dichotomie übrig bleibt, die die Einschränkung erfüllt.

  • 01:00:00 In diesem Abschnitt beantwortet der Professor Fragen aus dem Publikum über nicht-binäre Ziel- und Hypothesenfunktionen und den Kompromiss von Bruchpunkten. Er erklärt, dass die von ihm entwickelte Theorie für binäre Funktionen handhabbar ist, es aber ein technischeres Gegenstück für reellwertige Funktionen gibt, das er durch die Bias-Varianz-Tradeoff-Methode behandeln wird. In Bezug auf erschütternde Punkte stellt er fest, dass es gut ist, die Daten anzupassen, aber schlecht für die Verallgemeinerung, und dass es entscheidend ist, das richtige Gleichgewicht zwischen Annäherung und Verallgemeinerung zu finden. Darüber hinaus verdeutlicht er die Bedeutung des Polynomwachstums und wie es kleine Wahrscheinlichkeiten garantiert, dass etwas Schlimmes passiert.

  • 01:05:00 In diesem Abschnitt diskutiert der Professor ein Puzzle, bei dem 3 Bits in jede Zeile gelegt werden und versucht wird, so viele verschiedene Zeilen wie möglich zu erhalten, unter der Bedingung, dass zwei Punkte nicht zerbrochen werden können. Der Professor führt die Übung durch, Zeilen hinzuzufügen und alle möglichen Kombinationen im Auge zu behalten, um eine Verletzung der Beschränkung zu vermeiden. Am Ende kommt der Professor zu dem Schluss, dass unter dieser Einschränkung nur vier mögliche Muster erreicht werden können und keine weiteren Zeilen hinzugefügt werden können. Diese Einschränkung ist auf die Tatsache zurückzuführen, dass die Anzahl der Hypothesen für Perzeptrons unendlich ist und die Wachstumsfunktion entweder identisch 2 zu N oder polynomisch ist, wobei nichts dazwischen liegt.

  • 01:10:00 In diesem Abschnitt der Vorlesung erläutert der Professor, wie wichtig es ist, eine Wachstumsfunktion zu finden, und warum sie der Verwendung von 2 hoch N vorgezogen wird, um die Wahrscheinlichkeit einer hohen Verallgemeinerung zu messen. Der Professor erklärt, dass das Auffinden einer polynomialen Wachstumsfunktion eine handhabbare rechte Seite ergeben würde und dazu führen würde, dass die Wahrscheinlichkeit einer Verallgemeinerung hoch wäre. Der Professor beantwortet auch Fragen von Studenten zur Anzahl der Test- und Trainingspunkte, zum Out-of-Sample-Error für verschiedene Hypothesen und warum er Wachstumsfunktion genannt wird. Der Professor merkt an, dass es verschiedene Methoden gibt, um eine Wachstumsfunktion zu finden, und manchmal ist die Schätzung für den Bruchpunkt nur eine Schätzung und kein exakter Wert.

  • 01:15:00 In diesem Abschnitt geht der Professor auf den Zusammenhang zwischen Haltepunkt und Lernsituation ein. Er erklärt, dass das Vorhandensein des Haltepunkts bedeutet, dass Lernen möglich ist, während der Wert des Haltepunkts uns die Ressourcen angibt, die erforderlich sind, um eine bestimmte Leistung zu erzielen. Er geht auch auf die Alternativen zu Hoeffding ein und warum er daran festhält. Ziel ist es, dass die Leute Hoeffding so gut kennen, dass sie es schon kennen, damit sie bei Änderungen nicht verloren gehen.
Lecture 05 - Training Versus Testing
Lecture 05 - Training Versus Testing
  • 2012.04.19
  • www.youtube.com
Training versus Testing - The difference between training and testing in mathematical terms. What makes a learning model able to generalize? Lecture 5 of 18 ...
 

Vorlesung 6 - Theorie der Generalisierung




Caltech's Machine Learning Course - CS 156. Vorlesung 06 - Theorie der Verallgemeinerung

Die Vorlesung behandelt die Theorie der Verallgemeinerung und die Wachstumsfunktion als Anzahl der Dichotomien, die durch eine Hypothese auf einer Menge von N Punkten erzeugt werden können, mit dem Ziel, die gesamte Wachstumsfunktion zu charakterisieren und für jedes N durch Charakterisierung des Bruchs zu verallgemeinern Punkt. Der Referent demonstriert den Prozess der Berechnung der Wachstumsfunktion für verschiedene Hypothesensätze und den Nachweis der oberen Schranke für die Wachstumsfunktion unter Verwendung der kombinatorischen Identität. Die Diskussion berührt auch die Verwendung der Wachstumsfunktion in der Hoeffding-Ungleichung, der VC, die zur Charakterisierung von Überlappungen zwischen Hypothesen und der Vapnik-Chervonenkis-Ungleichung verpflichtet ist, die in N polynomisch ist, wobei die Ordnung des Polynoms durch den Bruchpunkt bestimmt wird.

Der Professor erörtert die Theorie der Verallgemeinerung, erläutert die vorherigen Punkte und erklärt das Konzept eines Bruchpunkts, der zur Berechnung der für das Lernen erforderlichen Ressourcen verwendet wird. Der Schwerpunkt des Lernens liegt auf der Annäherung an E_out, nicht an E_in, wodurch der Lernende mit vertrauten Größen arbeiten kann. Der Professor erklärt auch die Gründe für das Ersetzen von M durch die Wachstumsfunktion und wie dies mit der kombinatorischen Größe B von N und k zusammenhängt. Bei der Erörterung von Regressionsfunktionen betont der Professor den Bias-Varianz-Kompromiss und die Unabhängigkeit der Lernbarkeit von der Zielfunktion. Abschließend stellt der Professor fest, dass für alle Arten von Funktionen die gleichen Prinzipien gelten.

  • 00:00:00 In diesem Abschnitt lernen wir Dichotomien als Mini-Hypothesen kennen, die auf eine endliche Menge von Punkten und die Wachstumsfunktion beschränkt sind. Die Wachstumsfunktion zählt die Anzahl der Dichotomien, die durch eine Hypothese erzeugt werden können, die auf einer Menge von N Punkten basiert. Der Bruchpunkt für Perceptrons ist definiert als der Punkt, an dem Muster aufgrund der Verwendung von Hypothesen aus einer eingeschränkten Menge übersehen werden. Das theoretische Ziel ist es, die gesamte Wachstumsfunktion zu charakterisieren und für jedes N zu verallgemeinern, indem man den Knickpunkt charakterisiert. Wir sehen auch, dass eine Beschränkung der Anzahl von Mustern auf wenige Punkte dazu führt, dass viele Muster für eine größere Anzahl von Punkten verloren gehen, unabhängig von Hypothesenmenge und Eingaberaum.

  • 00:05:00 In diesem Abschnitt behandelt der Dozent zwei Punkte: Der erste zeigt, dass die Wachstumsfunktion polynomial mit einem Knickpunkt ist, und der zweite zeigt die Ersetzung von M, der Anzahl der Hypothesen, in Hoeffdings Ungleichung. Der Dozent betont, dass sie die Wachstumsfunktion nicht im Einzelnen bestimmen müssen, sondern nur zeigen müssen, dass sie durch ein Polynom beschränkt ist, damit sie in der Hoeffding-Ungleichung verwendet werden kann. Der Dozent führt eine Schlüsselgröße namens B von N und k ein, die eine kombinatorische Größe ist, die die maximale Anzahl von Dichotomien an N Punkten mit einem Knickpunkt k darstellt. Die Grenze für B von N, k wird rekursiv gefunden, indem eine Tabelle mit N Punkten gefüllt und der letzte Punkt isoliert wird, um eine Rekursion einzuführen.

  • 00:10:00 In diesem Abschnitt erläutert der Sprecher, wie Zeilen einer Matrix gruppiert werden, die die Erweiterung einer binären Sequenz darstellen. Die erste Gruppe, S_1, besteht aus Zeilen, die je nach Erweiterung nur einmal vorkommen. Die zweite Gruppe, S_2, besteht aus Zeilen, die mit beiden Erweiterungen erscheinen. Unter Verwendung dieser Gruppierungen definiert der Sprecher die Anzahl der Zeilen in Gruppe S_1 als Alpha und die Anzahl der Zeilen in Gruppe S_2 als Beta. Mit diesen Definitionen ist der Sprecher in der Lage, eine Rekursion für die maximale Anzahl von Zeilen/Mustern zu finden, die an N Punkten erhalten werden kann, so dass keine k Spalten alle möglichen Muster haben.

  • 00:15:00 In diesem Abschnitt des Vortrags diskutiert der Referent die Theorie der Generalisierung und die Schätzung von Beta. Er erklärt, dass er durch die Analyse des zweiten Teils der S_2-Matrix, der sich wiederholende Musterblöcke enthält, argumentieren kann, dass diese Musterblöcke einen Bruchpunkt von k minus 1 haben, nicht von k. Er erklärt auch, dass er, indem er Alpha plus Beta nimmt, was die Gesamtzahl der Zeilen oder Muster in der Mini-Matrix ist, etwas über einen Bruchpunkt für diese kleine Matrix sagen kann. Er schließt mit der Feststellung, dass er die vollständige Matrix und ihre Anzahl von Zeilen schätzen kann, indem er alles zusammensetzt.

  • 00:20:00 In diesem Abschnitt analysiert der Sprecher eine Matrix und leitet eine Rekursionsformel ab, um eine obere Grenze für B von N und k zu finden, wobei B von N und k die maximale Wachstumsfunktion eines Hypothesensatzes mit einem Bruch ist Punkt von k. Durch Berechnen der Werte von B von N und k unter Verwendung der Rekursionsformel füllt der Sprecher eine Tabelle mit einer oberen Grenze von B von N und k. Zuerst werden die Randbedingungen für die Tabelle gefüllt und dann wird der Rest der Tabelle unter Verwendung der Rekursionsformel gefüllt.

  • 00:25:00 In diesem Abschnitt diskutiert der Sprecher die Theorie der Verallgemeinerung und spricht über eine Tabelle, die die maximale Anzahl von Dichotomien oder Mustern bei einer bestimmten Anzahl von Punkten N und einem Bruchpunkt k darstellt. Der Referent erklärt, wie die Tabelle gefüllt wird und wie der Constraint leer sein kann. Außerdem stellen sie eine Formel vor, die die maximale Anzahl von Dichotomien oder Mustern als Obergrenze für die Wachstumsfunktion jeder Hypothesenmenge berechnet, die einen Knickpunkt k hat, ohne irgendwelche Fragen zur Hypothesenmenge oder zum Eingaberaum zu stellen.

  • 00:30:00 In diesem Abschnitt bespricht der Dozent den Induktionsschritt zum Beweis eines Satzes über die Formel für N und k. Der Schritt beinhaltet die Annahme, dass die Formel für gegebene Werte von N und k gilt, und dann den Beweis, dass sie auch für N-1 und k-1 gilt. Der Dozent demonstriert den Prozess der Manipulation der beiden Formeln, der Zusammenführung der Summationen und deren Reduktion auf eine einzige Größe mit algebraischen oder kombinatorischen Argumenten. Das Ziel ist festzustellen, dass die angegebene Formel für alle Werte von N und k gilt, was die zuvor angenommenen Werte enthält, und von dort aus ist der Satz bewiesen.

  • 00:35:00 In diesem Abschnitt erläutert der Referent den Prozess des Beweises der oberen Grenze für B von N und k, der Wachstumsfunktion für eine Hypothesenmenge mit einem Bruchpunkt k, unter Verwendung der kombinatorischen Identität. Das resultierende Polynom ist nützlich, da der Bruchpunkt eine feste Zahl ist und nicht mit N wächst. Der Sprecher veranschaulicht dann, dass die obere Grenze ein Polynom in N ist, indem er zeigt, dass die maximale Potenz N hoch k minus 1 ist, was a ist Konstante. Schließlich wendet der Sprecher die obere Schranke auf drei Beispiele von Hypothesenmengen an und zeigt, dass sie alle die Schranke erfüllen.

  • 00:40:00 In diesem Abschnitt behandelt der Dozent die Berechnung der Wachstumsfunktion für positive Strahlen und positive Intervalle. Indem er den Unterbrechungspunkt verwendet, der die einzige erforderliche Eingabe ist, ist er in der Lage, die Wachstumsfunktion zu finden, ohne die Geometrie des Hypothesensatzes zu berücksichtigen. Der Dozent wendet diese Methode dann auf das zweidimensionale Perzeptron an, bei dem die Wachstumsfunktion unbekannt ist, aber bekannt ist, dass der Knickpunkt 4 ist. Durch die Verwendung des Knickpunkts kann er die Wachstumsfunktion vollständig begrenzen, was wichtig ist bei der Vereinfachung der Charakterisierung von Hypothesensätzen. Der Dozent erklärt dann, wie diese Wachstumsfunktion in der Hoeffding-Ungleichung verwendet werden kann, um die Anzahl der Hypothesen mit der Vereinigungsgrenze zu ersetzen, die praktisch nutzlos ist, wenn M signifikant oder unendlich ist.

  • 00:45:00 In diesem Abschnitt erklärt der Dozent den bildlichen Beweis der polynomialen Beschränktheit der Wachstumsfunktion. Der Raum möglicher Datensätze deckt alle Achsen ab und der farbige Bereich stellt den schlechten Bereich dar, in dem E_in aufgrund bestimmter Datensätze von E_out abweicht. Indem er diesen schlechten Bereich rot malt und die Hoeffding-Ungleichung verwendet, zeigt der Dozent, dass der farbige Bereich klein ist, was es der Vereinigung ermöglicht, die Möglichkeit mehrerer Hypothesen zu behaupten. Wenn jedoch weitere Hypothesen hinzugefügt werden, füllt der farbige Bereich die Zeichenfläche aus, was zu dem Problem mit der Vereinigungsgrenze führt. Der Dozent erläutert dann die beiden Aspekte, die erforderlich sind, um die Beziehung zwischen der Wachstumsfunktion und den Überlappungen herzustellen, und den Ansatz für E_out, um dem Argument der endlichen Stichprobe zu entsprechen.

  • 00:50:00 In diesem Abschnitt stellt der Dozent die VC-Grenze als neue Leinwand vor, um Überschneidungen zwischen Hypothesen zu charakterisieren. Er erklärt, dass die Wachstumsfunktion eine abstrakte Größe ist, die diese Überschneidungen charakterisiert, und sagt Ihnen, wie viele Dichotomien sich gleich verhalten. Der Dozent erklärt, dass die Redundanz durch die Wachstumsfunktion erfasst wird und dass der zu färbende Punkt nicht nur von der Probe, sondern vom gesamten Raum abhängt. Der Dozent überwindet dies, indem er zwei Stichproben anstelle von einer auswählt, die unabhängig von derselben Verteilung generiert werden, um E_out und E_in zu verfolgen, ohne sich auf die gesamte Hypothese zu verlassen.

  • 00:55:00 In diesem Abschnitt erörtert der Sprecher das Konzept der Verfolgung zwischen E_in und E_in Strich, die zwei verschiedene Samples sind, und ob sie sich gegenseitig verfolgen oder nicht. Wenn mehrere Bins verwendet werden, wird die Verbindung zwischen E_out und E_in lockerer und lockerer. Sie gehen auch locker auseinander, wenn die Anzahl der Behälter zunimmt. Die mathematischen Verzweigungen mehrerer Hypothesen erfolgen hier auf die gleiche Weise wie bei einem Bin. Während der Sprecher die technischen Einzelheiten des Beweises durchläuft, wird das Epsilon zu Epsilon über 2 und dann zu Epsilon über 4. Wenn sie angeschlossen werden, erhalten sie Epsilon zum Quadrat über 16, was zu einem Faktor von 1/8 führt. Das erhaltene Ergebnis wird als Vapnik-Chervonenkis-Ungleichung bezeichnet, die in N polynomisch ist und deren Ordnung durch den Knickpunkt bestimmt wird.

  • 01:00:00 In diesem Abschnitt der Videovorlesung bittet der Moderator den Professor, einige Punkte zu klären, die in den vorherigen Folien gemacht wurden. Der Professor erklärt, dass die in Folie 5 ausgewählten N Punkte einem bestimmten Satz von Punkten in einem Eingaberaum beim maschinellen Lernen entsprechen, aber in der Abstraktion sind dies einfach abstrakte Bezeichnungen. Der Professor stellt auch klar, dass ihre Verwendung von Alpha und Beta in der Vorlesung lediglich eine Namenskonvention ist und es keine Aussage über die relativen Werte der beiden gibt. Abschließend erklärt der Professor, dass der Bruchpunkt berechnet wird, indem der Eingaberaum und der Hypothesensatz besucht und für einen gegebenen Hypothesensatz die maximale Anzahl von Punkten ermittelt wird, die nicht auf jede mögliche Weise getrennt werden können.

  • 01:05:00 In diesem Abschnitt erklärt der Professor, dass für die meisten Lernmodelle bereits exakte oder gebundene Haltepunkte festgelegt wurden, sodass die zum Lernen erforderlichen Ressourcen vor Beginn des Lernprozesses abgeschätzt werden können. Obwohl es Fälle geben kann, in denen die Grenzen nicht eng sind, ist die Diskrepanz zwischen der exakten Schätzung der Wachstumsfunktion und der quadratischen Grenze in den meisten Fällen vernachlässigbar. Die Vorlesung betont, dass der Fokus des Lernens nicht auf dem eigentlichen Wert von E_in liegt, sondern auf dessen Annäherung an E_out, wodurch der Lernende in die Lage versetzt wird, mit vertrauten Größen zu arbeiten. Abschließend versichert der Professor den Zuhörern, dass die VC-Dimension, die ein Baustein zum Verständnis der Lerntheorien ist, im nächsten Vortrag ausführlich behandelt wird.

  • 01:10:00 In diesem Abschnitt erklärt der Professor die Gründe für das Ersetzen von M durch die Wachstumsfunktion und die Änderungen, die vorgenommen werden mussten, um die technischen Anforderungen der Aussage zu erfüllen. Der Professor verdeutlicht auch die Definition von B von N und k und erläutert, dass es sich um eine obere Grenze für jede Hypothese handelt, die einen Bruchpunkt hat, und dass es sich um eine rein kombinatorische Größe handelt. Der Professor spricht dann eine Frage zum Beweis von B von N und k an und stellt fest, dass sich k nicht ändert, wenn x_N auf x_N-1 reduziert wird, da keine k Spalten der kleineren Menge alle möglichen Muster haben können. Schließlich stellt der Professor fest, dass die Analyse und die VC-Analyse auf binäre Funktionen anwendbar sind, obwohl sie auf reellwertige Funktionen erweitert werden können.

  • 01:15:00 In diesem Abschnitt erörtert der Professor, dass er bei der Diskussion von Regressionsfunktionen lieber einen anderen Ansatz verwenden würde, den Bias-Varianz-Kompromiss, anstatt auf technische Erweiterungen zur Lernbarkeit einzugehen. Er stellt auch klar, dass Lernfähigkeit unter Bedingungen über den Hypothesensatz bewiesen wird und dass sie unabhängig von der Zielfunktion ist. Er erklärt weiter, dass die Generalisierungsfrage nicht von der Zielfunktion abhängt, aber die Frage, ob E_in minimiert werden kann, um den Benutzer glücklich zu machen, von der Zielfunktion abhängt. Abschließend stellt der Professor fest, dass unabhängig von der Art der Funktion die gleichen Grundsätze gelten.
Lecture 06 - Theory of Generalization
Lecture 06 - Theory of Generalization
  • 2012.04.21
  • www.youtube.com
Theory of Generalization - How an infinite model can learn from a finite sample. The most important theoretical result in machine learning. Lecture 6 of 18 o...
 

Vorlesung 07 - Die VC-Dimension




Machine Learning Course von Caltech – CS 156. Vorlesung 07 – Die VC-Dimension

Die Vorlesung stellt das Konzept der VC-Dimension vor, die die maximale Anzahl von Punkten ist, die von einem Hypothesensatz zerstört werden können, und erläutert seine praktischen Anwendungen. Die VC-Dimension stellt die Freiheitsgrade eines Modells dar, und ihre Beziehung zur Anzahl von Parametern in einem Modell wird diskutiert. Es werden Beispiele gegeben, um zu demonstrieren, wie die VC-Dimension für verschiedene Hypothesensätze berechnet wird. Die Beziehung zwischen der Anzahl der benötigten Beispiele und der VC-Dimension wird untersucht, und es wird angemerkt, dass es eine proportionale Beziehung zwischen den beiden gibt. Die Auswirkungen einer Erhöhung der VC-Dimension auf die Leistung eines Lernalgorithmus werden ebenfalls diskutiert. Insgesamt gibt die Vorlesung Einblicke in die VC-Theorie und ihre praktischen Implikationen für maschinelles Lernen.

Das Video behandelt auch das Konzept der Verallgemeinerung und der Verallgemeinerungsgrenze, was eine positive Aussage ist, die den Kompromiss zwischen der Größe des Hypothesensatzes und einer guten Verallgemeinerung beim maschinellen Lernen zeigt. Der Professor erklärt die VC-Dimension, die der größte Wert vor dem ersten Bruchpunkt ist, und wie sie verwendet werden kann, um die Anzahl der benötigten Beispiele anzunähern. Er weist darauf hin, wie wichtig es ist, das richtige Fehlermaß auszuwählen, und stellt klar, dass die VC-Dimensionsschätzung eine lose Schätzung ist, die verwendet werden kann, um Modelle zu vergleichen und die Anzahl der benötigten Beispiele zu approximieren. Die Vorlesung endet mit der Hervorhebung der Gemeinsamkeiten zwischen diesem Material und dem Thema Design of Experiments und wie sich die Prinzipien des Lernens auf andere Situationen über strenge Lernszenarien hinaus erstrecken.

  • 00:00:00 In diesem Abschnitt fasst der Dozent das Hauptergebnis der vorherigen Vorlesung in Lerntheorie zusammen, nämlich die VC (Vapnik-Chervonenkis)-Ungleichung, die die Generalisierung beim maschinellen Lernen charakterisiert. Die Wachstumsfunktion, die die benötigte Redundanz charakterisiert, um von der Hoeffding-Ungleichung zur VC-Ungleichung zu wechseln, wurde eingeführt und auf schlechte Ereignisse mit überlappenden Regionen bezogen. Das technische Problem mit E_out wurde gelöst, und die Wachstumsfunktion wurde verwendet, um die Anzahl der Hypothesen M zu ersetzen. Die VC-Dimension, die sich auf den Knickpunkt bezieht, wird dann für Perzeptrons in jedem dimensionalen Raum genau definiert und berechnet. Die Interpretation der VC-Dimension und ihre praktischen Anwendungen werden ebenfalls diskutiert.

  • 00:05:00 In diesem Abschnitt wird das Konzept der VC-Dimension als maximale Anzahl von Punkten eingeführt, die durch einen Hypothesensatz zerstört werden können. Die VC-Dimension wird als d_VC bezeichnet und ist der größte Wert von N, so dass die Wachstumsfunktion 2 hoch N ist. Es ist wichtig anzumerken, dass die VC-Dimension nicht garantiert, dass alle N Punkte zerstört werden können, sondern nur, dass sie existieren N Punkte, die zerschmettert werden können. Der Abschnitt enthält Beispiele wie positive Strahlen und 2D-Perzeptrone, um zu demonstrieren, wie die VC-Dimension für einen gegebenen Hypothesensatz berechnet wird. Die VC-Dimension wird verwendet, um die Wachstumsfunktion eines Hypothesensatzes zu begrenzen, und sie dient als Ordnung des Polynoms, das die Wachstumsfunktion begrenzt.

  • 00:10:00 In diesem Abschnitt liegt der Schwerpunkt auf der VC-Dimension konvexer Mengen und ihrer Beziehung zum Lernen. Die VC-Dimension stellt die maximale Anzahl von Punkten dar, die durch einen Hypothesensatz zerstört werden können. Wenn die VC-Dimension endlich ist, verallgemeinert sich die endgültige Hypothese, unabhängig von der verwendeten Eingabeverteilung oder dem verwendeten Lernalgorithmus. Das Lerndiagramm, das die Zielfunktion, den Lernalgorithmus und die Eingabeverteilung enthält, zeigt, dass die VC-Theorie unabhängig vom Lernalgorithmus und der Zielfunktion ist und nur vom Hypothesensatz abhängt. Insgesamt gibt es in der VC-Theorie drei Blöcke: die Hypothese, das Hypothesenset und die VC-Dimension.

  • 00:15:00 In diesem Abschnitt lernen wir die VC-Dimension von Perceptrons kennen, die die Hypothesenmenge ist, mit der sich die gesamte VC-Theorie befasst, da es die Menge ist, die die VC-Dimension hat und uns sagt, ob wir verallgemeinern können . Obwohl die VC-Dimension von Perceptrons im zweidimensionalen Raum drei ist, besagt eine einfache Formel, dass im d-dimensionalen Raum die VC-Dimension d plus eins ist. Dies ist wichtig, um die Bedeutung der VC-Dimension zu verstehen, und wir werden dies beweisen, indem wir zeigen, dass die VC-Dimension höchstens d plus eins und mindestens d plus eins ist. Um dies zu demonstrieren, konstruieren wir einen bestimmten Satz von N Punkten (N ist d plus eins) unter Verwendung einer Matrix, die zerschmettert werden soll, solange es möglich ist, sie zu zerschmettern.

  • 00:20:00 In diesem Abschnitt zeigt der Dozent einen bestimmten Satz von d plus 1-Punkten und demonstriert, dass sie mit einer invertierbaren Matrix zerschmettert werden können. Anschließend stellt er dem Publikum eine Frage zur VC-Dimension und bittet es, zu entscheiden, welche Schlussfolgerungen es aufgrund der Ergebnisse der Demonstration ziehen kann. Die richtige Antwort ist b, was besagt, dass die VC-Dimension größer oder gleich d plus 1 ist.

  • 00:25:00 In diesem Abschnitt diskutiert der Professor, wie man beweist, dass die VC-Dimension höchstens d plus 1 ist. Er fragt das Publikum, welche von mehreren Aussagen die Prämisse begründen würden, und sie antworten mit „d“. Der Professor erklärt dann dass er zeigen muss, dass es eine Menge von d plus 2 Punkten gibt, die er nicht zerbrechen kann, indem er zeigt, dass es für eine Menge von d plus 2 Punkten immer einen Punkt gibt, der eine Linearkombination der anderen ist. Daher konstruiert er eine Dichotomie, die seiner Ansicht nach nicht mit einem Perzeptron implementiert werden kann.

  • 00:30:00 In diesem Abschnitt des Videos erklärt der Sprecher das Konzept einer Dichotomie in einem Perzeptron, das im Wesentlichen darin besteht, bestimmten Punkten Labels von +1 oder -1 zuzuweisen. Durch die Verwendung algebraischer Eigenschaften wird gezeigt, dass es unmöglich ist, einen Satz von d plus 2 Punkten zu zerbrechen, wobei die VC-Dimension d plus 1 ist. Dies liegt an der Anzahl der Parameter im Perzeptronmodell, die d plus 1 ist , und die VC-Dimension gibt die maximale Anzahl von Punkten an, die zerschmettert werden können.

  • 00:35:00 In diesem Abschnitt führt der Vortrag in das Konzept der VC-Dimension und seine Interpretation ein. Die VC-Dimension ist ein Maß für die Freiheitsgrade eines Modells und wie es mit der Anzahl seiner Parameter zusammenhängt. Der Vortrag vergleicht diese Freiheitsgrade mit Knöpfen an einem Audiosystem, wo mehr Knöpfe Ihnen mehr Kontrolle über den Klang geben können, aber es kann schwierig sein, sie effektiv zu verwenden. Der Vortrag erklärt, dass die VC-Dimension die Details der Mathematik innerhalb eines Modells abstrahiert und sich auf seine Ausdruckskraft konzentriert. Der Vortrag diskutiert auch die Entsprechung zwischen der VC-Dimension und den Freiheitsgraden verschiedener Modelle, wie z. B. positiver Strahlen, und zeigt, dass die VC-Dimension gleich eins ist, wenn es einen Freiheitsgrad gibt, der einem Modell mit einem Parameter entspricht.

  • 00:40:00 In diesem Abschnitt diskutiert der Dozent Freiheitsgrade und ihre Beziehung zur VC-Dimension im Kontext einfacher Modelle. Während die VC-Dimension die Anzahl der Hypothesen zählt, die von einem Modell erreicht werden können, ist sie nicht unbedingt gleich der Anzahl der Parameter. Durch die Konstruktion eines künstlichen Beispiels zeigt der Dozent, dass Parameter nicht immer zu Freiheitsgraden beitragen müssen. Stattdessen lassen sich effektive Freiheitsgrade zuverlässiger durch die VC-Dimension messen und der Dozent demonstriert, wie ein Modell mit acht Parametern tatsächlich die gleiche VC-Dimension haben kann wie ein Modell mit nur zwei Parametern. Abschließend stellt der Dozent fest, dass Praktiker möglicherweise an der Anzahl der für ein System benötigten Datenpunkte interessiert sind und wie diese mit der VC-Dimension des Hypothesensatzes in Beziehung gesetzt werden können.

  • 00:45:00 In diesem Abschnitt erörtert der Sprecher die Beziehung zwischen der Anzahl der benötigten Beispiele und dem Wert der VC-Dimension. Die VC-Ungleichung hat zwei kleine Leistungsgrößen, die möglichst klein sein sollen. Eines davon ist E_in nicht weit von E_out entfernt, während das andere Delta ist, das einen kleinen Wert hat. Nachdem Sie sich für bestimmte Epsilon- und Delta-Werte entschieden haben, erklärt der Referent, wie Sie die Anzahl der Beispiele bestimmen können, die erforderlich sind, um diese zu erreichen, indem Sie die Funktion N hoch der VC-Dimension mal e hoch -N betrachten, die in einem Diagramm aufgetragen ist. Der interessante Teil der Kurve ist dort, wo die Wahrscheinlichkeit kleiner als 1 ist, und der Sprecher untersucht dann die Auswirkungen einer Erhöhung der VC-Dimension von 4 auf 5.

  • 00:50:00 In diesem Abschnitt geht der Dozent auf den Zusammenhang zwischen der Anzahl der Beispiele in einem Datensatz und der VC-Dimension ein, die ein Maß für die Komplexität eines Lernalgorithmus ist. Er verwendet mehrere Diagramme, um zu veranschaulichen, wie sich die Leistung des Algorithmus mit zunehmender VC-Dimension ändert, und betont, dass die Anzahl der Beispiele, die zum Erreichen eines bestimmten Leistungsniveaus erforderlich sind, proportional zur VC-Dimension ist. Er stellt jedoch auch fest, dass die Leistungsgrenzen zwar garantiert einer gewissen Monotonie folgen, die tatsächliche Leistung dies jedoch möglicherweise nicht immer tut, was für Praktiker eine Quelle der Frustration sein kann.

  • 00:55:00 In diesem Abschnitt diskutiert der Dozent Beobachtungen und praktische Anwendungen der VC-Dimension. Die erste Lektion ist, dass es eine proportionale Beziehung zwischen der VC-Dimension und der Anzahl der Beispiele gibt, die erforderlich sind, um ein bestimmtes Leistungsniveau zu erreichen. Der Dozent gibt eine Faustregel, wo das 10-fache der VC-Dimension benötigt wird, um in die Komfortzone der VC-Ungleichung zu gelangen, wo die Wahrscheinlichkeitsaussage sinnvoll ist. Die zweite praktische Beobachtung ist, dass für einen großen Bereich von vernünftigen Epsilon und Delta auch die Faustregel gilt. Der Dozent vereinfacht dann die VC-Ungleichungsformel und nennt sie Formelkapital-Omega, wobei er feststellt, dass sie von der Wachstumsfunktion abhängt und dass die Omega-Formel mit zunehmender VC-Dimension schlechter wird.
  • 01:00:00 In diesem Abschnitt erörtert der Referent das Konzept der Verallgemeinerung und wie mehr Beispiele die Wachstumsfunktion und das Polynomverhalten beeinflussen können. Er führt die Idee der Verallgemeinerungsgrenze ein, die eine positive Aussage ist, anstatt schlechte Ereignisse zu charakterisieren. Bei einer Wahrscheinlichkeit größer oder gleich 1 minus Delta verfolgt E_in E_out, was bedeutet, dass sie innerhalb von Omega liegen, was von der Anzahl der Beispiele und der VC-Dimension des Hypothesensatzes abhängt. Der Sprecher vereinfacht die Verallgemeinerungsgrenze, indem er sie neu anordnet, um zu zeigen, dass E_out durch E_in plus Omega begrenzt ist. Er erklärt, wie diese Grenze den Kompromiss zwischen der Größe des Hypothesensatzes und einer guten Verallgemeinerung veranschaulicht, was zum Konzept der Regularisierung beim maschinellen Lernen führt.

  • 01:05:00 In diesem Abschnitt erklärt der Professor, dass die VC-Dimension der größte Wert kurz vor dem ersten Haltepunkt ist, was bedeutet, dass jeder größere Punkt, der als Haltepunkt fungiert, ebenfalls gezählt wird. Der Begriff eines Haltepunkts deckt viele Werte ab, aber die VC-Dimension ist die einzigartige, die auffällt. Er stellt auch klar, dass bei der Diskussion über das Zerschmettern von N-Punkten Einzelpersonen die zu zerschmetternden Punkte auswählen können. Der Professor erklärt, dass Epsilon und Delta zwei Leistungsparameter des Lernens sind, wobei Epsilon der Näherungsparameter ist, der sicherstellt, dass E_in E_out verfolgt, während Delta das Wahrscheinlichkeitsmaß ist, das die Wahrscheinlichkeit bestimmt, dass die Wahrscheinlichkeitsaussage fehlschlägt. Auf die Frage nach der Auswirkung des Fehlermaßes auf die Anzahl der zu wählenden Punkte erklärt der Professor, dass man sich beim Umgang mit dem Fehlermaß im binären Sinne keine Gedanken über die Varianz machen muss, da es eine Obergrenze gibt, aber wenn man andere verwendet Co-Domains oder Fehlermaßnahmen sind Modifikationen notwendig.

  • 01:10:00 In diesem Abschnitt erklärt der Professor, dass es selten ist, die VC-Dimension genau zu erhalten, aber sie kennen die genaue Dimension für Perceptrons. Bei neuronalen Netzen kann die Schätzung der VC-Dimension aufgrund von Redundanzen und Löschungen nicht über einer bestimmten Zahl liegen. Der Professor betont, dass die VC-Dimensionsgrenze eine lose Schätzung ist, aber dennoch ihre konzeptionelle Bedeutung beibehält und als Richtlinie zum Vergleichen von Modellen und Annähern an die Anzahl der benötigten Beispiele verwendet werden kann. Als Faustregel gilt, mindestens das 10-fache der VC-Dimension zu verwenden, um in den interessanten Bereich der VC-Ungleichung zu gelangen, der von der vom Kunden gewünschten Genauigkeit abhängt. Der Professor stellt fest, dass es Gemeinsamkeiten zwischen diesem Material und dem Thema Versuchsplanung gibt und dass sich die Prinzipien des Lernens auf andere Situationen über strenge Lernszenarien hinaus erstrecken.
Lecture 07 - The VC Dimension
Lecture 07 - The VC Dimension
  • 2012.04.26
  • www.youtube.com
The VC Dimension - A measure of what it takes a model to learn. Relationship to the number of parameters and degrees of freedom. Lecture 7 of 18 of Caltech's...
Grund der Beschwerde: