Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
8.6 Unterschiedliche Verwendungen des Begriffs „Bias“ (L08: Modellbewertung Teil 1)
8.6 Unterschiedliche Verwendungen des Begriffs „Bias“ (L08: Modellbewertung Teil 1)
Der Vortrag war nicht besonders spannend, da er sich mit dem Thema Bias und Varianzzerlegung beim maschinellen Lernen befasste. Der Redner räumte ein, dass das Thema langweilig sei. Allerdings gab es noch einen letzten wichtigen Punkt, den der Redner in Bezug auf die verschiedenen Formen der Voreingenommenheit beim maschinellen Lernen ansprechen wollte.
Der Begriff „Machine-Learning-Bias“ wurde als überladener Begriff erklärt, was bedeutet, dass er für verschiedene Dinge in unterschiedlichen Kontexten verwendet wird. In einem früheren Kurs über maschinelles Lernen, den der Referent gehalten hatte, wurden Bias-Einheit und neuronale Netze besprochen, aber das unterschied sich von der statistischen Verzerrung, die in dieser Vorlesung besprochen wurde. Im Kontext des maschinellen Lernens bezieht sich Bias auf die Präferenzen oder Einschränkungen des Algorithmus des maschinellen Lernens, auch bekannt als induktiver Bias.
Der Redner gab ein Beispiel eines Entscheidungsbaumalgorithmus, um die induktive Verzerrung zu veranschaulichen. Entscheidungsbäume bevorzugen kleinere Bäume gegenüber größeren Bäumen. Wenn zwei Entscheidungsbäume in einem Trainingssatz die gleiche Leistung erbringen, würde der Algorithmus den kleineren Baum bevorzugen und das Wachstum des Baums einstellen, wenn keine Verbesserung erzielt werden kann. Diese Bevorzugung kleinerer Bäume ist ein Beispiel für eine induktive Verzerrung, die einen Entscheidungsbaumalgorithmus beeinflusst.
Der Redner verwies auf einen Artikel von Dieterich und Khan, in dem die Voreingenommenheit beim maschinellen Lernen der statistischen Voreingenommenheit gegenübergestellt wird. Angemessene und unangemessene Vorurteile wurden im Zusammenhang mit absoluten Vorurteilen diskutiert. Unangemessene Verzerrungen enthalten keine gute Annäherung an die Zielfunktion, was bedeutet, dass der Algorithmus für das Problem nicht gut geeignet ist. Andererseits ermöglichen geeignete Bias gute Annäherungen an die Zielfunktion.
Der relative Bias wurde als zu stark oder zu schwach beschrieben. Eine zu starke Verzerrung schließt möglicherweise gute Näherungen nicht aus, bevorzugt jedoch schlechtere Hypothesen. Umgekehrt berücksichtigt eine zu schwache Verzerrung zu viele Hypothesen, was möglicherweise zu einer Überanpassung führt.
Der Redner präsentierte ein Beispiel einer Simulationsstudie mit Entscheidungsbaummodellen, um das Zusammenspiel zwischen Bias und Varianz zu demonstrieren. Die Studie bewertete die mittlere Fehlerquote und stellte fest, dass einige Fehler auf Verzerrungen und andere auf Varianz zurückzuführen waren.
Eine weitere wichtige Art von Bias, die diskutiert wurde, war der Fairness-Bias, der sich auf demografische Unterschiede in algorithmischen Systemen bezieht, die aus gesellschaftlichen Gründen anstößig sind. Modelle des maschinellen Lernens können bestimmte Bevölkerungsgruppen ungerecht behandeln, und diese Verzerrung kann auf unausgewogene Datensätze oder andere Faktoren zurückzuführen sein. Der Redner empfahl, sich für weitere Informationen zur Fairness beim maschinellen Lernen auf das Fair ML Book zu beziehen.
Der Redner erwähnte kurz ein Projekt, an dem sie arbeiteten und bei dem es darum ging, weiche biometrische Informationen aus Gesichtsbildern zu verbergen und gleichzeitig die Übereinstimmungsgenauigkeit beizubehalten. Ziel war es, die Privatsphäre zu schützen, indem Algorithmen daran gehindert werden, Geschlechtsinformationen aus Gesichtsbildern zu extrahieren. Der Redner bewertete die Leistung ihres Systems und kommerzieller Gesichtserkennungsalgorithmen und stellte Verzerrungen im binären Geschlechtsklassifikator der kommerziellen Software basierend auf der Hautfarbe fest.
Der Redner betonte, wie wichtig es sei, Vorurteile zu minimieren und zu berücksichtigen, wie Klassifikatoren bei verschiedenen Bevölkerungsgruppen funktionieren. Sie betonten die Notwendigkeit von Techniken wie Oversampling, um Verzerrungen entgegenzuwirken und gerechtere Ergebnisse zu gewährleisten.
Der Vortrag behandelte verschiedene Formen von Bias beim maschinellen Lernen, darunter induktive Bias, statistische Bias und Fairness Bias. Die Beispiele und Diskussionen beleuchten die Herausforderungen und Überlegungen, die mit der Minderung von Voreingenommenheit und der Förderung von Fairness bei Algorithmen für maschinelles Lernen verbunden sind.
9.1 Einführung (L09-Modellbewertung 2: Konfidenzintervalle)
9.1 Einführung (L09-Modellbewertung 2: Konfidenzintervalle)
Hallo an alle! Heute erwartet uns ein äußerst spannender und informativer Vortrag. Im Gegensatz zum vorherigen Vortrag, der sich mit dem eher trockenen Thema Setup und Bias-Varianz-Zerlegung befasste, verspricht diese Sitzung spannender zu werden. Wir werden verschiedene Resampling-Techniken diskutieren und Simulationen an verschiedenen Datensätzen durchführen, um zu beobachten, wie sich Resampling auf das Training von Algorithmen auswirkt. Durch die Aufteilung eines Datensatzes in Trainings- und Testsätze reduzieren wir die verfügbare Trainingsgröße, was möglicherweise Auswirkungen auf die Modellleistung hat.
Darüber hinaus werden wir Konfidenzintervalle und verschiedene Methoden zu ihrer Konstruktion untersuchen. Dazu gehören die Verwendung normaler Approximationsintervalle und verschiedener Bootstrapping-Techniken. Konfidenzintervalle haben beim maschinellen Lernen an Bedeutung gewonnen, und aktuelle Papiereinreichungen erfordern ihre Einbeziehung. Gutachter nehmen jetzt auch Konfidenzintervalle ernster. Sie wecken Erwartungen innerhalb des Fachgebiets und erweisen sich nicht nur für Gutachter als nützlich, sondern auch für andere Leser, die Ihre Modelle untersuchen.
Kommen wir nun zu den Vorlesungsthemen. Wir beginnen mit einer Einführung, gefolgt von der Holdout-Methode zur Modellbewertung. Anschließend untersuchen wir, wie die Holdout-Methode zur Modellauswahl eingesetzt werden kann. Im weiteren Verlauf werden wir uns mit der Konstruktion von Konfidenzintervallen mithilfe verschiedener Techniken befassen, beginnend mit dem normalen Approximationsintervall.
Ein weiterer Schwerpunkt wird auf Resampling-Methoden liegen. Wir analysieren die wiederholte Holdout-Methode, bei der die Holdout-Methode auf neu abgetastete Versionen des Trainingssatzes angewendet wird. Darüber hinaus untersuchen wir empirische Konfidenzintervalle, die auf Resampling-Techniken basieren. Hier werden wir auf die bekannte Bootstrap-Technik stoßen, die in der Vorlesung über Bagging und Ensemble-Modell besprochen wurde.
Sobald wir verstanden haben, wie man empirische Konfidenzintervalle mithilfe der Bootstrap-Methode erstellt, werden wir zwei erweiterte Versionen untersuchen: den Point-632-Bootstrap und den Point-632-Plus-Bootstrap. Es ist wichtig, den Kontext dieser Vorlesung im breiteren Rahmen der Modellevaluierung zu beachten. Wir werden keine neuen Algorithmen für maschinelles Lernen vorstellen, sondern uns auf wesentliche Techniken zum Vergleichen und Auswählen von Modellen konzentrieren.
Diese Techniken sind von entscheidender Bedeutung, da es schwierig ist, zu bestimmen, welcher Algorithmus für maschinelles Lernen bei einem bestimmten Datensatz eine gute Leistung erbringt. Wir müssen oft zahlreiche Algorithmen ausprobieren und vergleichen, um den leistungsstärksten zu finden. Darüber hinaus ist die Bewertung der Modellleistung von entscheidender Bedeutung für die Entwicklung von Anwendungen wie der Bilderkennung auf iPhones, bei denen die genaue Vorhersage von Bildbeschriftungen von entscheidender Bedeutung ist.
Neben der Schätzung der Generalisierungsleistung für unsichtbare Daten vergleichen wir auch verschiedene Modelle. Durch die Verwendung desselben Algorithmus und Trainingssatzes können wir mehrere Modelle mit unterschiedlichen Hyperparametereinstellungen erhalten. Wir vergleichen diese Modelle, um das beste auszuwählen. Darüber hinaus verwenden wir möglicherweise unterschiedliche Algorithmen und möchten deren Leistung für bestimmte Datentypen wie Bilder oder Text bewerten.
Um das beste Modell auszuwählen, können wir entweder die absolute Generalisierungsleistung genau schätzen oder die Modelle ohne absolute Leistungswerte in eine Rangfolge bringen. Der letztgenannte Ansatz trägt dazu bei, Verzerrungen zu vermeiden, die durch die mehrmalige Verwendung desselben Testsatzes entstehen. Ein Ranking-System ermöglicht es uns, das beste Modell auszuwählen, ohne uns auf genaue Schätzungen der Generalisierungsleistung verlassen zu müssen.
In den kommenden Vorlesungen werden wir uns mit Kreuzvalidierungstechniken, statistischen Tests zur Modellbewertung und Bewertungsmetriken befassen, die über die Genauigkeit hinausgehen, wie z. B. Präzision, Rückruf und ROC-Kurven (Receiver Operating Characteristic).
Diese Vorlesungen sind von entscheidender Bedeutung, da sie die Möglichkeit bieten, verschiedene Algorithmen für maschinelles Lernen zu vergleichen und das am besten geeignete Modell auszuwählen. Sie führen zwar keine neuen Algorithmen ein, bieten aber praktische Einblicke und Techniken zur Bewertung der Modellleistung.
Zusammenfassend wird sich unser heutiger Vortrag mit Resampling-Techniken, Konfidenzintervallen und deren Relevanz für maschinelles Lernen befassen. Am Ende dieser Vorlesungsreihe verfügen Sie über ein umfassendes Verständnis der Modellevaluierung und der erforderlichen Werkzeuge, um fundierte Entscheidungen beim maschinellen Lernen zu treffen. Beginnen wir mit der Erkundung dieser Themen!
9.2 Holdout-Bewertung (L09-Modellbewertung 2: Konfidenzintervalle)
9.2 Holdout-Bewertung (L09-Modellbewertung 2: Konfidenzintervalle)
In diesem Video besprechen wir die Holdout-Methode zur Modellbewertung. Obwohl diese Methode nicht neu ist, gibt es einige interessante Aspekte, die wir bisher noch nicht untersucht haben. Bei der Holdout-Methode wird der Datensatz in einen Trainingssatz und einen Testsatz unterteilt. Der Trainingssatz wird zum Trainieren oder Anpassen des Modells verwendet, während der Testsatz zur Bewertung der Leistung des Modells verwendet wird.
Es sind jedoch einige Überlegungen zu beachten. Erstens ist der Trainingssatzfehler eine optimistisch verzerrte Schätzung des Generalisierungsfehlers. Dies bedeutet, dass der Trainingsfehler die Leistung des Modells möglicherweise nicht zuverlässig einschätzt, da er die Trainingsdaten möglicherweise überpasst. Andererseits liefert der Testsatz eine unverzerrte Schätzung des Generalisierungsfehlers, wenn er unabhängig vom Trainingssatz ist. Aus konzeptioneller Sicht kann der Testsatz jedoch pessimistisch verzerrt sein. Diese Verzerrung entsteht, weil wir wertvolle Daten verlieren, wenn wir den Datensatz in Trainings- und Testsätze aufteilen. Selbst bei einem kleinen Datensatz kann das Entfernen von 30 % der Daten zur Auswertung erhebliche Auswirkungen auf die Leistung des Modells haben.
Um diesen Punkt zu veranschaulichen, betrachten wir ein einfaches Beispiel. Stellen Sie sich vor, wir haben einen Datensatz, der nur aus 10 Datenpunkten besteht. Wenn wir 30 % der Daten zur Auswertung entfernen, wird das Modell nur auf 70 % der Daten trainiert. Diese begrenzten Trainingsdaten können zu einer verminderten Modellleistung führen, da Modelle für maschinelles Lernen im Allgemeinen von mehr Daten profitieren. Wenn wir eine Lernkurve zeichnen, beobachten wir normalerweise, dass sich die Generalisierungsleistung mit zunehmender Datensatzgröße verbessert. Daher kann das Zurückhalten eines erheblichen Teils der Daten zur Auswertung das Modell verschlechtern.
Trotz dieses Nachteils ist eine Bewertung des Modells erforderlich. Im akademischen Bereich berichten wir normalerweise über die Leistung des Testsatzes und betrachten unsere Aufgabe als abgeschlossen. In der Industrie trainieren wir das Modell jedoch häufig anhand des gesamten Datensatzes, nachdem wir ihn anhand des Testsatzes ausgewertet haben. Dies ermöglicht es uns, Stakeholdern, beispielsweise Projektmanagern, die Leistung des Modells genau zu melden. Das Training des gesamten Datensatzes kann jedoch zu einer pessimistischen Verzerrung bei der Leistungsschätzung des Testsatzes führen. Wenn das Modell beispielsweise im Testsatz eine Genauigkeit von 95 % erreicht, könnte das Training am gesamten Datensatz die Leistung des Modells auf 96 % verbessern. In diesem Fall ist die anfängliche Schätzung einer Genauigkeit von 95 % pessimistisch verzerrt.
Die alleinige Verwendung der Holdout-Methode ist nicht immer ideal. Es gibt Einschränkungen, z. B. dass die Varianz in den Trainingsdaten nicht berücksichtigt wird. Wenn wir die Daten zufällig aufteilen, können unterschiedliche Aufteilungen zu unterschiedlichen Modellleistungen führen. Diese Variabilität macht die Schätzung des Testsatzes weniger zuverlässig, da sie nur eine Punktschätzung liefert. Darüber hinaus berücksichtigt die Holdout-Methode nicht die Möglichkeit einer optimistischen Verzerrung, wenn der Testsatz mehrmals zum Optimieren und Vergleichen von Modellen verwendet wird.
Um die Auswirkungen von Vorurteilen besser zu verstehen, betrachten wir das Konzept der pessimistischen Voreingenommenheit. Was die Modellauswahl betrifft, hat eine pessimistische Verzerrung von 10 % keinen Einfluss auf die Rangfolge der Modelle basierend auf der Vorhersagegenauigkeit. Angenommen, wir haben drei Modelle: h2, h1 und h3. Auch wenn alle Genauigkeitsschätzungen pessimistisch um 10 % verzerrt sind, bleibt die Rangfolge gleich. Das Ziel der Modellauswahl besteht darin, das beste verfügbare Modell auszuwählen, und eine konsistente pessimistische Tendenz über alle Modelle hinweg ändert nichts an der relativen Rangfolge.
Ebenso kann es Fälle geben, in denen der Testsatzfehler optimistisch verzerrt ist. Dies tritt auf, wenn derselbe Testsatz mehrmals verwendet wird, um verschiedene Modelle abzustimmen und zu vergleichen. Die wiederholte Verwendung des Testsatzes kann zu einem Überlebensbias führen, bei dem nur die Modelle berücksichtigt werden, die im Testsatz eine gute Leistung erbringen. Ein Beispiel hierfür ist die Frage „Verallgemeinern sich CIFAR-10-Klassifikatoren auf CIFAR-10?“ Artikel, der Überanpassung und optimistische Verzerrungen bei Klassifikatoren untersucht, die anhand des CIFAR-10-Bilddatensatzes trainiert und ausgewertet wurden.
Zusammenfassend lässt sich sagen, dass die Holdout-Methode zwar ein häufig verwendeter Ansatz zur Modellevaluierung ist, jedoch ihre Grenzen und potenziellen Verzerrungen aufweist. Um diese Einschränkungen zu überwinden, wurden alternative Techniken entwickelt, beispielsweise Kreuzvalidierung und Bootstrapping.
Bei der Kreuzvalidierung handelt es sich um eine Methode, bei der der Datensatz in mehrere Teilmengen oder Faltungen unterteilt wird. Das Modell wird an einer Kombination dieser Falten trainiert und an der verbleibenden Falte ausgewertet. Dieser Vorgang wird mehrmals wiederholt, wobei jede Falte einmal als Testsatz dient. Die Kreuzvalidierung ermöglicht eine umfassendere Bewertung der Leistung des Modells, da verschiedene Teilmengen der Daten für Training und Tests verwendet werden. Es trägt dazu bei, die Auswirkungen zufälliger Datenaufteilungen abzumildern und bietet eine zuverlässigere Schätzung der Generalisierungsleistung des Modells.
Bootstrapping ist eine weitere Resampling-Technik, die die Einschränkungen der Holdout-Methode beseitigt. Dabei wird der Datensatz nach dem Zufallsprinzip ausgewählt und ersetzt, um mehrere Bootstrap-Stichproben zu erstellen. Jedes Bootstrap-Beispiel wird als Trainingssatz verwendet und die verbleibenden Daten werden als Testsatz verwendet. Durch wiederholtes Abtasten mit Ersetzen generiert Bootstrapping mehrere Trainings-Test-Splits, was eine robustere Bewertung der Modellleistung ermöglicht.
Sowohl die Kreuzvalidierung als auch das Bootstrapping tragen dazu bei, die mit der Holdout-Methode verbundenen Verzerrungen zu mildern. Sie liefern zuverlässigere Schätzungen der Modellleistung, indem sie die verfügbaren Daten effizienter nutzen und die Variabilität in den Trainings-Test-Splits berücksichtigen.
Obwohl die Holdout-Methode ein unkomplizierter Ansatz für die Modellbewertung ist, weist sie Einschränkungen und potenzielle Verzerrungen auf. Um diese Probleme zu entschärfen, bieten Techniken wie Kreuzvalidierung und Bootstrapping robustere und zuverlässigere Schätzungen der Modellleistung. Es ist wichtig, diese alternativen Methoden in Abhängigkeit von den spezifischen Anforderungen und Einschränkungen des vorliegenden Problems in Betracht zu ziehen.
9.3 Holdout-Modellauswahl (L09-Modellbewertung 2: Konfidenzintervalle)
9.3 Holdout-Modellauswahl (L09-Modellbewertung 2: Konfidenzintervalle)
Im vorherigen Video haben wir die Holdout-Methode zur Modellbewertung besprochen. Jetzt werden wir untersuchen, wie wir diese Methode zur Modellauswahl ändern können. Um es noch einmal zusammenzufassen: Im vorherigen Video haben wir den Datensatz in einen Trainingssatz und einen Testsatz aufgeteilt. Wir haben ein Modell auf dem Trainingssatz trainiert, indem wir einen Algorithmus für maschinelles Lernen und feste Hyperparametereinstellungen verwendet haben. Anschließend haben wir das Modell am Testsatz bewertet. Darüber hinaus passen wir das Modell optional an den gesamten Datensatz an, um mehr Daten zu nutzen und eine verbesserte Leistung zu erwarten.
Unser Ziel ist es nun, die Holdout-Methode zur Modellauswahl zu verwenden, die eng mit der Optimierung von Hyperparametern zusammenhängt. Bei der Modellauswahl geht es darum, das beste Modell aus verschiedenen Hyperparametereinstellungen auszuwählen. Im Prozess der Hyperparameter-Optimierung generieren wir mehrere Modelle, die jeweils einer bestimmten Hyperparameter-Einstellung entsprechen. Die Modellauswahl hilft uns, das Modell mit der optimalen Hyperparametereinstellung zu identifizieren.
Um die modifizierte Holdout-Methode für die Modellauswahl zu erklären, schlüsseln wir die Schritte auf. Anstatt den Datensatz nur in einen Trainings- und Testsatz aufzuteilen, unterteilen wir ihn zunächst in drei Sätze: einen Trainingssatz, einen Validierungssatz und einen Testsatz. Diese Trennung ermöglicht es uns, einen unabhängigen Datensatz, den Validierungssatz, für die Modellauswahl zu haben.
Als nächstes betrachten wir verschiedene Hyperparametereinstellungen und passen mehrere Modelle mithilfe der Trainingsdaten an. Beispielsweise können wir einen K-Nearest-Neighbor-Algorithmus mit den Hyperparameterwerten k=3, k=5 und k=7 verwenden, was zu drei Modellen führt.
Der Modellauswahlschritt umfasst die Bewertung dieser Modelle mithilfe des Validierungssatzes. Da Modelle möglicherweise zu stark an die Trainingsdaten angepasst sind, eignet sie sich nicht zur Auswahl des besten Modells. Daher verlassen wir uns bei der Bewertung der Modelle auf den unabhängigen Validierungssatz. Wir berechnen Leistungsmetriken wie die Vorhersagegenauigkeit für jedes Modell und wählen das Modell mit der besten Leistung als optimales Modell aus, das den besten Hyperparametereinstellungen entspricht.
Die mehrmalige Verwendung des Validierungssatzes für die Modellauswahl kann jedoch zu Verzerrungen führen, ähnlich dem Problem, das wir im vorherigen Video mit dem Testsatz hatten. Um eine unvoreingenommene Schätzung der Modellleistung zu erhalten, reservieren wir einen unabhängigen Testsatz. Nachdem wir das beste Modell ausgewählt haben, bewerten wir seine Leistung im Testsatz und berichten über die Ergebnisse.
Optional können wir vor der endgültigen Bewertung das Modell mithilfe der kombinierten Trainings- und Validierungsdaten neu anpassen. Dieser Schritt nutzt mehr Daten, um möglicherweise die Leistung des Modells zu verbessern. Abschließend bewerten wir das endgültige Modell anhand des unabhängigen Testsatzes und berichten über seine Leistung. Obwohl wir nicht über einen Testsatz verfügen, um das mit den kombinierten Daten angepasste Modell weiter zu bewerten, wird allgemein erwartet, dass es aufgrund der größeren Datenmenge besser ist.
In der Praxis kann die Holdout-Methode zur Modellauswahl variieren und nicht alle Schritte werden strikt befolgt. Einige Praktiker werten das ausgewählte Modell direkt auf dem Testsatz aus, ohne erneut auf die kombinierten Daten zu trainieren. Der Kerngedanke besteht jedoch darin, separate Datensätze für Training, Validierung und Tests zu haben, um eine unvoreingenommene Leistungsschätzung zu gewährleisten und die Auswahl des besten Modells zu erleichtern.
Im nächsten Video werden wir uns mit dem Konzept der Konfidenzintervalle befassen.
9.4 ML-Konfidenzintervalle mittels normaler Approximation (L09-Modellbewertung 2: Konfidenzintervalle)
9.4 ML-Konfidenzintervalle mittels normaler Approximation (L09-Modellbewertung 2: Konfidenzintervalle)
In diesem Video liegt unser Fokus auf Konfidenzintervallen, insbesondere zur Schätzung des Klassifizierungsfehlers oder der Klassifizierungsgenauigkeit aus einem Testsatz. Wir verwenden die normale Näherungsmethode, die einfachste Vorgehensweise. Allerdings werden wir in zukünftigen Videos auch bessere Methoden basierend auf Resampling besprechen.
Derzeit befinden wir uns im Grundlagenteil und untersuchen Konfidenzintervalle mithilfe der normalen Näherungsmethode. In den folgenden Videos werden wir uns mit verschiedenen Resampling-Techniken befassen, beginnend mit der Methode des wiederholten Holdouts und dann mit Methoden wie Bootstrapping zur Konstruktion empirischer Konfidenzintervalle fortfahren, die bei der Verarbeitung kleinerer Datensätze, die üblicherweise beim traditionellen maschinellen Lernen vorkommen, effektiver sind.
Beginnen wir mit der Diskussion der Binomialverteilung, die Sie vielleicht bereits aus anderen Statistikkursen kennen. Die Binomialverteilung liefert die Anzahl der Erfolge, wobei die Parameter n und p die Anzahl der Versuche bzw. die Erfolgswahrscheinlichkeit darstellen. Der Mittelwert der Binomialverteilung ergibt sich aus n mal p. Wenn wir beispielsweise 100 Versuche mit einer Erfolgswahrscheinlichkeit von 33 % haben, liegt der Mittelwert bei 30.
In der Abbildung auf der linken Seite sehen Sie die Wahrscheinlichkeitsdichtefunktion der Binomialverteilung für verschiedene Werte von p und n. Diese Dichtefunktion veranschaulicht die Wahrscheinlichkeit unterschiedlicher Erfolgszahlen. Darüber hinaus wird die Varianz der Binomialverteilung als n mal p mal (1 – p) berechnet, was wir später verwenden werden. Nehmen Sie sich einen Moment Zeit, um sich mit diesem Modell vertraut zu machen.
Verbinden wir nun die Binomialverteilung mit maschinellem Lernen. Wir können die 0:1-Niederlage als einen Bernoulli-Prozess betrachten, bei dem wir zwei Möglichkeiten haben: richtige Klassifizierung (Erfolg) und falsche Klassifizierung (Misserfolg). Wir können eine falsche Klassifizierung als Erfolg und eine korrekte Klassifizierung als Misserfolg betrachten. Diese Perspektive deckt sich mit dem Konzept von Kopf und Zahl beim Münzwurf. Um die Erfolgswahrscheinlichkeit (dh eine falsche Klassifizierung) abzuschätzen, können wir sie empirisch berechnen, indem wir eine große Anzahl von Versuchen durchführen und die Anzahl der Erfolge dividiert durch die Gesamtzahl der Versuche zählen. Die durchschnittliche Anzahl der Erfolge beträgt n mal p, was dem Mittelwert der Binomialverteilung entspricht.
Die Beziehung zwischen dem 0-1-Verlust und der Binomialverteilung hilft uns, den Fehlerbegriff beim maschinellen Lernen zu verstehen. Wir können die 0:1-Niederlage als einen Bernoulli-Versuch betrachten und den wahren Fehler als die Wahrscheinlichkeit richtiger Vorhersagen. Um den wahren Fehler abzuschätzen, verwenden wir einen Testsatz und berechnen den Anteil falscher Vorhersagen. Dieser Anteil stellt den Klassifizierungsfehler dar, der weiter durch die Größe des Testsatzes dividiert werden kann, um einen Wert zwischen Null und Eins zu erhalten.
Bei der Konstruktion von Konfidenzintervallen verwenden wir dieselben Methoden wie bei Einzelstichproben-Konfidenzintervallen aus anderen Statistikklassen. Ein Konfidenzintervall ist ein Intervall, von dem erwartet wird, dass es den interessierenden Parameter mit einer bestimmten Wahrscheinlichkeit enthält. Das gebräuchlichste Konfidenzniveau ist 95 %, es können jedoch auch andere Niveaus wie 90 % oder 99 % verwendet werden. Die Wahl des Konfidenzniveaus bestimmt die Breite des Intervalls, wobei höhere Niveaus zu breiteren Intervallen führen.
Um ein Konfidenzintervall formal zu definieren, betrachten wir mehrere Stichproben, die wiederholt aus der angenommenen Verteilung gezogen werden. In unserem Fall gehen wir von einer Normalverteilung aus. Wenn wir bei der Konstruktion eines 95 %-Konfidenzintervalls mit dieser Methode eine unendliche Anzahl von Intervallen basierend auf einer unendlichen Anzahl von Stichproben erstellen würden, würden wir erwarten, dass 95 % dieser Intervalle den wahren Parameter enthalten.
Sie fragen sich vielleicht, warum wir davon ausgehen, dass die Daten einer Normalverteilung entnommen werden können. Der Grund dafür ist, dass die Binomialverteilung einer Normalverteilung ähnelt, wenn die Anzahl der Versuche groß ist. Selbst bei einer relativ kleinen Anzahl von Versuchen weisen die Daten bereits eine Form auf, die einer Standardnormalverteilung ähnelt. Aus diesem Grund verwenden wir die Normalnäherung
Methode zur Konstruktion von Konfidenzintervallen in diesem Fall.
Lassen Sie uns nun in die Einzelheiten der Konstruktion eines Konfidenzintervalls für Klassifizierungsfehler mithilfe der normalen Näherungsweise eintauchen. Zuerst müssen wir die Standardabweichung der Binomialverteilung berechnen. Wie bereits erwähnt, ist die Varianz der Binomialverteilung durch n mal p mal (1 – p) gegeben. Daher ist die Standardabweichung die Quadratwurzel der Varianz.
Als nächstes ermitteln wir den Z-Score, der dem gewünschten Konfidenzniveau entspricht. Der Z-Score stellt die Anzahl der Standardabweichungen vom Mittelwert der Standardnormalverteilung dar. Bei einem Konfidenzniveau von 95 % beträgt der Z-Score etwa 1,96. Die allgemeine Formel zur Berechnung des Z-Scores lautet (x – μ) / σ, wobei x das gewünschte Konfidenzniveau, μ der Mittelwert und σ die Standardabweichung ist.
Um das Konfidenzintervall zu erstellen, beginnen wir mit der geschätzten Fehlerrate aus dem Testsatz, die unsere Punktschätzung darstellt. Dann subtrahieren und addieren wir das Produkt aus dem Z-Score und der Standardabweichung von der Punktschätzung. Dies gibt uns die Unter- bzw. Obergrenze des Konfidenzintervalls. Das resultierende Intervall stellt den Wertebereich dar, innerhalb dessen wir erwarten, dass der wahre Klassifizierungsfehler mit dem angegebenen Konfidenzniveau liegt.
Es ist wichtig zu beachten, dass die normale Approximationsmethode davon ausgeht, dass die Anzahl der Versuche (Größe des Testsatzes) ausreichend groß ist. Wenn der Testsatz klein ist, ist diese Näherung möglicherweise nicht genau. In solchen Fällen können Resampling-Methoden wie Bootstrapping zuverlässigere Konfidenzintervalle liefern.
Zusammenfassend umfasst die Konstruktion von Konfidenzintervallen für Klassifizierungsfehler mithilfe der Normalnäherungsmethode die folgenden Schritte:
Beachten Sie, dass wir in den folgenden Videos fortgeschrittenere Methoden auf der Grundlage von Resampling-Techniken untersuchen werden, die besonders für kleinere Datensätze nützlich sind. Diese Methoden liefern empirische Konfidenzintervalle und sind häufig genauer als die normale Näherungsmethode.
9.5 Resampling und wiederholtes Holdout (L09-Modellbewertung 2: Konfidenzintervalle)
9.5 Resampling und wiederholtes Holdout (L09-Modellbewertung 2: Konfidenzintervalle)
In diesem Video werden wir uns mit dem Thema Resampling befassen und speziell auf die Methode des wiederholten Holdouts eingehen. Zuvor haben wir die reguläre Holdout-Methode untersucht, bei der der Datensatz in Trainings- und Testsätze unterteilt wird. Wir haben auch untersucht, wie die normale Approximationsmethode verwendet werden kann, um Konfidenzintervalle basierend auf der im Testsatz geschätzten Leistung zu erstellen. Jetzt werden wir unseren Fokus auf Resampling-Methoden verlagern, beginnend mit der wiederholten Holdout-Methode.
Betrachten wir zur visuellen Veranschaulichung die Lernkurven. Lernkurven dienen als Indikatoren dafür, ob unser Modell von zusätzlichen Trainingsdaten profitieren würde. Im Diagramm stellt die x-Achse die Größe des Trainingssatzes dar, während die y-Achse die Leistung, gemessen als Genauigkeit, darstellt. Allerdings könnte das gleiche Diagramm zur Messung des Fehlers durch Umdrehen verwendet werden. Die hier gezeigte Leistung basiert auf dem handschriftlichen Zifferndatensatz von Amnesty, es wurde jedoch nur eine Teilmenge von 5000 Bildern verwendet, um die Berechnung zu beschleunigen. Von diesen 5.000 Bildern wurden 3.000 für das Training bereitgestellt und 1.500 als Testsatz reserviert. Außerdem wurde ein weiterer Datensatz bestehend aus 3500 Bildern erstellt und daraus Trainingssätze unterschiedlicher Größe erstellt.
Jeder Datenpunkt im Diagramm entspricht einer bestimmten Trainingssatzgröße, während die Testsatzgröße konstant bei 1500 bleibt. Der beobachtete Trend besteht darin, dass mit abnehmender Trainingssatzgröße die Trainingsgenauigkeit zunimmt. Mit zunehmender Größe des Trainingssatzes nimmt jedoch die Trainingsgenauigkeit ab. Eine mögliche Erklärung für diesen Trend ist, dass es bei einem kleineren Trainingssatz für das Modell einfacher ist, sich die Daten zu merken, einschließlich etwaiger Ausreißer oder Rauschen. Mit zunehmender Größe des Trainingssatzes wird es aufgrund des Vorhandenseins vielfältigerer Ausreißer schwieriger, sich die Daten zu merken. Ein größerer Trainingssatz ermöglicht jedoch eine bessere Verallgemeinerung, was zu einer besseren Leistung des Testsatzes führt.
Es ist erwähnenswert, dass das Diagramm bei einer Trainingssatzgröße von 3500 stoppt, da kein größerer Datensatz verfügbar war. Der rot dargestellte Testsatz blieb auf 1500 Proben festgelegt. Indem diese Proben für Tests reserviert wurden, wurde eine pessimistische Verzerrung eingeführt, da das Modell möglicherweise nicht seine volle Kapazität erreicht hatte. Die Kapazität bezieht sich auf das Potenzial des Modells, sich mit mehr Daten zu verbessern. In diesem Fall wurde aus Effizienzgründen ein einfacher Softmax-Klassifikator verwendet, bei dem es sich um eine multinomiale logistische Regression handelt. Für ähnliche Experimente könnten jedoch auch andere Klassifikatoren eingesetzt werden.
Im Zusammenhang mit Lernkurven ist es wichtig, die Größe des Datensatzes und seinen Einfluss auf die Klassifikatorleistung zu berücksichtigen. Durch Erhöhen der Datensatzgröße kann die Leistung des Klassifikators verbessert werden, insbesondere wenn Lernkurven darauf hindeuten, dass der Testfehler mit zunehmender Trainingssatzgröße abnimmt. Wenn Sie beispielsweise an einem Projekt arbeiten, bei dem es um die Vorhersage von Filmbewertungen geht, kann das Sammeln weiterer Filmrezensionen aus Quellen wie IMDb die Leistung des Klassifikators verbessern.
Während der Bürozeiten erkundigen sich Studenten häufig nach einer Verbesserung der Klassifikatorleistung für ihre Projekte. Die Verbesserung eines Klassifikators kann verschiedene Strategien umfassen, beispielsweise Parameteränderungen, Merkmalsauswahl oder Merkmalsextraktion. Die Vergrößerung des Datensatzes ist jedoch eine einfache, aber effektive Methode, die zu positiven Ergebnissen führen kann. Durch die Untersuchung von Lernkurven lässt sich feststellen, ob mehr Daten für das Modell von Nutzen sein können, anstatt sich ausschließlich auf die Optimierung von Hyperparametern zu konzentrieren.
Es ist wichtig, die pessimistische Tendenz anzuerkennen, die sich aus der Aufteilung des Datensatzes in Trainings- und Testsätze ergibt. Durch das Zurückhalten eines erheblichen Teils der Daten zum Testen hat das Modell aufgrund begrenzter Trainingsdaten möglicherweise nicht sein volles Potenzial erreicht. Eine Lösung besteht darin, die Größe des Testsatzes zu reduzieren, um dieser Verzerrung entgegenzuwirken. Die Reduzierung der Testsatzgröße bringt jedoch eine weitere Herausforderung mit sich: eine Erhöhung der Varianz. Die Varianz der Leistungsschätzung des Modells nimmt mit kleineren Testsätzen zu, was möglicherweise zu weniger zuverlässigen Schätzungen führt.
Um diese Herausforderungen zu mildern, können wir eine Technik namens Monte-Carlo-Kreuzvalidierung anwenden, bei der die Holdout-Methode mehrmals wiederholt und die Ergebnisse gemittelt werden. Diese Technik ist allgemein als wiederholte Holdout-Methode bekannt.
Bei der wiederholten Holdout-Methode führen wir mehrere Iterationen des Holdout-Prozesses durch, wobei wir den Datensatz zufällig in Trainings- und Testsätze aufteilen. Jede Iteration verwendet eine andere zufällige Aufteilung, um sicherzustellen, dass in jeder Iteration unterschiedliche Teilmengen der Daten für Training und Tests verwendet werden. Indem wir diesen Vorgang mehrmals wiederholen, können wir mehrere Leistungsschätzungen für unser Modell erhalten.
Der Hauptvorteil der wiederholten Holdout-Methode besteht darin, dass sie im Vergleich zu einer einzelnen Holdout-Aufteilung eine robustere und zuverlässigere Schätzung der Modellleistung liefert. Da jede Iteration eine andere Zufallsaufteilung verwendet, können wir die Variabilität der Leistung aufgrund der Zufälligkeit der Daten erfassen. Dies hilft uns, eine genauere Schätzung der tatsächlichen Leistung des Modells anhand unsichtbarer Daten zu erhalten.
Sobald wir die Leistungsschätzungen für jede Iteration haben, können wir die durchschnittliche Leistung berechnen und sie als unsere endgültige Schätzung verwenden. Darüber hinaus können wir auch die Varianz oder Standardabweichung der Leistungsschätzungen berechnen, um eine Vorstellung von der Variabilität der Ergebnisse zu erhalten.
Es ist wichtig zu beachten, dass bei der wiederholten Holdout-Methode die Trainings- und Testsätze in jeder Iteration disjunkt sein sollten, um sicherzustellen, dass das Modell anhand unsichtbarer Daten bewertet wird. Außerdem sollte die Größe der Trainings- und Testsätze auf der Grundlage der Größe des verfügbaren Datensatzes und des gewünschten Kompromisses zwischen Trainings- und Bewertungsdaten bestimmt werden.
Die wiederholte Holdout-Methode ist besonders nützlich, wenn der Datensatz groß genug ist, um mehrere zufällige Aufteilungen zu ermöglichen. Dies trägt zu einer fundierteren Bewertung der Modellleistung bei und kann besonders bei der Arbeit mit begrenzten Daten von Vorteil sein.
Zusammenfassend handelt es sich bei der wiederholten Holdout-Methode um eine Resampling-Technik, bei der der Holdout-Prozess mehrmals mit unterschiedlichen zufälligen Aufteilungen des Datensatzes wiederholt wird. Es hilft, zuverlässigere Leistungsschätzungen zu erhalten und die Variabilität der Modellleistung zu erfassen. Durch die Mittelung der Ergebnisse der wiederholten Holdout-Iterationen können wir eine bessere Schätzung der tatsächlichen Leistung des Modells erhalten.
9.6 Bootstrap-Konfidenzintervalle (L09-Modellbewertung 2: Konfidenzintervalle)
9.6 Bootstrap-Konfidenzintervalle (L09-Modellbewertung 2: Konfidenzintervalle)
Willkommen zurück! Wir sind nun bei den interessanteren Teilen dieser Vorlesung angelangt. In diesem Video konzentrieren wir uns auf empirische Konfidenzintervalle mithilfe der Bootstrap-Methode. Um es kurz zusammenzufassen: Wir haben die Bootstrap-Methode bereits besprochen, als wir über Bagging-Methoden gesprochen haben. Beim Bagging haben wir Bootstrap-Beispiele aus dem Trainingssatz gezogen. Aber haben Sie sich jemals gefragt, warum sie „Bootstrap“-Methode genannt wird?
Nun, der Begriff „Bootstrap“ entstand aus dem Ausdruck „sich an den Bootstraps hochziehen“, der im übertragenen Sinne zur Beschreibung einer unmöglichen Aufgabe verwendet wurde. Die Bootstrap-Methode ist in der Tat eine anspruchsvolle Technik, da sie die Schätzung der Stichprobenverteilung anhand einer einzelnen Stichprobe beinhaltet. In gewisser Weise versuchen wir metaphorisch, uns durch die Bewältigung dieser schwierigen Aufgabe wieder hochzuziehen.
Im Laufe der Zeit erweiterte sich die Bedeutung von „Bootstrap“ um das Konzept, sich durch rigorose Anstrengung ohne fremde Hilfe zu verbessern. Im Kontext der Bootstrap-Methode konzentrieren wir uns jedoch ausschließlich auf die Technik selbst und nicht auf die politischen Konnotationen, die mit dem „Sich selbst an den Bootstraps hochziehen“ verbunden sind.
Schauen wir uns nun die Bootstrap-Methode an und wie sie es uns ermöglicht, die Stichprobenverteilung und die Unsicherheit unserer Leistungsschätzungen abzuschätzen. Die Bootstrap-Methode, erstmals 1979 von Bradley Efron eingeführt, ist eine Resampling-Technik zur Schätzung einer Stichprobenverteilung, wenn wir nur Zugriff auf einen einzigen Datensatz haben.
Um das Konzept zu verstehen, stellen Sie sich vor, Sie haben nur einen Datensatz und möchten ihn zur Schätzung verschiedener Stichprobenstatistiken verwenden. Diese Statistiken können alles sein, was von Interesse ist, beispielsweise der Stichprobenmittelwert, die Standardabweichung, das R-Quadrat oder Korrelationen. Mit der Bootstrap-Methode können wir neue Datensätze generieren, indem wir wiederholt Stichproben aus dem Originaldatensatz ziehen und so den Prozess der Stichprobenentnahme aus der Grundgesamtheit simulieren. Es ist wichtig zu beachten, dass die Probenahme mit Ersatz erfolgt, im Gegensatz zur Methode der wiederholten Zurückhaltung, bei der die Probe ohne Ersatz entnommen wird.
Indem wir diese Bootstrap-Stichproben ziehen und die gewünschte Stichprobenstatistik, beispielsweise den Stichprobenmittelwert, berechnen, können wir beobachten, dass die Verteilung der Stichprobenmittelwerte einer Normalverteilung folgt. Die Standardabweichung dieser Verteilung, bekannt als Standardfehler des Mittelwerts, kann aus der Stichprobenstandardabweichung dividiert durch die Quadratwurzel der Stichprobengröße geschätzt werden.
Mit der Bootstrap-Methode können wir Konfidenzintervalle erstellen, indem wir die Standardabweichung schätzen und diese verwenden, um die mit unseren Leistungsschätzungen verbundene Unsicherheit zu bestimmen. Konfidenzintervalle liefern eine Reihe plausibler Werte für den Parameter der wahren Grundgesamtheit. Bei der Bootstrap-Methode berechnen wir die Standardabweichung empirisch und nutzen sie zur Berechnung von Konfidenzintervallen.
Lassen Sie uns nun die Schritte des Bootstrap-Vorgangs verstehen. Zunächst ziehen wir eine Stichprobe mit Ersetzung aus dem Originaldatensatz. Als Nächstes berechnen wir die gewünschte Beispielstatistik mithilfe dieses Bootstrap-Beispiels. Wir wiederholen diese beiden Schritte sehr oft, normalerweise werden etwa 200 oder mehr empfohlen, um eine Verteilung der Stichprobenstatistiken zu erhalten. Die Standardabweichung dieser Verteilung dient als Schätzung des Standardfehlers der Stichprobenstatistik. Schließlich können wir den Standardfehler verwenden, um Konfidenzintervalle zu berechnen, die ein Maß für die Unsicherheit unserer Leistungsschätzung liefern.
Wenn es darum geht, die Leistung eines Klassifikators mithilfe der Bootstrap-Methode zu bewerten, können wir den Ansatz leicht modifizieren. Betrachten Sie einen Datensatz der Größe n. In diesem Fall führen wir p Bootstrap-Runden durch, wobei wir in jeder Runde eine Bootstrap-Stichprobe aus dem Originaldatensatz ziehen. Anschließend passen wir ein Modell an jede dieser Bootstrap-Proben an und berechnen die Genauigkeit für die Out-of-Bag-Proben, also die Proben, die nicht in der Bootstrap-Probe enthalten sind. Durch Mittelung der Genauigkeiten über alle Bootstrap-Runden erhalten wir die Bootstrap-Genauigkeit. Dieser Ansatz befasst sich mit dem Problem der Überanpassung, indem das Modell anhand unsichtbarer Daten und nicht anhand der für das Training verwendeten Stichproben bewertet wird. Darüber hinaus liefert die Bootstrap-Genauigkeit ein Maß für die Leistungsvariabilität des Modells.
Um die Schritte zur Bewertung der Leistung eines Klassifikators mithilfe der Bootstrap-Methode zusammenzufassen:
Die Bootstrap-Genauigkeit kann als Schätzung der Leistung des Klassifikators bei nicht sichtbaren Daten dienen und liefert ein Maß für die mit der Leistungsschätzung verbundene Unsicherheit. Darüber hinaus kann es dabei helfen, die Stabilität und Robustheit des Klassifikators zu beurteilen.
Durch die Verwendung der Bootstrap-Methode können wir wertvolle Einblicke in die Leistung unserer Modelle gewinnen und die mit unseren Leistungsschätzungen verbundene Unsicherheit abschätzen. Diese Technik ist besonders nützlich, wenn wir über begrenzte Daten verfügen und den verfügbaren Datensatz optimal nutzen möchten. Mit der Bootstrap-Methode können wir die Stichprobenverteilung annähern, Konfidenzintervalle erstellen und die Leistung von Klassifikatoren effektiv bewerten.
Zusammenfassend lässt sich sagen, dass die Bootstrap-Methode eine leistungsstarke Resampling-Technik ist, die es uns ermöglicht, die Stichprobenverteilung abzuschätzen und die Unsicherheit von Leistungsschätzungen anhand eines einzigen Datensatzes zu bewerten. Es bietet einen praktischen Ansatz zur Bewältigung verschiedener statistischer Herausforderungen und hat in einer Vielzahl von Bereichen Anwendung gefunden, darunter maschinelles Lernen, Statistik und Datenanalyse. Durch das Verständnis und die Implementierung der Bootstrap-Methode können wir unsere Fähigkeit verbessern, fundierte Entscheidungen zu treffen und aus begrenzten Daten zuverlässige Schlussfolgerungen zu ziehen.
9.7 Die Bootstrap-Methoden .632 und .632+ (L09-Modellbewertung 2: Konfidenzintervalle)
9.7 Die Bootstrap-Methoden .632 und .632+ (L09-Modellbewertung 2: Konfidenzintervalle)
In diesem Video werden wir uns eingehender mit den im vorherigen Video behandelten Themen befassen. Im vorherigen Video haben wir die Bootstrap-Methode behandelt, insbesondere den Out-of-Bag-Bootstrap, der zur Konstruktion empirischer Konfidenzintervalle verwendet wird. In diesem Video werden wir zwei fortgeschrittene Bootstrapping-Techniken erkunden: den 0,632-Bootstrap und den 0,632+-Bootstrap. Diese Techniken hängen zusammen und ihre Ursprünge werden in diesem Video näher erläutert.
Um den Bootstrap-Vorgang kurz zusammenzufassen: Wir beginnen mit einem Datensatz und erstellen Bootstrap-Beispiele durch Stichprobenziehung mit Ersetzung. Für jede Bootstrap-Probe passen wir ein Modell an und bewerten seine Leistung anhand der Out-of-Bag-Proben. Im vorherigen Video haben wir auch gezeigt, wie man dieses Verfahren mithilfe eines objektorientierten Ansatzes in Python implementiert.
Im aktuellen Video stellt der Moderator eine Code-Implementierung vor, die den Prozess vereinfacht. Sie haben eine Klasse namens „BootstrapOutOfBag“ erstellt, die die Anzahl der Bootstrap-Runden und einen zufälligen Startwert als Eingabe verwendet. Diese Klasse stellt eine Methode namens „split“ bereit, die den Datensatz in Trainings- und Testteilmengen unterteilt. Die Trainingsteilmengen entsprechen den Bootstrap-Beispielen, während die Testteilmengen die Out-of-Bag-Beispiele darstellen. Durch die Iteration dieser Aufteilungen demonstriert der Vortragende, wie der Bootstrap-Vorgang durchgeführt und die Leistung des Modells bewertet wird.
Anschließend stellt der Moderator eine weitere Implementierung namens „bootstrap_0.632_score“ vor. Mit dieser Implementierung können Benutzer die Out-of-Bag- oder Bootstrap-Scores bequem berechnen. Durch die Angabe des Klassifikators, des Trainingssatzes, der Anzahl der Teilungen und des Zufallsstartwerts können Benutzer die mittlere Genauigkeit berechnen und Konfidenzintervalle mithilfe der Perzentilmethode erhalten.
Als nächstes geht das Video auf einen Mangel der Out-of-Bag-Bootstrap-Methode ein, der als pessimistischer Bias bekannt ist. Bradley Efron schlug die Schätzung von 0,632 vor, um dieser Tendenz entgegenzuwirken. Die pessimistische Tendenz entsteht, weil die Bootstrap-Stichproben im Vergleich zum Originaldatensatz weniger eindeutige Datenpunkte enthalten. Tatsächlich sind nur 63,2 % der Datenpunkte in den Bootstrap-Beispielen eindeutig. Der Moderator erklärt die Wahrscheinlichkeitsberechnungen hinter dieser Zahl und stellt eine Visualisierung bereit, um zu veranschaulichen, wie sie sich für verschiedene Stichprobengrößen verhält.
Um die pessimistische Tendenz zu überwinden, stellt das Video die 0,632-Bootstrap-Methode vor. Diese Methode kombiniert die Genauigkeit der Out-of-Bag-Proben und der Bootstrap-Proben in jeder Runde. Die Genauigkeit in jeder Runde wird als Summe zweier Terme berechnet: der Out-of-Bag-Genauigkeit und der Resubstitutionsgenauigkeit. Die Out-of-Bag-Genauigkeit stellt die Leistung der Stichproben dar, die nicht in der Bootstrap-Stichprobe enthalten waren, während die Resubstitutionsgenauigkeit die Leistung der gleichen Daten misst, die zur Anpassung des Modells verwendet wurden.
Durch die Kombination dieser beiden Begriffe zielt die 0,632-Bootstrap-Methode darauf ab, eine weniger verzerrte Schätzung der Modellleistung zu liefern. Diese Methode berücksichtigt den allzu optimistischen Charakter der Resubstitutionsgenauigkeit, indem sie die Out-of-Bag-Genauigkeit berücksichtigt.
Abschließend baut dieses Video auf den im vorherigen Video besprochenen Konzepten auf, indem es fortgeschrittene Bootstrapping-Techniken vorstellt: den 0,632-Bootstrap und den 0,632+-Bootstrap. Diese Methoden zielen darauf ab, die pessimistische Tendenz des Out-of-Bag-Bootstraps zu mildern, indem sowohl die Out-of-Bag- als auch die Bootstrap-Probengenauigkeit berücksichtigt werden. Das Video bietet Code-Implementierungen und Erklärungen, um das Verständnis und die Anwendung dieser Techniken zu erleichtern.
10.1 Kreuzvalidierung Vorlesungsübersicht (L10: Modellbewertung 3)
10.1 Kreuzvalidierung Vorlesungsübersicht (L10: Modellbewertung 3)
Hallo an alle! Letzte Woche haben wir uns mit dem wichtigen Thema Modellbewertung befasst und verschiedene Aspekte wie die Bewertung der Modellleistung und die Erstellung von Konfidenzintervallen besprochen. Unsere Erkundung der Modellevaluierung ist jedoch noch nicht abgeschlossen, da es noch andere wesentliche Konzepte gibt, die wir abdecken müssen. In der Praxis geht es nicht nur um die Bewertung eines bestimmten Modells; Wir müssen auch zunächst ein gutes Modell finden, das wir bewerten können.
In dieser Vorlesung konzentrieren wir uns auf Kreuzvalidierungstechniken, zu denen Methoden zum Optimieren von Hyperparametern und zum Vergleichen von Modellen gehören, die aus verschiedenen Hyperparametereinstellungen resultieren. Dieser Vorgang wird als Modellauswahl bezeichnet. Unser Hauptaugenmerk wird heute auf der Kreuzvalidierung liegen.
Wir haben diese Woche viele Themen zu behandeln, aber keine Sorge, jedes Thema ist relativ kurz. Lassen Sie mich einen Überblick darüber geben, was wir in dieser und der nächsten Vorlesung besprechen werden:
Kreuzvalidierungstechniken zur Modellbewertung: Wir werden die K-fache Kreuzvalidierung und andere verwandte Techniken zur Bewertung der Modellleistung untersuchen. Ich werde Codebeispiele mit Python und scikit-learn demonstrieren.
Kreuzvalidierung zur Modellauswahl: Wir werden diskutieren, wie Kreuzvalidierung zur Auswahl des besten Modells verwendet werden kann, einschließlich Hyperparameter-Tuning. Ich zeige Ihnen, wie Sie eine Modellauswahl mithilfe der Rastersuche und der Zufallssuche in scikit-learn durchführen.
Das Gesetz der Sparsamkeit: Wir werden das Konzept der Ein-Standardfehler-Methode untersuchen, das die Idee der K-fachen Kreuzvalidierung mit dem Prinzip kombiniert, Modelle einfach zu halten. Ich werde auch Codebeispiele für die Ein-Standardfehler-Methode und die wiederholte K-fache Kreuzvalidierung bereitstellen, die der in den vorherigen Vorlesungen besprochenen wiederholten Holdout-Methode ähnelt.
Bevor wir uns mit der Kreuzvalidierung befassen, wollen wir kurz noch einmal in die Hyperparameter eintauchen und ihren Unterschied zu Modellparametern verdeutlichen. Anschließend besprechen wir die K-fache Kreuzvalidierung zur Modellbewertung und andere verwandte Techniken. Wir werden die praktische Umsetzung dieser Techniken mithilfe von Python und scikit-learn untersuchen. Abschließend werden wir unsere Diskussion auf die Kreuzvalidierung für die Modellauswahl erweitern und den Unterschied zwischen Modellbewertung und Modellauswahl hervorheben.
Außerdem habe ich auf der Grundlage umfangreicher Recherchen und Lektüre eine Übersicht erstellt, in der verschiedene Techniken anhand spezifischer Aufgaben und Probleme kategorisiert werden. Diese Kategorisierung hilft uns, die verschiedenen Techniken zu navigieren und zu verstehen, wann wir die einzelnen Techniken verwenden sollten. Es ist wichtig zu beachten, dass die in der Übersicht enthaltenen Empfehlungen einer weiteren Diskussion unterliegen, die wir in den kommenden Vorträgen durchführen werden.
Das fasst die Vorlesungsübersicht zusammen. Fahren wir nun mit einer erneuten Einführung in Hyperparameter fort, gefolgt von einer detaillierten Untersuchung der Kreuzvalidierung.
10.2 Hyperparameter (L10: Modellbewertung 3)
10.2 Hyperparameter (L10: Modellbewertung 3)
Bevor wir uns mit der Kreuzvalidierung befassen, nehmen wir uns einen Moment Zeit, um Hyperparameter zu besprechen. Möglicherweise kennen Sie das Konzept bereits, falls nicht, ist dies eine nützliche Zusammenfassung. Hyperparameter können als Optimierungsparameter oder Einstellungen eines Modells oder Algorithmus betrachtet werden. Dies sind die Optionen, die Sie manuell anpassen, um die Leistung Ihres Modells zu optimieren. Um dies zu veranschaulichen, betrachten wir den K-Nearest-Neighbor-Klassifikator, ein nichtparametrisches Modell.
Nichtparametrische Modelle haben im Gegensatz zu parametrischen Modellen keine vordefinierte Struktur. Stattdessen verlassen sie sich auf den Trainingssatz, um die Struktur des Modells zu definieren. Bei K-nächsten Nachbarn beispielsweise sind die Parameter des Modells im Wesentlichen die Trainingsbeispiele selbst. Daher kann eine Änderung des Trainingssatzes, beispielsweise durch das Hinzufügen oder Entfernen von Beispielen, erhebliche Auswirkungen auf die Struktur des Modells haben. Ein weiteres Beispiel für ein nichtparametrisches Modell ist der Entscheidungsbaum, bei dem die Anzahl der Teilungen im Baum von den Trainingsbeispielen und nicht von einer vordefinierten Struktur abhängt.
Konzentrieren wir uns nun speziell auf die Hyperparameter des K-Nearest-Neighbor-Algorithmus. Zu diesen Hyperparametern gehören Optionen wie die Anzahl der Nachbarn (K) und die verwendete Distanzmetrik (z. B. Manhattan- oder euklidische Distanz). Diese Optionen müssen vor der Ausführung des Modells festgelegt werden und werden nicht aus den Daten gelernt. In diesem Kurs werden wir Techniken wie die Rastersuche oder die zufällige Suche untersuchen, um die Optimierung von Hyperparametern zu unterstützen. Es ist jedoch wichtig zu beachten, dass das Ausprobieren verschiedener Werte für Hyperparameter kein Prozess ist, bei dem sie an die Daten angepasst werden, sondern vielmehr ein iteratives Experimentieren, um die besten Einstellungen zu finden.
Um weitere Beispiele bereitzustellen, verweisen wir auf die Definitionen von Hyperparametern in scikit-learn. Bei der Initialisierung eines Entscheidungsbaumklassifikators können Hyperparameter unter anderem das Verunreinigungsmaß (z. B. Gini oder Entropie), die Tiefe des Baums für die Vorbereinigung und die Mindestanzahl von Proben pro Blatt umfassen. Diese werden alle als Hyperparameter betrachtet.
Insbesondere sind nicht alle Optionen Hyperparameter, aber alle Hyperparameter sind Optionen. Beispielsweise ist der Zufallszustand oder Zufallsstartwert, der die Zufälligkeit im Modell bestimmt, kein Hyperparameter. Dies sollte nicht manipuliert werden, um das Modell zu verbessern, da eine Änderung des Zufallsstartwerts für eine bessere Leistung als unfair angesehen würde.
Vergleichen wir nun Hyperparameter mit Modellparametern. Werfen wir zum Beispiel einen kurzen Blick auf die logistische Regression, die als lineares Modell betrachtet werden kann und als Einführung sowohl in das klassische maschinelle Lernen als auch in das Deep Learning dient. Bei der logistischen Regression sind die Eingaben Merkmale, einschließlich eines Intercept-Terms zur Berücksichtigung von Verzerrungen. Die Modellgewichte, die anhand der Anzahl der Features ermittelt werden, bilden die Struktur des Modells. Diese Gewichte können zunächst auf Null oder kleine Zufallswerte gesetzt werden und dann iterativ aktualisiert werden, um die Verlustfunktion (z. B. den mittleren quadratischen Fehler bei der linearen Regression) zu minimieren.
Bei der logistischen Regression wird eine nichtlineare Funktion, typischerweise die Logistikfunktion oder Sigmoidfunktion, auf die Nettoeingabe (die gewichtete Summe der Eingaben) angewendet, um sie in einen Bereich zwischen Null und Eins zu komprimieren. Diese Ausgabe kann als Klassenzugehörigkeitswahrscheinlichkeit bei der binären Klassifizierung interpretiert werden. Die Gewichte werden angepasst, um den Verlust zu minimieren, der durch Vergleich der vorhergesagten Klassenzugehörigkeitswahrscheinlichkeit mit der wahren Klassenbezeichnung (entweder 0 oder 1) berechnet wird. Bei der logistischen Regression kommen auch Regularisierungstechniken wie die L1- oder L2-Regularisierung zum Einsatz, die einen Strafterm basierend auf der Größe der Gewichte hinzufügen, um eine Überanpassung zu verhindern. Die Regularisierungsstärke (Lambda) ist ein Hyperparameter, der vom Benutzer eingestellt werden muss.
Zusammenfassend lässt sich sagen, dass Modellparameter wie die Gewichte (W) in der logistischen Regression aus den Trainingsdaten gelernt werden, während Hyperparameter wie die Regularisierungsstärke (Lambda) vom Benutzer bestimmt und nicht aus den Daten gelernt werden. Modellparameter sind die internen Variablen des Modells, die während des Trainingsprozesses aktualisiert werden, um die Leistung zu optimieren, während Hyperparameter externe Einstellungen sind, die das Verhalten des Modells steuern und vor dem Training festgelegt werden müssen.
Der Prozess, die optimalen Werte für Hyperparameter zu finden, wird als Hyperparameter-Tuning bezeichnet. Dies ist ein wichtiger Schritt beim maschinellen Lernen, da er die Leistung eines Modells stark beeinflussen kann. Das Finden der besten Hyperparameterwerte ist jedoch keine einfache Aufgabe und erfordert häufig Experimente und die Bewertung verschiedener Kombinationen.
Ein gängiger Ansatz zur Optimierung von Hyperparametern ist die Rastersuche, bei der für jeden Hyperparameter ein vordefinierter Wertesatz angegeben wird und alle möglichen Kombinationen mithilfe einer Kreuzvalidierung ausgewertet werden. Kreuzvalidierung ist eine Technik, mit der die Leistung eines Modells bewertet wird, indem die Daten in mehrere Teilmengen (Faltungen) aufgeteilt werden, das Modell auf einigen Faltungen trainiert wird und es auf der verbleibenden Faltung ausgewertet wird. Dies hilft, die Leistung des Modells anhand unsichtbarer Daten abzuschätzen und das Risiko einer Überanpassung zu verringern.
Ein weiterer Ansatz ist die randomisierte Suche, bei der zufällige Kombinationen von Hyperparameterwerten aus bestimmten Verteilungen ausgewählt werden. Dies kann nützlich sein, wenn der Suchraum für Hyperparameter groß ist, da es die Untersuchung eines breiteren Wertebereichs ermöglicht, ohne alle möglichen Kombinationen erschöpfend auszuwerten.
Neben der Rastersuche und der randomisierten Suche gibt es fortgeschrittenere Techniken zur Optimierung von Hyperparametern, wie etwa die Bayes'sche Optimierung, die probabilistische Modelle zur Steuerung des Suchprozesses verwendet, und genetische Algorithmen, die den Prozess der natürlichen Selektion nachahmen, um den besten Satz zu entwickeln Hyperparameter.
Es ist zu beachten, dass die Optimierung von Hyperparametern rechenintensiv sein kann, insbesondere bei komplexen Modellen oder großen Datensätzen. Daher wird dies häufig in Verbindung mit Techniken wie der Kreuzvalidierung durchgeführt, um die verfügbaren Daten möglichst effizient zu nutzen.
Hyperparameter sind die Einstellungen oder Optionen eines Modells, die vor dem Training festgelegt werden müssen, während Modellparameter die internen Variablen sind, die während des Trainings aus den Daten gelernt werden. Beim Hyperparameter-Tuning geht es darum, die besten Werte für diese Einstellungen zu finden, und es ist entscheidend für die Optimierung der Modellleistung. Für die Optimierung von Hyperparametern werden häufig Techniken wie die Rastersuche, die randomisierte Suche, die Bayes'sche Optimierung und genetische Algorithmen verwendet.