Apprentissage Automatique et Réseaux Neuronaux - page 3

 

Art de l'IA en évolution



Art de l'IA en évolution

La vidéo traite du processus d'évolution des images à l'aide de l'IA, en commençant par sélectionner une image, en donnant une invite et en générant des variations à travers un processus évolutif. Le but de ce processus est l'exploration, pour trouver des œuvres d'art magnifiques et inimaginables ou des chats mignons en utilisant un espace d'image inconcevablement énorme et introuvable. L'entrée pour les modèles texte-image permet aux utilisateurs d'entrer une simple invite et de recevoir une vaste gamme d'images possibles qui satisfont cette invite, permettant également la création d'images entièrement nouvelles et l'organisation et le catalogage des images existantes dans l'espace latent. La méthode Pick Breeder est un moyen efficace et naturel de muter, de sélectionner et de reproduire les gènes les plus performants pour créer des images, permettant aux gens de suivre des fils évolutifs et de découvrir une beauté inattendue à travers des chemins de ramification avec de puissants outils d'IA.

  • 00:00:00 Le créateur discute d'un modèle d'IA appelé Mid-Journey, qui est un algorithme de texte à image qui utilise des réseaux de neurones pour générer des images basées sur une invite de texte donnée. Le créateur a expérimenté cet algorithme sur son serveur Discord, permettant aux utilisateurs de sélectionner et de faire muter des images et de créer des arbres de vie évolutifs. Bien que la créativité de ce processus soit limitée par l'invite et l'ensemble de données utilisés pour former le modèle, les images résultantes ne ressemblent à aucune œuvre d'art que le créateur a vue auparavant, et le processus a conduit à des créations intéressantes et uniques. Le créateur mentionne également un autre modèle open-source appelé Stable Diffusion qu'ils peuvent exécuter sur leur propre GPU.

  • 00:05:00 Dans cette section, le créateur explique le processus d'évolution d'une image à l'aide de l'IA. Le processus commence par la sélection d'une image, en donnant une invite, puis en générant des variations à travers un processus évolutif. Le processus évolutif peut être réduit pour éviter l'aspect communautaire ou autorisé à se dérouler de lui-même. Le but de faire évoluer une image est l'exploration, en explorant l'espace image - un espace mathématique littéral dans lequel chaque image occupe un point ou un vecteur - pour trouver de belles œuvres d'art inimaginables ou des chats exceptionnellement mignons, quelque chose au-delà du bruit aléatoire car l'espace image est inconcevablement énorme et désespérément introuvable.

  • 00:10:00 La vidéo explique le processus de saisie des modèles texte-image, qui permet aux utilisateurs de saisir une invite dans un langage simple et de recevoir une vaste gamme d'images possibles qui satisfont cette invite. Ces moteurs de recherche génératifs peuvent créer des images entièrement nouvelles, ainsi que découvrir des images existantes organisées, cataloguées et étiquetées dans l'espace latent. En donnant au modèle des valeurs aléatoires, telles qu'un vecteur latent, la sortie d'image a plus de variété et peut être modifiée en se déplaçant dans l'espace latent. La méthode Pick Breeder est un moyen efficace et naturel de muter, sélectionner et reproduire les gènes les plus performants pour créer des images. Les gens peuvent suivre un fil évolutif d'invites et d'images intéressantes pour découvrir une beauté inattendue à travers des chemins de ramification avec ces outils puissants.
Evolving AI Art
Evolving AI Art
  • 2022.10.29
  • www.youtube.com
In this video, I explain how #aiart generators like #midjourney and #stablediffusion can be used to simulate evolutionary processes, and explain why this is ...
 

L'IA qui crée n'importe quelle image que vous voulez, expliquée



La révolution du texte à l'image, expliquée

Cette vidéo explique comment les algorithmes d'apprentissage automatique peuvent être utilisés pour générer des images basées sur des descriptions textuelles, et comment cette technologie peut être utilisée pour créer des illustrations. La vidéo interviewe James Gurney, un illustrateur américain, qui discute des implications de cette technologie sur le droit d'auteur et le monde de l'art.

  • 00:00:00 Cette partie explique comment les algorithmes d'apprentissage automatique peuvent sous-titrer des images et comment les développeurs ont créé des générateurs de texte en image à l'aide de ces algorithmes. La vidéo explique également à quel point une ingénierie rapide est nécessaire pour communiquer efficacement avec ces modèles.

  • 00:05:00 L'IA qui crée n'importe quelle image que vous voulez, expliquée, commence par un ensemble de données d'entraînement de millions d'images et leurs légendes d'accompagnement. Les modèles apprennent à reconnaître des modèles dans ces images, puis génèrent de nouvelles images basées sur cette reconnaissance. Les images générées de cette manière peuvent être différentes pour différentes personnes et différents modèles, en raison du caractère aléatoire du processus de diffusion.

  • 00:10:00 Cette vidéo explique comment le deep learning permet aux utilisateurs de créer des images similaires à celles produites par des artistes célèbres sans avoir à copier directement leurs images. La vidéo interviewe James Gurney, un illustrateur américain, qui est devenu une référence populaire pour les utilisateurs de modèles de texte en image. Gurney dit que bien que les artistes devraient être autorisés à accepter ou à refuser que leur travail soit utilisé comme ensemble de données pour créer d'autres œuvres d'art, les questions de droit d'auteur entourant les images qui entrent dans la formation des modèles et les images qui en sortent ne sont toujours pas résolues. De plus, l'espace latent de ces modèles contient des coins sombres qui deviennent plus effrayants à mesure que les sorties deviennent photoréalistes. Cependant, ce qui rend cette technologie si unique, c'est qu'elle permet à chacun d'entre nous de diriger la machine pour imaginer ce que nous voulons qu'elle voie.
The text-to-image revolution, explained
The text-to-image revolution, explained
  • 2022.06.01
  • www.youtube.com
How programmers turned the internet into a paintbrush. DALL-E 2, Midjourney, Imagen, explained.Subscribe and turn on notifications 🔔 so you don't miss any v...
 

Guide de MidJourney AI Art - Comment démarrer GRATUITEMENT !



Guide de MidJourney AI Art - Comment démarrer GRATUITEMENT !

Dans cette vidéo, le conférencier présente MidJourney, un outil qui génère de l'art de l'IA basé sur des invites, et fournit des instructions étape par étape sur la façon de démarrer avec. Ils montrent comment utiliser des commandes pour modifier le style et la qualité des images générées, à l'aide d'exemples tels que "rendu 3D" ou "esquisse à l'encre dégoulinante". De plus, ils expliquent la section communautaire du site Web MidJourney, où les utilisateurs peuvent trouver l'inspiration et copier des invites pour essayer eux-mêmes. L'orateur partage également son parcours avec l'art de l'IA et fournit des ressources et des codes supplémentaires pour ceux qui souhaitent en savoir plus.

  • 00:00:00 Cette partie explique comment démarrer avec MidJourney, un outil qui génère de l'art IA basé sur des invites. Pour vous inscrire, rendez-vous sur le site Web de MidJourney et suivez les instructions pour vous inscrire et accepter l'invitation Discord. Une fois dans Discord, tapez la commande "/imagine" suivie d'une invite telle que "homme violet avec des ailes" pour générer une image. L'orateur montre également comment mettre à l'échelle l'image pour plus de détails et comment changer le style de l'image à l'aide de différentes commandes telles que "rendu 3D" ou "esquisse à l'encre dégoulinante". Chaque fois qu'une commande est entrée, l'image résultante sera unique.

  • 00:05:00 Dans cette section, le narrateur explore les différents styles et options de qualité disponibles dans l'art MidJourney AI. Ils démontrent l'utilisation de mots-clés et de commandes pour créer une gamme d'effets sur un rendu 3D, y compris l'hyperréalisme et la stylisation. Ils expérimentent également l'utilisation d'une image d'eux-mêmes comme invite et ajustent le poids de l'image pour produire des résultats différents.
    De plus, ils discutent de la section communautaire du site Web MidJourney, où les utilisateurs peuvent trouver de l'inspiration et copier des invites pour essayer eux-mêmes. Le narrateur fournit également des conseils sur la façon d'utiliser MidJourney de manière responsable, comme l'ajout d'une clause de non-responsabilité lors du partage d'œuvres d'art générées en ligne.

  • 00:10:00 Le narrateur fournit des liens vers son Discord et MidJourney AI Art, ainsi que d'autres ressources et codes liés à son parcours artistique en IA. Ils encouragent les téléspectateurs à vérifier leur voyage par eux-mêmes et offrent des informations supplémentaires à ceux qui souhaitent en savoir plus.
Guide to MidJourney AI Art - How to get started FREE!
Guide to MidJourney AI Art - How to get started FREE!
  • 2022.08.18
  • www.youtube.com
Start for Free. This Guide to Midjourney AI Art will show you how to get started and show you a few tricks and give ean you an idea of how powerful this pla...
 

MidJourney -Getting Started [Nouveau et mis à jour] Un tutoriel rapide pour vous lancer dans la génération d'art IA



MidJourney -Getting Started [Nouveau et mis à jour] Un tutoriel rapide pour vous lancer dans la génération d'art IA

Le didacticiel vidéo fournit un aperçu complet de l'utilisation de la plate-forme de génération d'art AI de MidJourney, accessible uniquement via Discord. L'orateur explique les différents modes d'abonnement disponibles, comment créer des invites à l'aide d'artistes et de diverses conditions, comment utiliser des commutateurs pour supprimer les éléments indésirables des images générées par l'IA, et comment mettre à l'échelle et ajuster les rapports d'aspect des images. Ils fournissent également des conseils sur la façon de générer un art AI unique à l'aide d'invites avec un attrait visuel et en utilisant le bouton de variation avant la mise à l'échelle. Dans l'ensemble, MidJourney est présenté comme un outil d'exploration artistique et de départ plutôt qu'un moyen de créer des œuvres d'art finies.

  • 00:00:00 Cette partie donne un aperçu de mi-parcours et de Discord, expliquant que mi-parcours n'est accessible que via Discord. Ils expliquent comment Discord est une plate-forme utilisée pour le chat vocal qui peut également être utilisée pour créer des bots, c'est ainsi que fonctionne le milieu du voyage. Ils expliquent également la propriété des actifs créés à mi-parcours et les options de tarification disponibles pour l'utilisation du service. L'orateur poursuit ensuite en discutant des différentes salles et fonctionnalités de Discord et de la manière de démarrer à mi-parcours, notamment en utilisant les différentes commandes disponibles via la barre oblique.

  • 00:05:00 Dans cette section du didacticiel, le narrateur aborde les différents modes d'abonnement disponibles sur MidJourney, y compris le mode relax et le mode privé. Ils expliquent également les différents modes de mise à l'échelle et mettent en garde contre l'utilisation d'une qualité trop élevée pour éviter d'utiliser trop de crédits d'image. Le narrateur couvre également brièvement le site Web du voyage, y compris le flux communautaire où les utilisateurs peuvent voir les créations d'autres personnes et copier leurs invites. Enfin, le narrateur présente la commande "imaginer" et discute du processus de création d'une image à l'aide d'invites et de divers commutateurs.

  • 00:10:00 Dans cette section du didacticiel, l'utilisateur explique comment naviguer sur la plate-forme de génération d'art AI de MidJourney, y compris comment évaluer les images pour des heures gratuites de génération d'images, comment mettre à l'échelle et accéder aux variations d'images, et comment créer des invites l'aide d'artistes et d'autres conditions. Ils préviennent que si l'ingénierie rapide est un aspect important de la création artistique de l'IA, les utilisateurs doivent être préparés à des résultats inattendus et considérer la plate-forme comme un moteur d'idées plutôt que comme un produit fini.

  • 00:15:00 Ce didacticiel vidéo partiel explique comment utiliser certains commutateurs pour supprimer les éléments indésirables d'une image générée par l'IA, tels que le commutateur "no -- people". Cependant, l'efficacité de tels interrupteurs dépend de l'artiste sélectionné et de la complexité de l'image. Le didacticiel passe également en revue les directives courantes qui peuvent être ajoutées à une invite d'art IA, telles que "très détaillé" ou "peinture à l'huile", et l'importance de garder les invites concises pour éviter de confondre le bot AI. Enfin, le didacticiel explique comment mettre à l'échelle des images et ajuster leurs proportions à l'aide de MidJourney.

  • 00:20:00 L'auteur explique comment utiliser des indicateurs supplémentaires lors de la mise à l'échelle d'une image pour obtenir des résultats différents. Les drapeaux commencent par "AR", qui signifie format d'image, suivi de la largeur et de la hauteur séparées par deux points. L'orateur note qu'il y a des limites à la technologie, telles que des problèmes avec les doigts, les visages et les membres supplémentaires. Ils explorent également différents types d'invites, telles que cryengine et aquarelle, et comment les remixer. Enfin, l'orateur recommande de commencer par une invite de base, puis de la perfectionner en la remixant et en la mettant à l'échelle. L'image finale peut être enregistrée et téléchargée à partir du site Web de MidJourney.

  • 00:25:00 Cette partie traite de différentes stratégies pour générer de l'art IA unique avec MidJourney. Il mentionne que l'utilisation d'invites avec un attrait visuel ou des looks spécifiques, tels que "Blade Runner" ou "cyberpunk", peut être utile pour guider la sortie de MidJourney. Il suggère également d'utiliser le bouton de variation avant de s'engager à mettre à l'échelle une image pour obtenir le meilleur résultat possible. Enfin, il rappelle aux spectateurs que MidJourney est un outil d'exploration artistique et de départ, pas nécessairement pour des œuvres d'art finies.
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
  • 2022.10.26
  • www.youtube.com
There have been a lot of changes since the launch of MidJourney and it was about time I made an updated tutorial on how to get started. As more people disco...
 

ChatGPT, expliqué : ce qu'il faut savoir sur le chatbot d'OpenAI | Podcast d'information sur les nouvelles techniques | le journal Wall Street



ChatGPT, expliqué : ce qu'il faut savoir sur le chatbot d'OpenAI | Podcast d'information sur les nouvelles techniques | WSJ

Les chatbots sont désormais accessibles au public et peuvent être utilisés pour poser des questions et obtenir des réponses. Il y a des inquiétudes quant à la façon dont ces outils pourraient être utilisés, mais les experts disent que les gens devraient les utiliser pour améliorer leur travail, et non pour remplacer leurs rôles.

  • 00:00:00 ChatGPT, un modèle d'IA conversationnel de pointe, est capable de s'engager dans des conversations de type humain et de fournir des réponses aux questions. Il est construit sur d'énormes quantités de données et est utilisé par OpenAI, une société d'intelligence artificielle, pour développer Dolly, une plate-forme d'IA qui crée des images. Bien que ChatGPT ait des limites, sa popularité et sa sophistication soulèvent des questions sur ses utilisations potentielles et ses abus.

  • 00:05:00 Les chatbots sont désormais accessibles au public et peuvent être utilisés pour poser des questions et obtenir des réponses. Il y a des inquiétudes quant à la façon dont ces outils pourraient être utilisés, mais les experts disent que les gens devraient les utiliser pour améliorer leur travail, et non pour remplacer leurs rôles.
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
  • 2022.12.07
  • www.youtube.com
ChatGPT, Lensa and DALL-E are giving more people without computing skills the chance to interact with artificial intelligence. These AI programs that can wri...
 

CS 156 Cuours 01 - Le problème d'apprentissage




Cours d'apprentissage automatique de Caltech - CS 156. Cours 01 - Le problème d'apprentissage

La première conférence du cours d'apprentissage automatique de Yaser Abu-Mostafa présente le problème d'apprentissage, qui est le processus de recherche de modèles dans les données pour faire des prédictions sans intervention humaine. Il explique la nécessité d'une formalisation mathématique pour abstraire les problèmes d'apprentissage pratiques et introduit le premier algorithme d'apprentissage automatique dans le cours, le modèle perceptron, qui utilise un vecteur de poids pour classer les points de données en catégories binaires. La conférence couvre également différents types d'apprentissage, y compris l'apprentissage supervisé, non supervisé et par renforcement, et présente un problème d'apprentissage supervisé à l'auditoire pour aborder la question de la détermination d'une fonction cible pour l'apprentissage. Le professeur couvre divers sujets liés à l'apprentissage automatique. Il souligne la nécessité d'éviter les biais lors de la sélection des ensembles de données, ainsi que l'importance de collecter une quantité suffisante de données. Le professeur discute également du rôle de l'ensemble d'hypothèses dans l'apprentissage automatique et de l'impact du choix de la fonction d'erreur sur la technique d'optimisation. Il aborde également les critères d'inclusion des méthodes d'apprentissage automatique dans le cours et son accent sur la fourniture de connaissances pratiques plutôt que sur la théorie pure.

  • 00:00:00 Dans cette section, Yaser Abu-Mostafa présente le plan de cours pour l'apprentissage automatique et explique l'importance des aspects mathématiques et pratiques du sujet. Il déclare que les sujets du cours ne sont pas censés être séparés mais suivent un scénario logique. Il se penche ensuite sur le problème d'apprentissage en donnant un exemple de la façon dont un spectateur évaluerait un film, ce qui est pertinent pour Netflix car il l'utilise pour personnaliser les recommandations pour ses clients. Il mentionne l'importance de la formalisation mathématique dans l'abstraction des problèmes d'apprentissage pratiques et introduit le premier algorithme d'apprentissage automatique dans le cours. Il propose également un tour d'horizon des types d'apprentissage et termine par une énigme intéressante.

  • 00:05:00 Dans cette section, le conférencier explique que l'essence de l'apprentissage automatique réside dans l'existence de modèles ainsi que dans la disponibilité des données. En outre, il décrit la nécessité de trouver des modèles, ce qui n'est pas possible mathématiquement sans données appropriées. En utilisant l'exemple des classements de films, il parle de la création d'un système pour prédire le classement en utilisant les préférences du spectateur comme vecteur de facteurs et les compare avec le contenu du film. Bien que ce système fonctionne, il n'est pas considéré comme un apprentissage automatique car il nécessite une intervention humaine. L'idée de l'apprentissage automatique est qu'il peut résoudre le problème sans intervention humaine en trouvant des modèles et en prenant des mesures correctives pour améliorer le système par lui-même.

  • 00:10:00 Dans cette section, l'orateur discute de l'approche d'apprentissage et de la façon dont elle procède à l'ingénierie inverse du processus de notation pour découvrir quels facteurs seraient cohérents avec cette notation. Le processus d'apprentissage automatique commence à partir de facteurs aléatoires et les pousse vers les valeurs de notation en parcourant 100 millions de notes encore et encore, pour finalement trouver des facteurs significatifs en termes de notes. L'orateur utilise ensuite une métaphore d'une application financière, l'approbation de crédit, pour expliquer les composants mathématiques qui composent le problème d'apprentissage, qui incluent les informations du demandeur, le modèle de solvabilité et la décision d'approuver ou de refuser le crédit.

  • 00:15:00 Dans cette section, l'instructeur discute du problème d'apprentissage et de la manière dont il s'applique à l'approbation des crédits. La fonction cible est la formule d'approbation de crédit idéale, qui est inconnue, et l'hypothèse est la formule créée pour approximer la fonction cible. Les données sont utilisées pour apprendre l'hypothèse, et un algorithme d'apprentissage est utilisé pour créer la formule à partir d'un ensemble de formules candidates connu sous le nom d'ensemble d'hypothèses. Le raisonnement derrière la restriction de l'algorithme d'apprentissage à l'ensemble d'hypothèses est d'éviter l'inconvénient d'avoir une formule sans restriction et de bénéficier d'un ensemble prédéfini de formules parmi lesquelles choisir.

  • 00:20:00 Dans cette section, l'orateur explique qu'il a montré le problème d'apprentissage sous forme d'image pour discuter des composants de solution de la figure. Il note que l'ensemble d'hypothèses joue un rôle essentiel dans la théorie de l'apprentissage car il nous indique dans quelle mesure nous apprenons, entre autres choses. Il explique que l'ensemble d'hypothèses, l'algorithme d'apprentissage et l'hypothèse finale constituent un modèle d'apprentissage, tel que le modèle perceptron, et un algorithme d'apprentissage perceptron. Il poursuit en donnant un exemple simple de modèle perceptron utilisant une formule de pointage de crédit basée sur différents attributs d'un client, qui peut approuver ou refuser une demande de carte de crédit en fonction d'un seuil.

  • 00:25:00 Dans cette section, le professeur explique comment définir une hypothèse h et l'ensemble d'hypothèses contenant toutes les hypothèses ayant la même forme fonctionnelle. En utilisant le modèle perceptron, qui sépare les données en deux régions, l'algorithme d'apprentissage joue avec les paramètres pour déplacer la ligne dans l'espoir d'arriver à la bonne solution. Le professeur présente également l'algorithme d'apprentissage du perceptron, qui prend des données de formation et navigue dans l'espace des hypothèses pour évoquer l'hypothèse finale qui est donnée au client. L'algorithme commence avec des poids aléatoires et se déplace jusqu'à ce qu'il trouve le poids correct, qui est utilisé dans l'hypothèse finale.

  • 00:30:00 Dans cette section, le conférencier explique l'algorithme d'apprentissage du perceptron (PLA), qui est un modèle linéaire capable de classer les points de données en catégories binaires. L'algorithme utilise un vecteur de poids qui prend en compte tous les attributs du jeu de données, et si un point est mal classé, l'algorithme met à jour le vecteur de poids afin qu'il se comporte mieux sur ce point particulier. L'orateur explique également comment il y a des problèmes avec cette approche et les itérations du PLA, mais qu'en choisissant un point mal classé et en lui appliquant l'itération, vous arriverez finalement à une solution correcte si les données étaient à l'origine séparables linéairement.

  • 00:35:00 Dans cette section, le conférencier aborde différents types d'apprentissage, en commençant par le type le plus populaire, l'apprentissage supervisé. Ce type d'apprentissage implique l'utilisation de données avec des sorties explicitement données, telles que le comportement de crédit des clients, pour aider à classer les instances futures. Le conférencier utilise l'exemple d'apprendre à une machine à reconnaître différentes pièces de monnaie en utilisant des mesures physiques telles que la taille et la masse. Les pièces peuvent être regroupées en fonction de leurs mesures, ce qui peut aider la machine à les distinguer. D'autres types d'apprentissage mentionnés comprennent l'apprentissage non supervisé, qui sera discuté en détail plus tard dans le cours, et l'apprentissage par renforcement, qui sera brièvement présenté.

  • 00:40:00 Dans cette section, le conférencier discute de l'apprentissage supervisé et non supervisé en utilisant des exemples de classification des pièces et d'apprentissage des langues. Dans l'apprentissage supervisé, les données de formation et la sortie correcte sont données, et une fois que le système est formé, il peut être utilisé pour classer un futur exemple. Cependant, dans l'apprentissage non supervisé, seules les données d'entrée sont fournies et la fonction cible n'est pas connue. Malgré cela, l'apprentissage non supervisé peut toujours être utile pour regrouper les données en grappes et identifier les modèles qui peuvent aider à la classification future. L'enseignant explique également comment l'apprentissage non supervisé peut être utilisé pour l'apprentissage des langues en s'immergeant dans la langue et en développant un modèle de la langue par l'exposition à celle-ci.

  • 00:45:00 Dans cette section, la vidéo explique le concept d'apprentissage par renforcement en tant que méthode permettant à un système d'apprendre par l'expérience. Le conférencier utilise l'exemple d'un tout-petit touchant une tasse de thé chaud pour illustrer le fonctionnement de l'apprentissage par renforcement. En permettant au système de faire n'importe quelle sortie (même folle) et en s'appuyant progressivement sur le conditionnement par des résultats gratifiants ou punitifs, le système peut éventuellement apprendre à naviguer dans des jeux tels que le backgammon. Cette approche est une méthode pratique et plus simple pour produire le système souhaité au lieu d'écrire du code et d'étudier les mathématiques qui le sous-tendent.

  • 00:50:00 Dans cette section du cours, le professeur présente un problème d'apprentissage supervisé à la classe et au public en ligne. Le problème implique des données d'entraînement avec certains points mappés sur +1 et d'autres mappés sur -1. L'objectif est d'apprendre la fonction cible et de déterminer la valeur de la fonction pour un point de test. Le professeur souligne que la fonction cible est inconnue et peut être n'importe quoi, ce qui rend impossible la détermination d'un modèle qui s'applique en dehors de l'ensemble d'apprentissage donné. Cela présente un défi difficile pour l'apprentissage, nécessitant des méthodes au-delà de la simple mémorisation d'exemples.

  • 00:55:00 Dans cette section de la conférence, le professeur discute des questions de la session de questions-réponses. Il aborde la question de la séparabilité linéaire et explique que bien qu'il s'agisse d'une hypothèse simpliste, il existe des algorithmes qui peuvent traiter le cas de l'inséparabilité linéaire, et une technique sera étudiée la semaine prochaine pour rendre les points séparables non linéairement séparables linéairement. Le professeur mentionne également que le taux de convergence de l'algorithme du perceptron change avec la dimensionnalité et peut construire des cas pathologiques où cela prendra une éternité. De plus, il explique qu'il est difficile de savoir s'il existe un modèle spécifique à détecter, mais il existe une séparation entre la fonction cible et si nous pouvons l'apprendre, ce qui sera expliqué dans une conférence complète plus tard.

  • 01:00:00 Dans cette section de la vidéo, le professeur explique comment il essaie d'éviter de regarder l'ensemble de données particulier qui lui est fourni ou d'adapter son système en conséquence afin d'éviter toute déception lorsqu'un autre ensemble de données arrive. Il explique que l'apprentissage automatique est une discipline qui essaie de couvrir le plus de territoire avec le moins d'hypothèses, et qu'elle peut être appliquée à la fois de manière pratique et scientifique. De plus, le professeur mentionne que l'optimisation est un outil d'apprentissage automatique, mais que ce n'est pas quelque chose que les personnes qui apprennent par machine étudient pour elles-mêmes. Enfin, il note que l'ensemble d'hypothèses pour l'apprentissage automatique peut être n'importe quoi, continu ou discret.

  • 01:05:00 Dans cette section, le professeur parle du biais d'échantillonnage dans l'approbation du crédit et comment il affecte la qualité des données utilisées. Il explique que la prise d'un échantillon biaisé peut conduire à des résultats inexacts, mais l'utilisation d'une base de clients pour prendre des décisions peut toujours fonctionner car la base de clients est plus loin dans la région de classification. Il discute ensuite des aspects théoriques et pratiques de la collecte de données et de la quantité de données nécessaire pour créer un système raisonnable. Enfin, il aborde la question du choix de la taille de l'ensemble d'hypothèses et déclare que le but de l'apprentissage est de prédire en utilisant des données pour proposer un modèle raisonnable qui se généralisera en dehors de l'ensemble de données.

  • 01:10:00 Dans cette section du cours sur le problème d'apprentissage, le professeur discute du rôle de la théorie dans l'apprentissage automatique, en particulier de la manière dont elle mesure la sophistication d'un ensemble d'hypothèses et la quantité de données nécessaires pour faire des déclarations sur la généralisation. Le professeur couvre également les questions du public en ligne, y compris la façon de corriger les commentaires à l'aide de la validation et l'utilisation de différents types de fonctions pour les hypothèses. De plus, le rôle de l'algorithme d'apprentissage et de l'ensemble d'hypothèses est discuté, en se concentrant sur la façon dont le choix de la fonction d'erreur affecte le choix de la technique d'optimisation. Enfin, le professeur clarifie ce qui se passe si une sortie est exactement au seuil de l'algorithme perceptron.

  • 01:15:00 Dans cette section de la conférence, le professeur discute de l'idée qu'il doit y avoir un modèle pour que l'apprentissage automatique fonctionne. S'il n'y a pas de modèle, alors il n'y a rien à apprendre. Il mentionne également l'importance des données et comment elles sont essentielles à l'apprentissage. Le professeur insiste sur l'importance de parcourir les sections à vocation mathématique du canevas afin de bien comprendre les éléments qui rendent l'apprentissage possible. Il aborde également brièvement la question de savoir pourquoi le perceptron est souvent lié à un neurone et mentionne que l'analogie avec la biologie sera discutée plus en détail plus tard. Enfin, le professeur mentionne que la sélection de modèles et les principes bayésiens seront abordés plus tard dans le cours.

  • 01:20:00 Dans cette section, l'orateur discute des critères d'inclusion des méthodes d'apprentissage automatique dans le cours. Il déclare que les méthodes les plus utiles dans la pratique seront incluses et qu'il vise à fournir une compréhension globale des concepts et des outils pour les utiliser dans la pratique. Il mentionne qu'il existe différentes méthodes hiérarchiques avec des ramifications dans la généralisation qu'il peut aborder lorsqu'il discute des machines à vecteurs de support, mais dans l'ensemble, son objectif est de fournir des connaissances pratiques plutôt que de la théorie pure.
Lecture 01 - The Learning Problem
Lecture 01 - The Learning Problem
  • 2012.08.28
  • www.youtube.com
The Learning Problem - Introduction; supervised, unsupervised, and reinforcement learning. Components of the learning problem. Lecture 1 of 18 of Caltech's M...
 

Cours 2. L'apprentissage est-il possible ?



Cours d'apprentissage automatique de Caltech - CS 156. Cours 02 - L'apprentissage est-il possible ?

La conférence traite de la faisabilité de l'apprentissage, en particulier de l'utilisation de l'apprentissage automatique pour déterminer des modèles à partir de données données. Le conférencier introduit le concept de nu et mu en probabilité et comment il se rapporte au problème d'apprentissage. L'ajout de la probabilité est exploré, permettant la faisabilité de l'apprentissage sans compromettre la fonction cible, ce qui signifie qu'aucune hypothèse ne doit être faite sur la fonction qui sera apprise. Le concept de surajustement et son lien avec la sophistication du modèle sont discutés, avec un plus grand nombre d'hypothèses conduisant à une généralisation plus faible. En fin de compte, la conférence se termine par une demande de révision de la diapositive sur l'implication de nu égal mu.

  • 00:00:00 Dans cette section, Yaser Abu-Mostafa discute des trois critères permettant de déterminer si l'apprentissage automatique est la bonne technique pour une application : s'il existe un modèle qui peut être appris, si le modèle ne peut pas être identifié mathématiquement, et s'il existe suffisamment de données pour représenter le modèle. De plus, il explique que s'il n'y a pas de modèle, l'apprentissage automatique peut toujours être essayé mais échouera, et si le modèle peut être déterminé mathématiquement, l'apprentissage automatique peut ne pas être la technique optimale. Abu-Mostafa explique en outre l'apprentissage supervisé, où la fonction cible est inconnue, mais les données d'entrée et de sortie sont fournies, et comment on l'appelle "supervisé" parce que la sortie agit comme un superviseur du processus d'apprentissage.

  • 00:05:00 Dans cette section, le conférencier discute de la faisabilité de l'apprentissage et de l'impossibilité d'apprendre une fonction inconnue. Pour répondre à cette question, la conférence se concentre sur une situation probabiliste où un échantillon est prélevé dans un bac de billes rouges ou vertes avec une probabilité de choisir une bille rouge représentée par mu. Le cours magistral traduit cette situation en apprentissage, puis trouve une solution au dilemme, déclarant finalement que l'apprentissage est faisable dans un sens particulier.

  • 00:10:00 Dans cette section de la vidéo, le présentateur décrit une expérience avec un bac opaque contenant des billes, où la probabilité de ramasser une bille rouge est mu et la probabilité de ramasser une bille verte est de 1 moins mu. La valeur de mu est inconnue, et le but est de déterminer si la fréquence d'échantillonnage nu (fraction de billes rouges dans un échantillon de billes) peut fournir des informations sur mu. La réponse est non pour les petits échantillons, mais pour les échantillons plus grands, nu peut être proche de mu avec une probabilité plus élevée, ouvrant des possibilités d'inférence statistique. La distinction entre possible et probable est essentielle en science et en ingénierie.

  • 00:15:00 Dans cette section, le conférencier présente l'inégalité de Hoeffding, qui est une formule qui sera utilisée tout au long du cours pour prouver quelque chose sur la dimension VC. L'inégalité indique que la probabilité d'un événement, où la fréquence d'échantillonnage ne se rapproche pas de la fréquence bin dans une tolérance donnée, est faible et diminue de façon exponentielle avec une taille d'échantillon plus grande. Cependant, une tolérance plus petite entraîne un exposant plus élevé, ce qui atténue les avantages de l'exponentielle négative. La formule avec les 2 est préférée à la formule originale car elle est vraie.

  • 00:20:00 Dans cette section de la conférence, l'inégalité de Hoeffding est présentée comme un outil pour limiter l'écart de la fréquence d'échantillonnage par rapport à la fréquence réelle. L'inégalité est vraie pour chaque N et epsilon, ce qui en fait une proposition très attrayante malgré la présence d'une exponentielle. La distribution de probabilité de nu dépend explicitement de mu, qui est la valeur inconnue, mais l'inégalité ne dépend pas de mu, ce qui est un avantage. Le compromis entre N et epsilon est également discuté, car plus l'epsilon est petit, plus le N nécessaire pour compenser le même niveau de probabilité lié est grand. Enfin, la logique de l'énoncé selon lequel nu est approximativement le même que mu est expliquée, ce qui implique que mu est approximativement le même que nu.

  • 00:25:00 Dans cette section de la vidéo, l'orateur discute du concept de mu et nu en probabilité et de son lien avec le problème d'apprentissage. Ils expliquent qu'alors qu'en probabilité, le but est de déduire mu de nu en générant différents échantillons et en calculant la probabilité, dans le problème d'apprentissage, la quantité inconnue est une fonction complète avec un domaine qui pourrait être un espace euclidien d'ordre 10. L'orateur poursuit ensuite en introduisant le concept de codage couleur dans ce scénario pour indiquer l'accord entre une hypothèse et une fonction cible. Grâce à cette cartographie, le locuteur a effectivement ajouté une probabilité au problème d'apprentissage.

  • 00:30:00 Dans cette section, l'ajout de la probabilité au problème d'apprentissage est exploré. La probabilité est introduite dans l'espace d'entrée en appliquant une distribution de probabilité sur l'espace d'entrée, qui génère des points indépendamment. La distribution de probabilité qui est introduite ne nécessite pas d'hypothèses et la machinerie peut être appliquée à n'importe quelle distribution de probabilité. L'ajout de la probabilité permet la faisabilité de l'apprentissage sans compromettre la fonction cible, ce qui signifie qu'aucune hypothèse ne doit être faite sur la fonction qui sera apprise. Cependant, le problème de vérification est discuté, où la situation décrite équivaut à une banque recherchant une formule spécifique pour l'approbation de crédit sur la base de données données.

  • 00:35:00 Dans cette section, le conférencier explique comment transformer un simple problème de test d'hypothèse en un problème binaire qui peut être appris. Partant d'une case unique et d'un seuil élevé, il choisit un poids de 0,1 pour les années de résidence car cela contribue faiblement au problème d'apprentissage. Cependant, cette technique ne tient pas compte des hypothèses multiples, ce qui signifie qu'il est plus intelligent de choisir parmi plusieurs bacs. Cela nécessite de scanner différents échantillons, ce qui peut permettre un apprentissage efficace. Le conférencier présente la notation qui sera utilisée tout au long de l'exposé, en appelant nu et mu avec des noms descriptifs, car ils représentent respectivement la fréquence dans l'échantillon et à l'intérieur du bac, introduisant par conséquent E_in comme taux d'erreur dans l'échantillon.

  • 00:40:00 Dans cette section du cours, le professeur introduit la notation pour les performances dans l'échantillon et hors échantillon. Les performances hors échantillon font référence à quelque chose qui n'a jamais été vu auparavant, et si un modèle fonctionne bien sur des données hors échantillon, cela signifie qu'il a appris. L'inégalité de Hoeffding, qui est utilisée pour mesurer les différences de performances dans l'échantillon et hors échantillon, est ensuite appliquée à plusieurs groupes d'hypothèses, mais le professeur explique qu'elle ne s'applique pas dans ce cas. La raison pour laquelle cela ne s'applique pas est ensuite discutée, et le public est invité à lancer une pièce cinq fois et à enregistrer les résultats pour illustrer ce point.

  • 00:45:00 Dans cette section, le professeur décrit comment l'inégalité de Hoeffding s'applique à la situation d'apprentissage, où les données tombent au hasard dans l'une des deux catégories. Il explique que plusieurs bacs rendent difficile le traitement du problème et dilue la garantie de l'inégalité de Hoeffding car elle calcule la probabilité qu'un bac donne cinq têtes. Bien que chacun des bacs puisse réussir le test de cinq têtes, ils ne sont pas une indication de la probabilité réelle du bac, car obtenir une probabilité extrêmement élevée que quelque chose de mauvais se produise, quelque part, est susceptible de se produire. Le professeur termine cette section en déclarant qu'il doit trouver quelque chose qui peut lui permettre de gérer efficacement plusieurs bacs.

  • 00: 50: 00 Dans cette section, le conférencier discute de la probabilité que l'erreur dans l'échantillon soit proche de l'erreur hors échantillon dans le scénario d'apprentissage authentique, qui consiste à choisir une hypothèse dans un ensemble basé sur une erreur dans l'échantillon. critère. La probabilité de cet événement est inférieure ou égale à la probabilité que toute hypothèse de l'ensemble fini soit mauvaise, qui est calculée à l'aide de l'Union Bound en probabilité. Bien que cette borne soit pessimiste et ne considère pas le chevauchement, elle peut être utilisée pour calculer la borne supérieure sur toutes les probabilités. Chaque terme de cette borne correspond à une hypothèse fixe, qui peut être remplacée par la borne de Hoeffding. En fin de compte, la probabilité que l'erreur dans l'échantillon soit proche de l'erreur hors échantillon est toujours limitée par un terme contenant une exponentielle, mais elle inclut un facteur supplémentaire gênant.

  • 00:55:00 Dans cette section, le professeur discute du problème du surajustement et de son lien avec la sophistication du modèle utilisé. Avec un plus grand nombre d'hypothèses, la probabilité que quelque chose de grave se produise augmente également. Le professeur explique que le fait d'avoir un modèle plus sophistiqué peut conduire à une mémorisation dans l'échantillon et à une mauvaise généralisation hors échantillon. La session de questions-réponses traite de l'inégalité de Hoeffding et de ses implications, y compris le cas où le résultat est trivial, et comment le nombre d'hypothèses pour les modèles d'apprentissage est souvent infini. Le cours se termine par une demande de révision de la diapositive 6 sur l'implication de nu égal mu.

  • 01:00:00 Dans cette section de la vidéo, le professeur explique le concept de cause à effet dans les statistiques et son lien avec l'apprentissage automatique. Il souligne que la fréquence dans l'échantillon est l'effet, tandis que le bin est la cause. Cette compréhension est cruciale lors de l'utilisation de l'inégalité de Hoeffding pour déduire le bac en fonction de l'échantillon tout en traitant mu comme une constante et nu comme la cause. Le professeur précise également que chaque h dans l'apprentissage automatique est une hypothèse et que le modèle est l'ensemble des hypothèses disponibles pour la sélection. La complexité du modèle et les hypothèses individuelles seront discutées plus tard dans le cours. Enfin, le professeur explique comment étendre l'équation pour prendre en charge une gamme de réponses et pas seulement une réponse binaire, ce qui peut être obtenu en prenant la valeur attendue de quelque chose par rapport à la moyenne de l'échantillon.

  • 01:05:00 Dans cette section, le professeur explique que l'apprentissage est faisable, mais la variance de la variable doit être prise en considération. Il note que la valeur attendue et la moyenne d'échantillon d'une fonction sont liées à la probabilité, et qu'il ne s'agit que d'un cas plus simple de probabilité et de moyenne d'échantillon. De plus, il précise que l'utilisation de plusieurs bacs est nécessaire pour représenter plusieurs hypothèses d'apprentissage, car différentes hypothèses conduiront à différentes couleurs. Le professeur explique également comment fonctionne la sélection des meilleurs hyperplans et comment les algorithmes d'apprentissage résolvent ce problème en choisissant la solution spécifique avec laquelle ils se terminent. Enfin, il souligne que la seule invocation de probabilité nécessaire dans l'apprentissage est de mettre une distribution de probabilité sur X pour bénéficier de l'analyse probabiliste dans l'apprentissage, mais que l'approche bayésienne mettra une distribution de probabilité sur H à la fin de la cours.

  • 01:10:00 Dans cette section, la discussion est centrée sur la flexibilité de l'ensemble d'hypothèses (H) utilisé dans un algorithme d'apprentissage. Le symbole « g » est utilisé pour désigner l'hypothèse finale choisie par un algorithme à partir de H. Cependant, g peut être différent car il fait référence à l'ensemble du processus d'apprentissage qui a permis de le sélectionner à partir de l'ensemble d'hypothèses en fonction des données et de la règle d'apprentissage. De plus, il est important de noter que même si l'algorithme perceptron ou tout algorithme d'apprentissage linéaire choisit une hypothèse à chaque étape, il s'agit d'un processus caché du point de vue de l'analyse puisque le but est de choisir une hypothèse finale correcte, g, à partir de H. Enfin, l'inégalité de Hoeffding modifiée est une extension de l'inégalité de Hoeffding ordinaire qui permet de faire des déclarations simultanément sur un certain nombre d'hypothèses dans l'ensemble d'hypothèses afin de garantir de bonnes performances tout en tenant compte de la probabilité que de mauvaises choses puissent se produire.

  • 01:15:00 Dans cette section, le professeur discute de la relation entre l'inégalité de Hoeffding et les valeurs p dans les statistiques. Il explique que l'inégalité de Hoeffding est liée à l'estimation de la fiabilité et de la probabilité d'écart d'un échantillon. Il note également qu'il existe d'autres lois des grands nombres en statistique, mais il se concentre sur cette formule comme la plus utile pour comprendre la théorie de la généralisation. Le professeur mentionne que bien qu'il soit utile d'étudier différentes manifestations de proximité de l'échantillon à l'extérieur de l'échantillon et des probabilités d'erreur, ce n'est pas un sujet central du cours. La conférence se termine et les étudiants sont renvoyés jusqu'à la semaine prochaine.
Lecture 02 - Is Learning Feasible?
Lecture 02 - Is Learning Feasible?
  • 2012.04.09
  • www.youtube.com
Is Learning Feasible? - Can we generalize from a limited sample to the entire space? Relationship between in-sample and out-of-sample. Lecture 2 of 18 of Cal...
 

Cours 3 - Le modèle linéaire I




Cours d'apprentissage automatique de Caltech - CS 156. Cours 03 - Le modèle linéaire I

Cette conférence couvre les sujets des modèles linéaires dans l'apprentissage automatique, la représentation des entrées, l'algorithme perceptron, l'algorithme de poche et la régression linéaire, y compris son utilisation dans la classification. Le professeur insiste sur l'importance d'utiliser des données réelles pour tester différentes idées et introduit le concept de fonctionnalités pour simplifier la vie de l'algorithme d'apprentissage. La conférence aborde également les aspects informatiques de la pseudo-inverse dans la régression linéaire et les problèmes qui peuvent survenir lors de l'utilisation de la régression linéaire pour la classification sur des données non séparables. Enfin, le concept d'utilisation de transformations non linéaires pour rendre les données plus linéaires est présenté, avec un exemple démontrant comment obtenir des données séparables en utilisant la transformation x1² et x2² à partir de l'origine.

Le professeur couvre également divers sujets liés au modèle linéaire dans l'apprentissage automatique. Il discute des transformations non linéaires et des directives sur leur sélection, des erreurs dans l'échantillon et hors échantillon dans la classification binaire, de l'utilisation de la régression linéaire pour l'analyse de corrélation et de la dérivation de caractéristiques significatives à partir des entrées. Le professeur souligne également l'importance de comprendre la distinction entre E_in et E_out et leur impact sur les performances du modèle. Enfin, il aborde la relation entre la régression linéaire et l'estimation du maximum de vraisemblance, l'utilisation de transformations non linéaires et le rôle de la théorie dans la compréhension des concepts d'apprentissage automatique.

  • 00:00:00 Dans cette section, Yaser Abu-Mostafa se penche sur le sujet des hypothèses multiples dans un modèle. Comme la probabilité que quelque chose de grave se produise peut s'accumuler sur plusieurs hypothèses, la limite d'union - une règle mathématique - peut être appliquée. Cette technique permet à la probabilité d'un événement ou d'un autre événement d'être inférieure ou égale à la somme des probabilités individuelles, fournissant un outil utile pour limiter la probabilité que quelque chose de grave se produise. Lorsqu'un seul ensemble d'hypothèses ou bin correspond à une seule hypothèse, la probabilité que l'hypothèse finale soit mauvaise est faible. Cependant, un ensemble d'hypothèses plus grand se traduira par un grand facteur M, rendant la probabilité dénuée de sens.

  • 00:05:00 Dans cette section, le conférencier discute de l'importance des modèles linéaires dans l'apprentissage automatique et fournit une séquence de sujets abordés dans la conférence, qui comprend le perceptron et sa généralisation aux données non séparables, une fonction à valeurs réelles, et éventuellement à un cas non linéaire. Il présente également un ensemble de données pratiques à partir des codes postaux du bureau de poste qui sera utilisé pour tester différentes idées et souligne l'importance d'essayer des idées sur des données réelles. Le conférencier examine la question de la représentation des entrées, soulignant le défi de coder les 256 nombres réels de l'entrée brute de 16 x 16 pixels de niveau de gris, qui pourrait conduire à trop de paramètres, mais qui est résolu avec des techniques d'extraction de caractéristiques.

  • 00:10:00 Dans cette section, la vidéo aborde le concept de représentation des entrées et l'idée de fonctionnalités pour simplifier la vie de l'algorithme d'apprentissage. L'enseignant donne un exemple d'extraction de descripteurs d'une image, tels que l'intensité et la symétrie, pour obtenir une représentation de niveau supérieur de l'information brute. En utilisant ces fonctionnalités, l'algorithme n'a besoin que de déterminer les valeurs de quelques paramètres au lieu des 257 paramètres de l'espace d'origine, ce qui est préférable pour la généralisation. La conférence présente ensuite des diagrammes de dispersion des coordonnées d'intensité et de symétrie pour illustrer comment les caractéristiques rendent le problème linéairement séparable et introduit le rôle de l'algorithme d'apprentissage du perceptron dans la détermination de la limite de décision.

  • 00:15:00 Dans cette section, nous apprenons le comportement de l'algorithme d'apprentissage du perceptron lorsque les données ne sont pas linéairement séparables. En raison de sa nature consistant à corriger les erreurs de classification une à la fois, l'erreur augmente ou diminue parfois, et il ne peut garantir la convergence dans de tels cas. Pour résoudre ce problème, nous introduisons l'algorithme de poche, ce qui signifie que nous mesurons l'erreur dans l'échantillon de l'hypothèse intermédiaire à chaque itération, et ne gardons que la meilleure dans notre poche. À la fin, nous rapportons l'hypothèse dans notre poche comme hypothèse finale. L'algorithme de poche fournit de meilleurs résultats car il considère la valeur de poche à chaque itération qui s'est avérée meilleure que ce qui a suivi, et donc les erreurs dans l'échantillon et hors échantillon sont beaucoup plus proches.

  • 00:20:00 Dans cette section de la conférence, le professeur Abu-Mostafa discute de l'algorithme de poche, qui est une version modifiée de l'algorithme d'apprentissage du perceptron qui peut être utilisé pour des données générales inséparables. L'algorithme se termine à une certaine itération et rapporte la valeur de poche. Il explique que la frontière de classification de l'algorithme de poche est meilleure que celle de l'algorithme d'apprentissage du perceptron, bien que les données ne soient toujours pas parfaitement séparables. La régression linéaire est ensuite présentée comme une approche statistique couramment utilisée pour trouver une relation entre les variables, en particulier pour analyser la relation entre les GPA des différents cours et les revenus futurs. Enfin, l'exemple d'approbation de crédit est revisité pour montrer comment la régression peut être utilisée pour prédire la limite de crédit d'un client en fonction de ses données.

  • 00:25:00 Dans cette section, le professeur présente le concept de régression linéaire et explique qu'il est utilisé pour prédire les valeurs de sortie réelles en fonction des variables d'entrée. La sortie est une hypothèse qui prend une forme linéaire en termes de variables d'entrée. Les variables sont codées en tant qu'entrées et l'algorithme dépend de la linéarité du signal. L'ensemble de données pour cet exemple est constitué de données historiques de clients précédents dans lesquelles un agent a évalué leurs demandes de crédit et déterminé une ligne de crédit. L'objectif est de répliquer ce que font les experts afin d'automatiser le système de détermination des lignes de crédit. L'algorithme de régression linéaire mesure l'erreur et essaie de trouver les poids optimaux pour déterminer l'hypothèse qui se rapproche bien de f. La fonction d'erreur standard utilisée dans la régression linéaire est l'erreur quadratique.

  • 00:30:00 Dans cette section, le conférencier explique comment estimer une ligne de crédit et l'importance de définir une mesure d'erreur, telle que l'erreur quadratique, qui est couramment utilisée dans la régression linéaire. L'erreur dans l'échantillon est utilisée pour évaluer la performance de l'hypothèse sur l'ensemble de données, où chaque exemple a une contribution à l'erreur. L'algorithme de régression linéaire cherche à minimiser cette erreur en trouvant une ligne qui correspond aux données selon la règle de l'erreur au carré. L'algorithme s'applique aux espaces de dimension supérieure où la ligne est un hyperplan. L'expression de E_in est présentée comme une norme au carré de quelque chose qui consolide les différents x_n.

  • 00:35:00 Dans cette section, le concept de modèle linéaire est introduit, où les données d'entrée sont présentées sous la forme d'une matrice X avec un vecteur de sorties y. Le gradient est pris pour minimiser E_in par rapport au paramètre w. Cela conduit à une équation quadratique simple à résoudre, qui implique X transposé X, une matrice carrée inversible. La solution est simple pour cette raison, et la formule pour w est X ^ †, où X ^ † est le pseudo-inverse de X, qui est un raccourci pour l'inverse de X transposé X multiplié par X transposé. Parce que X n'est pas inversible, il n'a pas d'inverse traditionnel, mais il a un pseudo-inverse.

  • 00:40:00 Dans cette section, le conférencier explique les aspects informatiques de la pseudo-inverse dans la régression linéaire. La formule de la pseudo-inverse implique l'inversion et la multiplication de matrices, qui peuvent être gourmandes en calcul pour les grandes matrices. Cependant, le conférencier note que ce n'est pas un problème pour la plupart des applications pratiques car il existe de nombreux packages disponibles pour calculer la pseudo-inverse ou la solution de la régression linéaire. Pour utiliser la régression linéaire, il faut saisir les données dans le format correct, construire la matrice X et le vecteur y, puis les insérer dans la formule de la pseudo-inverse. La multiplication résultante donne les valeurs de w, les poids du modèle linéaire.

  • 00:45:00 Dans cette section, le concept d'utilisation de la régression linéaire pour la classification est introduit. Il est expliqué que les fonctions de classification à valeurs binaires sont également à valeurs réelles et que la régression linéaire peut être utilisée pour apprendre approximativement ces fonctions. Les poids obtenus à partir de la régression linéaire peuvent également être utilisés comme poids initiaux pour les algorithmes de classification comme l'algorithme perceptron, offrant un démarrage rapide et une convergence potentiellement plus rapide. De plus, l'idée d'utiliser le signe du signal obtenu à partir de la régression linéaire pour classer comme +1 ou -1 est discutée. Enfin, la limite de régression linéaire est expliquée à l'aide d'un exemple.

  • 00:50:00 Dans cette section de la conférence, le professeur discute des problèmes qui peuvent survenir lors de l'utilisation de la régression linéaire pour la classification, en particulier lorsqu'il s'agit de données non séparables. Il démontre que l'algorithme essaiera de forcer toutes les valeurs à la même classification, ce qui entraîne souvent des erreurs dans le processus de classification. Il introduit ensuite l'idée d'utiliser des transformations non linéaires pour rendre les données plus linéaires, comme dans le cas de la détermination de la stabilité de la ligne de crédit en fonction des années de résidence. Cependant, il souligne qu'il est important de comprendre ce que l'on entend par "linéaire" en termes de ces modèles pour une utilisation efficace.

  • 00: 55: 00 Dans cette section, le conférencier discute de l'importance de la linéarité dans les poids lors de la dérivation d'algorithmes d'apprentissage comme le perceptron et la régression linéaire, car cela permet aux algorithmes de fonctionner indépendamment de ce que sont les x. Cela ouvre la possibilité d'effectuer des transformations non linéaires sur les entrées sans quitter le domaine des modèles linéaires car les poids attribués aux caractéristiques non linéaires dépendent linéairement des paramètres. Un exemple de transformation non linéaire est donné, où les données sont transformées à l'aide de mesures x1² et x2² à partir de l'origine, ce qui donne des données séparables. Cependant, la transformation non linéaire est une question chargée qui est sensible aux problèmes de généralisation, donc les directives seront discutées plus en détail dans la prochaine conférence.

  • 01:00:00 Dans cette section, le professeur discute des transformations non linéaires et des lignes directrices sur jusqu'où on peut aller pour les choisir. Il souligne l'importance de la généralisation et des connaissances théoriques lors de la sélection des transformations non linéaires. La discussion passe ensuite aux erreurs dans l'échantillon et hors échantillon, en particulier dans le contexte de la classification binaire. Le professeur précise que dans l'apprentissage, seule l'erreur dans l'échantillon est traitée, tandis que l'erreur hors échantillon est traitée implicitement avec la garantie que bien faire dans l'échantillon se traduira par bien faire hors échantillon. La distinction entre probabilité d'erreur et fréquence d'erreur dans la classification est également expliquée. La conférence aborde ensuite l'utilisation de la régression linéaire pour déterminer la corrélation entre GPA et les revenus futurs. La disponibilité des données et l'inclusion de w_0 dans la régression linéaire sont également brièvement discutées.

  • 01:05:00 Dans cette section, le professeur explique que le seuil est nécessaire pour la régression linéaire, car il compense le décalage en fonction des valeurs des variables, permettant un modèle approprié. Dans le cas binaire, lors de l'utilisation de +1 ou -1 comme sorties, l'hypothèse de la régression linéaire a l'erreur la moins quadratique des cibles sur les exemples, et la sortie de l'hypothèse est la plus proche de la valeur +1 ou -1 avec un erreur quadratique moyenne. Bien que cette technique puisse fonctionner, elle peut ne pas classer correctement les points, car la régression linéaire tente d'ajuster les points non pertinents qui peuvent perturber la classification. Le professeur suggère d'utiliser la régression linéaire comme poids initial, puis d'utiliser un algorithme de classification approprié pour l'affiner davantage. Pour dériver des caractéristiques, il n'y a pas d'algorithme général, et la meilleure approche consiste à examiner l'entrée brute et à essayer de déduire des caractéristiques significatives en fonction de l'énoncé du problème. Cependant, s'il y a trop de fonctionnalités, cela peut devenir un problème, et c'est là que les transformations non linéaires peuvent aider à simplifier l'espace des fonctionnalités.

  • 01:10:00 Dans cette section, le professeur aborde le concept de caractéristiques, qui sont toutes les représentations de niveau supérieur d'une entrée brute. Le modèle linéaire est un élément de base pour de nombreux modèles d'apprentissage automatique, et d'autres modèles peuvent donner de meilleures performances incrémentielles dans certains cas, mais il souligne que le modèle linéaire fait le travail. Le professeur souligne également la différence entre E_in et E_out, E_in étant facilement évalué, tandis que E_out nécessite des garanties théoriques que l'erreur dans l'échantillon suit l'erreur hors échantillon. De plus, il explique que la régression linéaire peut toujours être utilisée pour ajuster un polynôme en transformant la variable d'entrée par une transformation non linéaire. Enfin, il parle brièvement de la relation entre les moindres carrés de régression linéaire et l'estimation du maximum de vraisemblance dans la littérature statistique, qui implique davantage d'hypothèses sur les probabilités et le bruit.

  • 01:15:00 Dans cette section, le professeur parle de la relation entre le modèle de régression linéaire et le maximum de vraisemblance, mais préfère présenter la régression linéaire dans le contexte de l'apprentissage automatique sans faire trop d'hypothèses sur les distributions. Le professeur discute également des transformations non linéaires et de la façon dont elles sont utilisées dans l'apprentissage automatique, y compris les polynômes et les fonctions de base radiale. Il aborde également des questions sur la recherche de modèles dans les générateurs de nombres pseudo-aléatoires et les différents traitements pour les réponses continues par rapport aux réponses discrètes, qui dépendent du problème à résoudre. Enfin, le professeur insiste sur l'importance de la théorie pour comprendre plus en profondeur les techniques d'apprentissage automatique.
Lecture 03 -The Linear Model I
Lecture 03 -The Linear Model I
  • 2012.04.12
  • www.youtube.com
The Linear Model I - Linear classification and linear regression. Extending linear models through nonlinear transforms. Lecture 3 of 18 of Caltech's Machine ...
 

Cours 4 - Erreur et bruit



Cours d'apprentissage automatique de Caltech - CS 156. Cours 04 - Erreur et bruit

Dans la conférence 04 du cours d'apprentissage automatique, le professeur Abu-Mostafa discute de l'importance de l'erreur et du bruit dans les problèmes d'apprentissage automatique réels. Il explique le concept de transformation non linéaire en utilisant l'espace des caractéristiques Z, qui est essentiel pour préserver la linéarité dans l'apprentissage. Le cours couvre également les composants du diagramme d'apprentissage supervisé, en soulignant l'importance des mesures d'erreur dans la quantification de la performance de l'hypothèse. Les cibles bruyantes sont introduites comme un composant typique des problèmes d'apprentissage du monde réel, qui doivent être pris en compte lors de la minimisation de l'erreur dans l'échantillon. Le cours se termine par une discussion sur la théorie de l'apprentissage et sa pertinence dans l'évaluation de l'erreur dans l'échantillon, de l'erreur hors échantillon et de la complexité du modèle.

Le professeur explique comment les changements dans la distribution de probabilité peuvent affecter l'algorithme d'apprentissage et comment les mesures d'erreur peuvent différer pour différentes applications. Il discute également de l'algorithme de régression linéaire, de l'utilisation de l'erreur au carré par rapport à la valeur absolue pour les mesures d'erreur dans l'optimisation et du compromis entre complexité et performance dans les modèles d'apprentissage automatique. Le professeur clarifie la différence entre l'espace d'entrée et l'extraction de caractéristiques et note que la théorie sur la façon d'améliorer simultanément la généralisation et de minimiser les erreurs sera abordée dans les prochaines conférences.

  • 00:00:00 Dans cette section, le professeur Abu-Mostafa discute de l'importance de l'erreur et du bruit lors de l'examen de problèmes réels dans l'apprentissage automatique. Il revisite d'abord le concept de transformation non linéaire et comment il aide à transformer des variables et à préserver la linéarité dans w, le vecteur de poids, qui est essentiel pour le processus d'apprentissage. Il introduit ensuite le concept d'erreur et de bruit dans le diagramme d'apprentissage, en reconnaissant les considérations pratiques qui surviennent dans des situations réelles. La conférence comprend également un exemple de données non séparables qui peuvent être séparées par une transformation non linéaire.

  • 00:05:00 Dans cette section, une transformation non linéaire appelée phi est discutée où chaque point de l'espace d'échantillonnage x_n est soumis à la transformation et le point correspondant z_n est obtenu dans l'espace de caractéristiques Z, qui peut être un espace hautement non linéaire. Cela permet à l'ensemble de données de devenir linéairement séparable dans le nouvel espace de caractéristiques, qui est ensuite appliqué par de simples algorithmes de modèle linéaire comme la régression linéaire ou la classification pour obtenir une limite de séparation. Cependant, lorsqu'un point de test est donné, il se trouve dans l'espace d'entrée, ce point doit donc être transformé à l'aide d'une transformation inverse pour localiser où il se trouve dans l'espace des caractéristiques à classer en conséquence. Cette procédure fonctionne bien dans n'importe quelle taille de dimensions pour toute transformation non linéaire, mais il est important d'être prudent avec la transformation pour éviter les problèmes de généralisation.

  • 00:10:00 Dans cette section, l'instructeur discute des composants du diagramme d'apprentissage supervisé et introduit le concept de mesures d'erreur et de cibles bruyantes. Il explique que le but des mesures d'erreur est de quantifier à quel point une hypothèse se rapproche d'une fonction cible inconnue. La mesure d'erreur est définie comme E de deux fonctions, et il souligne qu'il s'agit d'une mesure quantitative. Il déclare en outre que les cibles bruyantes sont une composante pratique des problèmes d'apprentissage réels qui doivent être pris en considération.

  • 00:15:00 Dans cette section, l'orateur explique comment la fonction d'erreur est utilisée pour mesurer à quel point une fonction d'hypothèse se rapproche d'une fonction cible dans les algorithmes d'apprentissage automatique. La fonction d'erreur renvoie un nombre qui est calculé en comparant la valeur de deux fonctions au même point. La définition ponctuelle est couramment utilisée et la moyenne des erreurs ponctuelles est utilisée pour définir la fonction d'erreur sur l'ensemble de l'espace. L'erreur dans l'échantillon de la fonction d'erreur est la moyenne des erreurs ponctuelles dans l'ensemble d'apprentissage, tandis que l'erreur hors échantillon nécessite de diviser les données en ensembles d'apprentissage et de test. L'orateur insiste sur l'importance de minimiser la fonction d'erreur afin de développer une fonction d'hypothèse précise.

  • 00:20:00 Dans cette section, le conférencier discute de l'erreur hors échantillon, qui est la version hors échantillon d'une mesure d'erreur. La valeur attendue est obtenue en faisant la moyenne de tous les points dans l'espace d'entrée X. L'erreur binaire est la probabilité d'erreur globale, qui est calculée à l'aide de la distribution de probabilité sur l'espace d'entrée X. Le diagramme d'apprentissage est mis à jour avec l'ajout de la mesure d'erreur , qui est défini point par point. La mesure d'erreur est définie dans le contexte de la vérification des empreintes digitales avec deux types d'erreurs - fausse acceptation et faux rejet. Lors de la définition d'une mesure d'erreur, chaque type d'erreur est pénalisé pour obtenir une meilleure hypothèse.

  • 00:25:00 Dans cette section, l'orateur discute du concept d'erreur et de bruit dans les systèmes de vérification des empreintes digitales et de la manière dont l'apprentissage automatique peut être utilisé pour créer une hypothèse d'acceptation ou de rejet d'individus en fonction de leurs empreintes digitales. L'orateur note qu'il n'y a aucun mérite inhérent à choisir une fonction d'erreur plutôt qu'une autre et que cela dépend du domaine d'application. Par exemple, dans le cas des supermarchés, les faux rejets sont coûteux car ils peuvent frustrer les clients et amener leurs affaires ailleurs, tandis que les fausses acceptations ne sont pas aussi importantes. Cependant, dans le cas de la CIA, les fausses acceptations pourraient potentiellement conduire à des failles de sécurité, ce qui les rend plus coûteuses que les faux rejets. Par conséquent, la matrice d'erreur doit être ajustée en fonction de l'application spécifique.

  • 00:30:00 Dans cette section, l'orateur discute de l'importance des mesures d'erreur dans les problèmes d'apprentissage pratiques et explique que la mesure d'erreur utilisée doit être spécifiée par l'utilisateur qui utilisera le système imparfait. Il suggère que si l'utilisateur peut articuler une fonction d'erreur quantitative, alors c'est la fonction d'erreur avec laquelle travailler. Cependant, lorsque les utilisateurs ne donnent pas de fonctions d'erreur spécifiques, d'autres mesures plausibles ou conviviales peuvent être utilisées. Les mesures plausibles ont des mérites analytiques, tandis que les mesures amicales sont faciles à utiliser. L'orateur modifie le diagramme d'apprentissage pour introduire la mesure d'erreur, qui est cruciale pour clarifier ce que le système est censé apprendre.

  • 00:35:00 Dans cette section, l'accent est mis sur la mesure d'erreur et son rôle dans l'algorithme d'apprentissage. La mesure d'erreur a deux fonctions principales : évaluer l'hypothèse finale et approximer la fonction cible, et fournir la mesure d'erreur à l'algorithme d'apprentissage afin de minimiser l'erreur dans l'échantillon. De plus, les cibles bruyantes sont introduites comme la norme pour les problèmes réels. La fonction cible n'est pas toujours une fonction et peut être affectée par le bruit provenant d'informations et de circonstances non comptabilisées, ce qui la rend probabiliste plutôt que déterministe. Une distribution cible est utilisée à la place d'une fonction cible, où y est généré par la distribution de probabilité donnée x, représentant la dépendance probabiliste. Le concept de cibles bruyantes est abordé en introduisant l'idée d'une fonction cible déterministe plus bruit, et cette approche est utilisée pour simplifier la notion de distribution cible.

  • 00:40:00 Dans cette section, l'orateur discute du concept de bruit dans l'apprentissage automatique et de son impact sur le processus d'apprentissage. La fonction cible est définie comme la valeur attendue de y étant donné x, la partie restante étant appelée bruit. Si la fonction cible n'est pas bien définie, elle peut être posée comme une distribution de probabilité, et les cibles bruyantes peuvent être représentées comme une distribution de probabilité conditionnelle de y étant donné x. Le diagramme d'apprentissage pour l'apprentissage supervisé inclut les cibles bruitées, et la distinction est faite entre les probabilités de x et y étant donné x. Malgré les complexités impliquées, l'orateur note que chaque composant du diagramme d'apprentissage a une raison d'être là.

  • 00:45:00 Dans cette section, l'orateur explique le concept de la distribution cible, qui est la distribution de probabilité de la solvabilité compte tenu de l'entrée, et souligne que c'est ce que vous essayez d'apprendre grâce à l'apprentissage supervisé. La distribution d'entrée, d'autre part, joue le rôle de quantifier l'importance relative de l'entrée dans la distribution cible, mais ce n'est pas ce que vous essayez d'apprendre. L'orateur avertit également que le mélange des deux distributions, ce qui peut être fait en théorie, peut prêter à confusion quant à la véritable distribution cible. Enfin, le conférencier introduit la théorie de l'apprentissage qui vise à approximer la distribution cible et souligne son importance dans la prise de conscience et l'acquisition d'outils secondaires.

  • 00:50:00 Dans cette section, le conférencier explique que l'erreur hors échantillon pour une fonction g doit être proche de zéro, car cela signifie une bonne généralisation. Cependant, comme cette quantité est impossible à connaître, nous pouvons utiliser l'erreur dans l'échantillon comme indicateur de l'erreur hors échantillon, tant que nous avons les bons contrôles en place. L'histoire complète de l'apprentissage implique deux questions : pouvons-nous nous assurer que la performance hors échantillon est suffisamment proche de la performance dans l'échantillon (une question théorique), et pouvons-nous réduire suffisamment l'erreur dans l'échantillon (une question pratique ) ? L'enseignant note que dans certaines applications, il est impossible d'obtenir une performance hors échantillon proche de zéro, comme dans les prévisions financières où il y a des données purement bruitées. Malgré cela, les hedge funds peuvent encore gagner de l'argent en exploitant un peu d'inefficacité.

  • 00:55:00 Dans cette section de la conférence, le professeur discute de l'importance de l'erreur hors échantillon et de la théorie qui sera abordée au cours des deux prochaines semaines. La théorie traite de la compréhension de l'erreur dans l'échantillon, de l'erreur hors échantillon et de la complexité du modèle, et des définitions formelles seront données pour évaluer ces facteurs. L'objectif principal de la théorie est de caractériser la faisabilité de l'apprentissage pour les cas où l'ensemble d'hypothèses est infini, comme les modèles de perceptron et de régression linéaire. La théorie mesurera le modèle par un seul paramètre qui reflète la sophistication du modèle, ce qui contribuera à faire une grande différence dans l'apprentissage pratique. Le professeur répond également à une question, en discutant de l'impact relatif de P de x dans l'algorithme d'apprentissage.

  • 01:00:00 Dans cette section, le professeur explique comment les changements dans la distribution de probabilité peuvent affecter l'algorithme d'apprentissage, en particulier dans le choix des exemples d'apprentissage. Le professeur explique que la distribution de probabilité de l'entrée joue un rôle technique, mais que l'accent mis sur certaines parties de l'espace par rapport à d'autres peut affecter les choix effectués par l'algorithme. En ce qui concerne la meilleure façon de choisir entre N paires de x et y ou N y par x, le professeur suggère de les obtenir indépendamment plutôt que pour la même entrée afin d'éviter de traiter une partie très spécifique de l'espace d'entrée et d'améliorer la généralisation. Enfin, le professeur note qu'il existe un moyen de mesurer une mauvaise généralisation ou une bonne généralisation, qui fera partie de la théorie.

  • 01:05:00 Dans cette section, le professeur explique que les mesures d'erreur peuvent être différentes pour différents domaines d'application, même pour le même système et les mêmes données d'apprentissage. Il donne des exemples de la façon dont le juste équilibre entre la fausse acceptation et le faux rejet peut différer pour un supermarché et la CIA. Le professeur précise également que la structure de la probabilité de x (P(x)) n'est pas un problème dans l'apprentissage supervisé, tant que la même distribution est utilisée pour l'entraînement et les tests. Il explique en outre que toute distribution de probabilité suffira pour invoquer l'approche probabiliste du problème d'apprentissage. Enfin, le professeur reconnaît une demande de simplification du cas d'une mesure d'erreur au carré et d'une solution de forme fermée, qu'il couvrira dans la revue.

  • 01:10:00 Dans cette section, le professeur explique comment l'algorithme de régression linéaire a été dérivé sur la base de la minimisation de l'erreur quadratique, résultant en une solution simple de forme fermée. Il explique également comment un déséquilibre dans la probabilité de y affecte le processus d'apprentissage et que les récompenses et les coûts sont équivalents. De plus, il précise que lorsqu'il se réfère à l'espace d'entrée dans l'apprentissage automatique, il inclut tous les points possibles uniquement en termes de leurs parties d'entrée, tandis que l'extraction de caractéristiques implique le traitement de l'entrée pour supprimer les informations non pertinentes. L'analyse en composantes principales est une autre méthode pour détecter les directions informatives dans l'espace de représentation d'entrée.

  • 01:15:00 Dans cette section du cours, le professeur discute de l'utilisation de la mesure d'erreur au carré par rapport à la valeur absolue des mesures d'erreur en optimisation. Il explique que l'erreur quadratique est une fonction lisse et possède de nombreuses propriétés souhaitables, alors que la valeur absolue n'est pas lisse et peut entraîner une optimisation combinatoire. Cependant, si l'utilisation de la valeur absolue est nécessaire pour un mérite spécifique, elle peut toujours être utilisée. De plus, il précise que la cible est la fonction f de x, et non w transposée x, et que le bruit est la différence entre y et la valeur attendue de y étant donné un x spécifique. Enfin, le professeur note qu'il existe un compromis entre complexité et performance dans les modèles d'apprentissage automatique, mais les réponses sur la façon d'améliorer simultanément la généralisation et de minimiser les erreurs seront abordées dans les quatre prochaines conférences.
Lecture 04 - Error and Noise
Lecture 04 - Error and Noise
  • 2012.04.15
  • www.youtube.com
Error and Noise - The principled choice of error measures. What happens when the target we want to learn is noisy. Lecture 4 of 18 of Caltech's Machine Learn...
 

Cours 5 - Formation versus tests



Cours d'apprentissage automatique de Caltech - CS 156. Cours 05 - Formation versus test

Dans la conférence 5 de son cours sur l'apprentissage à partir des données, le professeur Abu-Mostafa aborde les concepts d'erreur et de bruit dans l'apprentissage automatique, la différence entre l'apprentissage et le test, et la fonction de croissance, qui mesure le nombre maximum de dichotomies pouvant être produites par une hypothèse posée pour un nombre de points donné. Il introduit également le point de rupture, qui correspond à la complexité d'un ensemble d'hypothèses et garantit un taux de croissance polynomial en N s'il existe, et discute divers exemples d'ensembles d'hypothèses tels que les rayons positifs, les intervalles et les ensembles convexes. La conférence met l'accent sur l'importance de comprendre ces concepts et leurs cadres mathématiques afin de bien comprendre la complexité des ensembles d'hypothèses et leur potentiel d'apprentissage faisable.

Le professeur a couvert divers sujets liés à la formation par rapport aux tests. Il a répondu aux questions du public sur les fonctions cibles et hypothétiques non binaires et sur le compromis entre les points de rupture. Le professeur a expliqué l'importance de trouver une fonction de croissance et pourquoi il est préférable d'utiliser 2 à la puissance N pour mesurer la probabilité de généralisation étant élevée. De plus, il a discuté de la relation entre le point d'arrêt et la situation d'apprentissage, notant que l'existence du point d'arrêt signifie que l'apprentissage est faisable, tandis que la valeur du point d'arrêt nous indique les ressources nécessaires pour atteindre une certaine performance. Enfin, le professeur a expliqué les alternatives à Hoeffding et pourquoi il s'y tient pour s'assurer que les gens se familiarisent avec lui.

  • 00:00:00 Dans cette section, le professeur Abu-Mostafa discute des concepts d'erreur et de bruit et de leur lien avec l'apprentissage automatique dans des situations pratiques. Il explique l'importance de définir des mesures d'erreur et comment elles sont utilisées pour déterminer la performance d'une hypothèse par rapport à une fonction cible. De plus, il discute du concept de cibles bruyantes, où la cible n'est pas une fonction déterministe, mais est plutôt affectée par x et est distribuée selon une distribution de probabilité. Le professeur Abu-Mostafa présente également la piste théorique qui durera pendant les trois prochaines conférences, en se concentrant sur la formation par rapport aux tests et le cadre mathématique qui le décrit de manière réaliste.

  • 00:05:00 Dans cette section, le conférencier explore la différence entre la formation et les tests dans le contexte d'un examen final. Les problèmes pratiques et les solutions fournis avant l'examen final servent d'ensemble de formation. L'examen final sert de jeu de test. L'enseignant souligne que le but n'est pas de bien réussir l'examen final, mais de comprendre la matière, ce qui se traduit par un petit E_out. La description mathématique des tests implique la performance d'une personne à l'examen final, tandis que la description mathématique de la formation implique la manière dont une personne a réussi les problèmes de pratique. La contamination de l'ensemble de pratique se traduit par une performance dégradée sur la métrique E_in. Le conférencier souligne la nécessité de remplacer la quantité M par une plus conviviale pour mesurer la complexité des ensembles d'hypothèses.

  • 00:10:00 Dans cette section, l'orateur discute de l'importance de comprendre d'où vient une hypothèse, M, et le contexte qui l'entoure afin de la remplacer. L'orateur explique qu'il existe de mauvais événements appelés B, et l'objectif est d'éviter la situation où la performance dans l'échantillon ne suit pas la performance hors échantillon. L'objectif est de s'assurer que la probabilité de l'un des mauvais événements est faible, quelles que soient les corrélations entre les événements. L'orateur poursuit ensuite en expliquant l'exemple du perceptron et comment définir le mauvais événement en termes d'image pour assurer une meilleure limite.

  • 00:15:00 Dans cette section, le conférencier discute des concepts de E_in et E_out, qui représentent respectivement les erreurs dans l'échantillon et hors échantillon pour une hypothèse. Il examine ensuite comment les changements dans E_in et E_out se comparent lors du passage d'une hypothèse à une autre, en faisant valoir qu'ils sont petits et se déplacent dans la même direction en raison de la zone de chevauchement entre les hypothèses. Le conférencier suggère que M, la mesure précédente de la complexité, peut être remplacée par une nouvelle quantité qui caractérise la complexité de tout modèle, mais cela nécessitera une preuve dans la prochaine leçon. Il introduit la quantité et insiste sur la nécessité de bien la comprendre avant de procéder à la preuve.

  • 00:20:00 Dans cette section, le conférencier explique ce que sont les dichotomies et comment elles se rapportent aux hypothèses. Les dichotomies sont des hypothèses multiples définies uniquement sur un sous-ensemble de points, et elles représentent les différents modèles possibles de rouge et de bleu sur un ensemble fini de points de données. Par exemple, s'il n'y a que quelques dichotomies, l'ensemble d'hypothèses n'est pas puissant, mais s'il y en a beaucoup, l'ensemble d'hypothèses est fort. Le conférencier décrit les dichotomies comme une feuille de papier opaque avec des trous, placée au-dessus de l'espace d'entrée, ne montrant que le motif de points rouges et bleus. Les dichotomies sont une manière formelle d'exprimer des hypothèses, où la fonction produit soit -1 soit +1 pour les régions bleues et rouges.

  • 00:25:00 Dans cette section, le conférencier discute du nombre d'hypothèses et de dichotomies dans le cas du perceptron. Il explique qu'il peut y avoir un nombre infini d'hypothèses en raison du perceptron ayant des valeurs infinies. Cependant, le nombre de dichotomies est limité car il n'y a qu'un nombre fini de points sur lesquels renvoyer +1 ou -1. La fonction de croissance, notée "m", remplace le nombre d'hypothèses en comptant le plus de dichotomies que l'on peut obtenir en utilisant leur ensemble d'hypothèses sur n'importe quels N points. Le professeur mentionne que la fonction de croissance est calculée en maximisant le nombre de dichotomies par rapport à n'importe quel choix de N points de l'espace d'entrée.

  • 00:30:00 Dans cette section, l'enseignant explique la notion de fonction de croissance et son application aux perceptrons. La fonction de croissance d'un ensemble d'hypothèses est une fonction qui vous indique le nombre maximum de dichotomies pouvant être produites pour un nombre de points donné. Pour les perceptrons, obtenir la fonction de croissance est difficile car il faut trouver la fonction de croissance pour chaque nombre de points, à partir de un. De plus, pour chaque nombre de points, il existe certaines constellations de points qu'un perceptron ne peut pas générer. Néanmoins, ces limitations sont attendues car les perceptrons sont des modèles simples avec un algorithme simple.

  • 00:35:00 Dans cette section, le conférencier discute du concept de fonctions de croissance en utilisant des exemples de différents modèles comprenant des rayons positifs et des intervalles positifs. Il explique que la fonction de croissance des rayons positifs est N+1, ce qui signifie que le nombre de dichotomies dépend du nombre de segments de droite possibles entre N points. Pendant ce temps, les intervalles positifs ont une fonction de croissance plus grande car deux paramètres, le début et la fin de l'intervalle, peuvent être modifiés afin d'obtenir des dichotomies différentes.

  • 00:40:00 Dans cette section, le conférencier discute des fonctions de croissance pour des ensembles d'hypothèses avec divers degrés de complexité. Pour l'ensemble d'hypothèses le plus simple de dichotomies dans une ligne, la formule de la fonction de croissance est simplement le nombre de façons de choisir 2 segments parmi les N + 1 segments, ce qui équivaut à (N + 1) choisissez 2. Pour l'ensemble d'hypothèses suivant de régions convexes dans un plan, le professeur note que certaines régions sont invalides parce qu'elles ne sont pas convexes. La formule de la fonction de croissance pour cet ensemble nécessite un comptage plus compliqué car toutes les dichotomies ne sont pas valides. Le conférencier propose ensuite un choix optimal pour le placement des points, qui est sur le périmètre d'un cercle, afin de maximiser la fonction de croissance pour cet ensemble d'hypothèses.

  • 00:45:00 Dans cette section, le conférencier discute de la fonction de croissance pour les ensembles convexes et comment elle n'est pas aussi puissante que la fonction de croissance pour les intervalles positifs. L'enseignant montre comment fonctionne la fonction de croissance pour chacune des hypothèses. Ils discutent également de la manière de remplacer le maximum M par un nombre fini m, qui peut être la fonction de croissance. Le conférencier conclut que si la fonction de croissance est un polynôme, alors l'apprentissage est faisable en utilisant cette hypothèse. Cependant, l'enseignant admet qu'il n'est pas facile d'évaluer explicitement la fonction de croissance.

  • 00:50:00 Dans cette section, le concept de point de rupture est introduit pour définir le point auquel un ensemble d'hypothèses ne parvient pas à obtenir toutes les dichotomies possibles. Le point de rupture correspond à la complexité de l'ensemble d'hypothèses, et si aucun ensemble de données de taille k ne peut être brisé par l'ensemble d'hypothèses, alors k est un point de rupture pour celui-ci. Le point de rupture pour le perceptron 2D s'avère être 4. Le cours couvre également les exemples de rayons positifs, d'intervalles et d'ensembles convexes pour expliquer comment trouver le point de rupture pour chaque ensemble d'hypothèses. De plus, il est établi que si un ensemble d'hypothèses n'a pas de point de rupture, alors il aura une croissance infinie.

  • 00:55:00 Dans cette section, le professeur explique le concept de la fonction de croissance et comment elle garantit un taux de croissance polynomial en N si un point de rupture existe. Avec la contrainte d'un point d'arrêt, il existe une énorme restriction combinatoire qui élimine les dichotomies possibles en masse, réduisant la fonction de croissance 2 à N sans restriction à un polynôme. Le professeur donne un exemple d'un ensemble d'hypothèses à trois points avec un point de rupture de deux, où les dichotomies sont limitées et les contrevenants sont supprimés jusqu'à ce qu'il ne reste qu'une seule dichotomie, ce qui satisfait la contrainte.

  • 01:00:00 Dans cette section, le professeur répond aux questions du public sur les fonctions cibles et hypothèses non binaires et le compromis des points de rupture. Il explique que la théorie qu'il développe est gérable pour les fonctions binaires, mais qu'il existe une contrepartie plus technique pour les fonctions à valeurs réelles, qu'il couvrira par la méthode du compromis biais-variance. En termes de points de rupture, il déclare que c'est bon pour ajuster les données mais mauvais pour la généralisation, et trouver le bon équilibre entre approximation et généralisation est la clé. De plus, il clarifie l'importance de la croissance polynomiale et comment elle garantit de petites probabilités que quelque chose de mauvais se produise.

  • 01:05:00 Dans cette section, le professeur discute d'un puzzle où 3 bits sont placés sur chaque ligne et des tentatives sont faites pour obtenir autant de lignes différentes que possible sous la contrainte que deux points ne peuvent pas être brisés. Le professeur fait l'exercice d'ajouter des lignes et de garder un œil sur toutes les combinaisons possibles pour éviter de violer la contrainte. À la fin, le professeur conclut que seuls quatre modèles possibles peuvent être obtenus sous cette contrainte, et plus de lignes ne peuvent pas être ajoutées. Cette limitation est due au fait que le nombre d'hypothèses est infini pour les perceptrons, et que la fonction de croissance est soit identiquement 2 au N soit polynomiale, sans rien entre les deux.

  • 01:10:00 Dans cette section de la conférence, le professeur discute de l'importance de trouver une fonction de croissance et pourquoi il est préférable d'utiliser 2 à la puissance N pour mesurer la probabilité de généralisation étant élevée. Le professeur explique que trouver une fonction de croissance polynomiale donnerait un côté droit gérable et conduirait à une probabilité de généralisation élevée. Le professeur répond également aux questions des étudiants sur le nombre de points de test et d'entraînement, l'erreur hors échantillon pour différentes hypothèses et pourquoi on l'appelle une fonction de croissance. Le professeur note qu'il existe différentes méthodes pour trouver une fonction de croissance, et parfois l'estimation du point de rupture sera juste une estimation et non une valeur exacte.

  • 01:15:00 Dans cette section, le professeur discute de la relation entre le point d'arrêt et la situation d'apprentissage. Il explique que l'existence du point d'arrêt signifie que l'apprentissage est faisable, tandis que la valeur du point d'arrêt nous indique les ressources nécessaires pour atteindre une certaine performance. Il évoque également les alternatives à Hoeffding et pourquoi il s'y tient. L'objectif est que les gens se familiarisent tellement avec Hoeffding qu'ils le connaissent à froid, de sorte que lorsque des modifications sont introduites, ils ne se perdent pas.