Apprentissage Automatique et Réseaux Neuronaux - page 4

 

Cours 6 - Théorie de la généralisation




Cours d'apprentissage automatique de Caltech - CS 156. Cours 06 - Théorie de la généralisation

Le cours traite de la théorie de la généralisation et de la fonction de croissance comme le nombre de dichotomies pouvant être générées par une hypothèse posée sur un ensemble de N points, le but étant de caractériser l'ensemble de la fonction de croissance et de généraliser pour tout N en caractérisant la rupture indiquer. L'orateur démontre le processus de calcul de la fonction de croissance pour différents ensembles d'hypothèses et prouve la limite supérieure de la fonction de croissance en utilisant l'identité combinatoire. La discussion aborde également l'utilisation de la fonction de croissance dans l'inégalité de Hoeffding, le VC destiné à caractériser les chevauchements entre hypothèses et l'inégalité de Vapnik-Chervonenkis, qui est polynomiale en N avec l'ordre du polynôme décidé par le point de rupture.

Le professeur aborde la théorie de la généralisation, clarifie les points précédents et explique le concept de point d'arrêt, qui sert à calculer les ressources nécessaires à l'apprentissage. L'accent de l'apprentissage est mis sur l'approximation de E_out, et non de E_in, ce qui permet à l'apprenant de travailler avec des quantités familières. Le professeur explique également le raisonnement derrière le remplacement de M par la fonction de croissance et comment cela est lié à la quantité combinatoire B de N et k. Tout en discutant des fonctions de régression, le professeur met l'accent sur le compromis biais-variance et sur le fait que l'apprenabilité est indépendante de la fonction cible. Enfin, le professeur note que les mêmes principes s'appliquent à tous les types de fonctions.

  • 00:00:00 Dans cette section, nous découvrons les dichotomies en tant que mini-hypothèses limitées à un ensemble fini de points et à la fonction de croissance. La fonction de croissance compte le nombre de dichotomies pouvant être générées par un ensemble d'hypothèses sur un ensemble de N points. Le point de rupture pour les perceptrons est défini comme le point où les modèles commencent à être manqués en raison de l'utilisation d'hypothèses à partir d'un ensemble restreint. L'objectif théorique est de caractériser l'ensemble de la fonction de croissance et de généraliser pour tout N en caractérisant le point de rupture. Nous voyons également qu'une restriction du nombre de motifs sur quelques points entraîne la perte de nombreux motifs pour un plus grand nombre de points, indépendamment de l'ensemble d'hypothèses et de l'espace d'entrée.

  • 00:05:00 Dans cette section, le conférencier discute de deux éléments : le premier montre que la fonction de croissance est polynomiale avec un point de rupture et le second démontre le remplacement de M, le nombre d'hypothèses, dans l'inégalité de Hoeffding. Le conférencier souligne qu'ils n'ont pas besoin de déterminer les particularités de la fonction de croissance, mais seulement de montrer qu'elle est bornée par un polynôme afin qu'elle puisse être utilisée dans l'inégalité de Hoeffding. L'enseignant introduit une quantité clé appelée B de N et k, qui est une quantité combinatoire qui représente le nombre maximum de dichotomies sur N points avec un point de rupture k. La borne pour B de N, k est trouvée récursivement en remplissant un tableau avec N points et en isolant le dernier point pour introduire une récursivité.

  • 00:10:00 Dans cette section, l'orateur explique comment regrouper les lignes d'une matrice qui représentent l'extension d'une séquence binaire. Le premier groupe, S_1, se compose de lignes qui n'apparaissent qu'une seule fois en fonction de l'extension. Le deuxième groupe, S_2, se compose de lignes qui apparaissent avec les deux extensions. À l'aide de ces regroupements, le locuteur définit le nombre de lignes dans le groupe S_1 comme alpha et le nombre de lignes dans le groupe S_2 comme bêta. Avec ces définitions, le locuteur est capable de trouver une récursivité pour le nombre maximum de lignes/motifs pouvant être obtenus sur N points de sorte qu'aucune colonne k n'ait tous les motifs possibles.

  • 00:15:00 Dans cette section de la conférence, l'orateur discute de la théorie de la généralisation et de la manière d'estimer le bêta. Il explique qu'en analysant la deuxième partie de la matrice S_2, qui contient des blocs de motifs répétés, il peut affirmer que ces blocs de motifs ont un point de rupture de k moins 1, et non de k. Il explique également qu'en prenant alpha plus bêta, qui est le nombre total de lignes ou de motifs dans la mini-matrice, il peut dire quelque chose sur un point de rupture pour cette petite matrice. Il termine en déclarant qu'en mettant tout cela ensemble, il peut estimer la matrice complète et son nombre de lignes.

  • 00:20:00 Dans cette section, l'orateur analyse une matrice et dérive une formule de récurrence pour résoudre une borne supérieure sur B de N et k, où B de N et k est la fonction de croissance maximale d'un ensemble d'hypothèses avec une rupture pointe de k. En calculant les valeurs de B de N et k à l'aide de la formule de récurrence, le locuteur remplit un tableau avec une borne supérieure sur B de N et k. Les conditions aux limites du tableau sont remplies en premier, puis le reste du tableau est rempli à l'aide de la formule de récurrence.

  • 00: 25: 00 Dans cette section, l'orateur discute de la théorie de la généralisation et parle d'un tableau représentant le nombre maximum de dichotomies ou de modèles étant donné un nombre spécifique de points, N, et un point de rupture, k. L'orateur explique comment le tableau est rempli et comment la contrainte peut être vide. De plus, ils présentent une formule qui calcule le nombre maximum de dichotomies ou de modèles pour être une limite supérieure pour la fonction de croissance de tout ensemble d'hypothèses qui a un point de rupture k, sans poser aucune question sur l'ensemble d'hypothèses ou l'espace d'entrée.

  • 00:30:00 Dans cette section, le conférencier discute de l'étape d'induction pour prouver un théorème sur la formule de N et k. L'étape consiste à supposer que la formule est valable pour des valeurs données de N et k, puis à prouver qu'elle est également valable pour N-1 et k-1. Le conférencier démontre le processus de manipulation des deux formules, fusionnant les sommations et les réduisant à une seule quantité en utilisant l'algèbre ou des arguments combinatoires. Le but est d'établir que la formule donnée est valable pour toutes les valeurs de N et k, ce qui inclut les valeurs supposées précédemment, et à partir de là, le théorème est prouvé.

  • 00:35:00 Dans cette section, l'orateur explique le processus de preuve de la limite supérieure pour B de N et k, la fonction de croissance pour un ensemble d'hypothèses qui a un point de rupture k, en utilisant l'identité combinatoire. Le polynôme résultant est utile car le point de rupture est un nombre fixe et ne croît pas avec N. Le locuteur illustre ensuite que la borne supérieure est polynomiale en N en montrant que la puissance maximale est N au k moins 1, qui est un constant. Enfin, l'orateur applique la borne supérieure à trois exemples d'ensembles d'hypothèses et montre qu'ils satisfont tous la borne.

  • 00:40:00 Dans cette section, le conférencier discute du calcul de la fonction de croissance pour les rayons positifs et les intervalles positifs. En utilisant le point de rupture, qui est la seule entrée requise, il est capable de trouver la fonction de croissance sans tenir compte de la géométrie de l'ensemble d'hypothèses. L'enseignant applique ensuite cette méthode au perceptron bidimensionnel, où la fonction de croissance est inconnue, mais on sait que le point de rupture est 4. En utilisant le point de rupture, il est capable de borner complètement la fonction de croissance, ce qui est important en simplifiant la caractérisation des ensembles d'hypothèses. L'enseignant explique ensuite comment cette fonction de croissance peut être utilisée dans l'inégalité de Hoeffding pour remplacer le nombre d'hypothèses utilisant la borne d'union, qui est presque inutile lorsque M est significatif ou infini.

  • 00:45:00 Dans cette section, le conférencier explique la preuve picturale de la délimitation polynomiale de la fonction de croissance. L'espace des ensembles de données possibles couvre tous les axes et la zone colorée représente la mauvaise région où E_in s'écarte de E_out en raison de certains ensembles de données. En peignant cette mauvaise région en rouge et en utilisant l'inégalité de Hoeffding, le conférencier montre que la zone colorée est petite, permettant à l'union liée de revendiquer la possibilité d'hypothèses multiples. Cependant, lorsque d'autres hypothèses sont ajoutées, la zone colorée remplit le canevas, ce qui pose le problème de la limite d'union. Le conférencier explique ensuite les deux aspects nécessaires pour établir la relation entre la fonction de croissance et les recouvrements et l'approche pour que E_out se conforme à l'argument de l'échantillon fini.

  • 00:50:00 Dans cette section, le conférencier présente le VC lié comme un nouveau canevas pour caractériser les chevauchements entre les hypothèses. Il explique que la fonction de croissance est une quantité abstraite qui caractérise ces chevauchements et vous indique le nombre de dichotomies qui se comportent de la même manière. L'enseignant explique que la redondance est capturée par la fonction de croissance et que le point à colorier ne dépend pas seulement de l'échantillon mais aussi de tout l'espace. Le conférencier surmonte cela en choisissant deux échantillons au lieu d'un, qui sont générés indépendamment à partir de la même distribution, pour suivre E_out et E_in sans s'appuyer sur l'hypothèse entière.

  • 00:55:00 Dans cette section, l'orateur discute du concept de suivi entre E_in et E_in dash, qui sont deux échantillons différents, et s'ils se suivent ou non. Si plusieurs bacs sont utilisés, le lien entre E_out et E_in devient de plus en plus lâche. Ils se séparent également de manière lâche à mesure que le nombre de bacs augmente. Les ramifications mathématiques d'hypothèses multiples se produisent ici de la même manière que pour un casier. Au fur et à mesure que l'orateur passe en revue les détails techniques de la preuve, l'epsilon devient epsilon sur 2, puis devient epsilon sur 4. Lorsqu'il est branché, il obtient epsilon au carré sur 16, ce qui donne un facteur de 1/8. Le résultat obtenu est appelé l'inégalité de Vapnik-Chervonenkis, qui est polynomiale en N et dont l'ordre du polynôme est décidé par le point de rupture.

  • 01:00:00 Dans cette section de la conférence vidéo, le modérateur demande au professeur de clarifier certains points soulevés dans les diapositives précédentes. Le professeur explique que les N points choisis dans la diapositive 5 correspondent à un ensemble particulier de points dans un espace d'entrée en apprentissage automatique, mais dans l'abstraction, ce sont simplement des étiquettes abstraites. Le professeur précise également que leur utilisation d'alpha et de bêta dans la conférence n'est qu'une convention de dénomination, et il n'y a aucune affirmation sur les valeurs relatives des deux. Enfin, le professeur explique que le point de rupture est calculé en visitant l'espace d'entrée et l'ensemble d'hypothèses et en découvrant, pour un ensemble d'hypothèses donné, quel est le nombre maximum de points qui ne peuvent pas être séparés de toutes les manières possibles.

  • 01:05:00 Dans cette section, le professeur explique que pour la plupart des modèles d'apprentissage, des points de rupture exacts ou bornés ont déjà été établis, ce qui signifie que les ressources nécessaires pour apprendre peuvent être estimées avant de commencer le processus d'apprentissage. Bien qu'il puisse y avoir des cas où les bornes ne sont pas étroites, dans la plupart des cas, l'écart entre l'estimation exacte de la fonction de croissance et la borne quadratique sera négligeable. Le cours insiste sur le fait que l'accent de l'apprentissage n'est pas sur la valeur réelle de E_in, mais sur son approximation à E_out, permettant à l'apprenant de travailler avec des quantités familières. Enfin, le professeur assure l'auditoire que la dimension VC, qui est une pierre angulaire pour comprendre les théories de l'apprentissage, sera abordée en détail dans la prochaine conférence.

  • 01:10:00 Dans cette section, le professeur explique le raisonnement derrière le remplacement de M par la fonction de croissance et les modifications nécessaires pour répondre aux exigences techniques de l'énoncé. Le professeur clarifie également la définition de B de N et k, en détaillant comment il s'agit d'une borne supérieure pour toute hypothèse définie avec un point de rupture, et comment il s'agit d'une quantité purement combinatoire. Le professeur aborde ensuite une question concernant la preuve de B de N et k, déclarant que k ne change pas lors de la réduction de x_N à x_N-1 car aucune colonne k du plus petit ensemble ne peut avoir tous les motifs possibles. Enfin, le professeur note que l'analyse et l'analyse VC sont applicables aux fonctions binaires, bien qu'elles puissent être étendues aux fonctions à valeurs réelles.

  • 01:15:00 Dans cette section, le professeur explique comment, au lieu d'entrer dans des extensions techniques sur l'apprentissage, il préfère utiliser une approche différente, le compromis biais-variance, lorsqu'il discute des fonctions de régression. Il précise également que l'apprenabilité est prouvée sous des conditions relatives à l'ensemble d'hypothèses et qu'elle est indépendante de la fonction cible. Il poursuit en expliquant que la question de généralisation ne dépend pas de la fonction cible, mais la question de savoir si E_in peut être minimisé pour rendre l'utilisateur heureux dépend de la fonction cible. Enfin, le professeur précise que les mêmes principes s'appliquent quel que soit le type de fonction.
 

Cours 07 - La dimension VC




Cours d'apprentissage automatique de Caltech - CS 156. Cours 07 - La dimension VC

La conférence introduit le concept de dimension VC, qui est le nombre maximum de points qui peuvent être brisés par un ensemble d'hypothèses, et explique ses applications pratiques. La dimension VC représente les degrés de liberté d'un modèle, et sa relation avec le nombre de paramètres dans un modèle est discutée. Des exemples sont donnés pour montrer comment calculer la dimension VC pour différents ensembles d'hypothèses. La relation entre le nombre d'exemples nécessaires et la dimension CV est explorée, et il est noté qu'il existe une relation proportionnelle entre les deux. Les implications de l'augmentation de la dimension VC sur les performances d'un algorithme d'apprentissage sont également discutées. Dans l'ensemble, la conférence donne un aperçu de la théorie du VC et de ses implications pratiques pour l'apprentissage automatique.

La vidéo couvre également le concept de généralisation et la limite de généralisation, qui est une déclaration positive qui montre le compromis entre la taille de l'ensemble d'hypothèses et une bonne généralisation dans l'apprentissage automatique. Le professeur explique la dimension VC, qui est la plus grande valeur avant le premier point de rupture, et comment elle peut être utilisée pour approximer le nombre d'exemples nécessaires. Il note l'importance de choisir la bonne mesure d'erreur et précise que l'estimation de la dimension VC est une estimation lâche qui peut être utilisée pour comparer des modèles et estimer le nombre d'exemples nécessaires. La conférence se termine en soulignant les points communs entre ce matériel et le sujet de la conception d'expériences et comment les principes d'apprentissage s'étendent à d'autres situations au-delà des scénarios d'apprentissage stricts.

  • 00:00:00 Dans cette section, le conférencier résume le principal résultat du cours précédent en théorie de l'apprentissage, qui est l'inégalité VC (Vapnik-Chervonenkis), qui caractérise la généralisation en apprentissage automatique. La fonction de croissance, qui caractérise la redondance nécessaire pour passer de l'inégalité de Hoeffding à l'inégalité VC, a été introduite et liée aux mauvais événements avec des régions qui se chevauchent. Le problème technique avec E_out a été résolu et la fonction de croissance a été utilisée pour remplacer le nombre d'hypothèses M. La dimension VC, qui est liée au point de rupture, est alors définie et calculée exactement pour les perceptrons dans un espace à n'importe quelle dimension. L'interprétation de la dimension CV et ses applications pratiques sont également discutées.

  • 00:05:00 Dans cette section, le concept de dimension VC est présenté comme le nombre maximum de points pouvant être brisés par un ensemble d'hypothèses. La dimension VC est notée d_VC et est la plus grande valeur de N telle que la fonction de croissance est de 2 au N. Il est important de noter que la dimension VC ne garantit pas que tous les N points peuvent être brisés, mais seulement qu'il existe N points qui peuvent être brisés. La section fournit des exemples, tels que les rayons positifs et les perceptrons 2D, pour montrer comment calculer la dimension VC pour un ensemble d'hypothèses donné. La dimension VC est utilisée pour délimiter la fonction de croissance d'un ensemble d'hypothèses, et elle sert d'ordre du polynôme qui délimite la fonction de croissance.

  • 00:10:00 Dans cette section, l'accent est mis sur la dimension VC des ensembles convexes et sa relation avec l'apprentissage. La dimension VC représente le nombre maximum de points qui peuvent être brisés par un ensemble d'hypothèses. Si la dimension VC est finie, l'hypothèse finale se généralisera, quelle que soit la distribution d'entrée ou l'algorithme d'apprentissage utilisé. Le diagramme d'apprentissage, qui comprend la fonction cible, l'algorithme d'apprentissage et la distribution des entrées, montre que la théorie VC est indépendante de l'algorithme d'apprentissage et de la fonction cible, et ne dépend que de l'ensemble d'hypothèses. Dans l'ensemble, il y a trois blocs dans la théorie VC : l'hypothèse, l'ensemble d'hypothèses et la dimension VC.

  • 00:15:00 Dans cette section, nous apprenons la dimension VC des perceptrons, qui est l'ensemble d'hypothèses dont traite toute la théorie VC, puisque c'est l'ensemble qui a la dimension VC et nous dit si nous sommes capables de généraliser . Bien que la dimension VC des perceptrons dans l'espace bidimensionnel soit trois, une formule simple indique que dans l'espace d-dimensionnel, la dimension VC est d plus un. Ceci est important pour comprendre la signification de la dimension VC, et nous le prouverons en montrant que la dimension VC est au plus d plus un et au moins d plus un. Pour démontrer, nous allons construire un ensemble spécifique de N points (N étant d plus un) en utilisant une matrice à éclater, tant qu'il est possible de les éclater.

  • 00:20:00 Dans cette section, le conférencier montre un ensemble spécifique de points d plus 1 et démontre qu'ils peuvent être brisés à l'aide d'une matrice inversible. Il pose ensuite une question au public sur la dimension VC et leur demande de choisir quelle conclusion ils peuvent tirer sur la base des résultats de la démonstration. La bonne réponse est b, qui indique que la dimension VC est supérieure ou égale à d plus 1.

  • 00:25:00 Dans cette section, le professeur explique comment prouver que la dimension VC est au plus d plus 1. Il demande au public laquelle de plusieurs déclarations établirait la prémisse et ils répondent par "d". Le professeur explique ensuite qu'il doit montrer qu'il existe un ensemble de points d plus 2 qu'il ne peut briser, en montrant que pour un ensemble de points d plus 2, il y aura toujours un point qui est une combinaison linéaire des autres. Il construit donc une dichotomie dont il montre qu'elle ne peut être mise en œuvre avec un perceptron.

  • 00:30:00 Dans cette section de la vidéo, l'orateur explique le concept de dichotomie dans un perceptron, qui consiste essentiellement à attribuer des étiquettes +1 ou -1 à des points spécifiques. Grâce à l'utilisation de propriétés algébriques, il est démontré qu'il est impossible de briser un ensemble de points d plus 2, la dimension VC étant d plus 1. Cela est dû au nombre de paramètres dans le modèle perceptron, qui est d plus 1 , et la dimension VC donne le nombre maximum de points qui peuvent être brisés.

  • 00:35:00 Dans cette section, la conférence introduit le concept de dimension VC et son interprétation. La dimension VC est une mesure des degrés de liberté d'un modèle et de sa relation avec le nombre de paramètres dont il dispose. La conférence compare ces degrés de liberté aux boutons d'un système audio, où plus de boutons peuvent vous donner plus de contrôle sur le son, mais cela peut être difficile à utiliser efficacement. La conférence explique que la dimension VC fait abstraction des détails des mathématiques à l'intérieur d'un modèle et se concentre sur son pouvoir expressif. La conférence aborde également la correspondance entre la dimension VC et les degrés de liberté de divers modèles, tels que les rayons positifs, montrant que la dimension VC est égale à un lorsqu'il existe un degré de liberté, ce qui correspond à un modèle à un paramètre.

  • 00:40:00 Dans cette section, le conférencier discute des degrés de liberté et de leur relation avec la dimension VC dans le contexte de modèles simples. Bien que la dimension VC compte le nombre d'hypothèses pouvant être réalisées par un modèle, elle n'est pas nécessairement égale au nombre de paramètres. En construisant un exemple artificiel, l'enseignant montre que les paramètres ne contribuent pas toujours aux degrés de liberté. Au lieu de cela, les degrés de liberté effectifs peuvent être mesurés de manière plus fiable par la dimension VC, et le conférencier démontre comment un modèle avec huit paramètres peut en fait avoir la même dimension VC qu'un modèle avec seulement deux paramètres. Enfin, le conférencier note que les praticiens peuvent être intéressés par le nombre de points de données nécessaires pour un système et comment cela peut être lié à la dimension VC de l'ensemble d'hypothèses.

  • 00:45:00 Dans cette section, l'orateur discute de la relation entre le nombre d'exemples nécessaires et la valeur de la dimension VC. L'inégalité VC a deux petites quantités de performance qu'ils veulent être aussi petites que possible. L'un d'eux est E_in non loin de E_out, tandis que l'autre est delta, qui a une petite valeur. Après avoir décidé de certaines valeurs epsilon et delta, l'orateur explique comment déterminer le nombre d'exemples nécessaires pour les atteindre en regardant la fonction N à la puissance de la dimension VC fois e à la puissance -N tracée sur un graphique. La partie intéressante de la courbe est celle où la probabilité est inférieure à 1, et l'orateur explore ensuite les implications de l'augmentation de la dimension VC de 4 à 5.

  • 00:50:00 Dans cette section, le conférencier discute de la relation entre le nombre d'exemples dans un ensemble de données et la dimension VC, qui est une mesure de la complexité d'un algorithme d'apprentissage. Il utilise plusieurs graphiques pour illustrer comment les performances de l'algorithme changent à mesure que la dimension VC augmente, et souligne que le nombre d'exemples nécessaires pour atteindre un certain niveau de performance est proportionnel à la dimension VC. Cependant, il note également que si les limites de performance sont garanties pour suivre une certaine monotonie, la performance réelle peut ne pas toujours le faire, ce qui peut être une source de frustration pour les praticiens.

  • 00:55:00 Dans cette section, le conférencier discute des observations et des applications pratiques de la dimension VC. La première leçon est qu'il existe une relation proportionnelle entre la dimension VC et le nombre d'exemples nécessaires pour atteindre un certain niveau de performance. Le conférencier fournit une règle empirique selon laquelle 10 fois la dimension VC est nécessaire pour atteindre la zone de confort de l'inégalité VC où l'énoncé de probabilité est significatif. La deuxième observation pratique est que pour une vaste gamme d'epsilon et de delta raisonnables, la règle empirique est également valable. Le conférencier simplifie ensuite la formule d'inégalité VC et l'appelle la formule capital Omega, déclarant qu'elle dépend de la fonction de croissance et que plus la dimension VC augmente, plus la formule Omega s'aggrave.
  • 01:00:00 Dans cette section, l'orateur discute du concept de généralisation et comment avoir plus d'exemples peut affecter la fonction de croissance et le comportement polynomial. Il introduit l'idée de la borne de généralisation, qui est une déclaration positive au lieu de caractériser de mauvais événements. Avec une probabilité supérieure ou égale à 1 moins delta, E_in suit E_out, ce qui signifie qu'ils sont dans Omega, qui dépend du nombre d'exemples et de la dimension VC de l'ensemble d'hypothèses. Le locuteur simplifie la généralisation bornée en la réarrangeant pour montrer que E_out est borné par E_in plus Omega. Il explique comment cette borne illustre le compromis entre la taille de l'ensemble d'hypothèses et une bonne généralisation, conduisant au concept de régularisation en apprentissage automatique.

  • 01:05:00 Dans cette section, le professeur explique que la dimension VC est la plus grande valeur juste avant le premier point d'arrêt, ce qui signifie que tout point plus grand qui agit comme un point d'arrêt sera également compté. La notion de point d'arrêt recouvre de nombreuses valeurs, mais la dimension VC est la seule qui se démarque. Il précise également que lorsqu'il est question de briser les points N, les individus peuvent choisir les points à briser. Le professeur explique qu'epsilon et delta sont deux paramètres de performance d'apprentissage, où epsilon est le paramètre d'approximation qui garantit que E_in suit E_out, tandis que delta est la mesure de probabilité qui détermine la probabilité d'échec de l'énoncé de probabilité. Interrogé sur l'effet de la mesure d'erreur sur le nombre de points à choisir, le professeur explique que lorsqu'il s'agit de la mesure d'erreur dans un sens binaire, il n'y a pas lieu de s'inquiéter de la variance car il y a une borne supérieure, mais lorsqu'on utilise d'autres co-domaines ou mesures d'erreurs, des modifications sont nécessaires.

  • 01:10:00 Dans cette section, le professeur explique qu'il est rare d'obtenir exactement la dimension VC, mais ils connaissent la dimension exacte des perceptrons. En ce qui concerne les réseaux de neurones, l'estimation de la dimension VC ne peut pas dépasser un certain nombre en raison des redondances et des annulations. Le professeur souligne que la dimension VC liée est une estimation lâche, mais elle conserve toujours sa signification conceptuelle et peut être utilisée comme guide pour comparer les modèles et estimer le nombre d'exemples nécessaires. La règle d'or consiste à utiliser au moins 10 fois la dimension VC pour entrer dans la région intéressante de l'inégalité VC, qui dépend du niveau de précision souhaité par le client. Le professeur note qu'il existe des points communs entre ce matériel et le sujet de la conception d'expériences, et que les principes d'apprentissage s'étendent à d'autres situations au-delà des scénarios d'apprentissage stricts.
 

Cours 8 - Compromis Biais-Variance



Cours d'apprentissage automatique de Caltech - CS 156. Cours 08 - Compromis biais-variance

Le professeur discute du compromis biais-variance dans l'apprentissage automatique, expliquant comment la complexité de l'ensemble d'hypothèses affecte le compromis entre généralisation et approximation. Le conférencier introduit le concept de biais et de variance, qui mesure l'écart entre la moyenne des hypothèses produites par un algorithme d'apprentissage automatique et la fonction cible réelle, ainsi que la variation de la distribution des hypothèses d'un modèle donné en fonction de différents ensembles de données, respectivement. Le compromis se traduit par un ensemble d'hypothèses plus grand ayant un biais plus petit mais une variance plus grande, tandis qu'un ensemble d'hypothèses plus petit aura un biais plus grand mais une variance plus petite. Le conférencier souligne l'importance d'avoir suffisamment de ressources de données pour naviguer efficacement dans l'ensemble d'hypothèses et souligne la différence d'échelle entre l'analyse biais-variance et l'analyse VC.

Il discute également du compromis entre les modèles simples et complexes en termes de leur capacité à se rapprocher et à généraliser, avec moins d'exemples nécessitant des modèles simples et de plus grandes ressources d'exemples nécessitant des modèles plus complexes. L'analyse biais-variance est spécifique à la régression linéaire et suppose la connaissance de la fonction cible, la validation étant l'étalon-or pour choisir un modèle. L'apprentissage d'ensemble est discuté via Bagging, qui utilise le bootstrap pour faire la moyenne de plusieurs ensembles de données, réduisant ainsi la variance. L'équilibre entre la variance et la covariance dans l'apprentissage d'ensemble est également expliqué, et la régression linéaire est classée comme une technique d'apprentissage avec l'ajustement comme première partie de l'apprentissage, tandis que la théorie met l'accent sur de bonnes performances hors échantillon.

  • 00:00:00 Dans cette section, l'accent est mis sur le compromis biais-variance, qui est une autre approche pour comprendre la généralisation. Dans les cours précédents, l'analyse VC a établi la capacité de généralisation d'une hypothèse choisie, via la dimension VC d'un ensemble d'hypothèses. La limite VC est valable pour tout algorithme d'apprentissage, pour toutes les données d'entrée et pour toute fonction cible. Un aspect de l'analyse de CV est qu'elle fournit une mesure pratique. En traçant la probabilité d'erreur par rapport au nombre d'exemples, nous avons découvert que le nombre d'exemples nécessaires est proportionnel à la dimension VC, ou règle générale, vous avez besoin de 10 fois la dimension VC pour commencer à obtenir des propriétés de généralisation intéressantes. Enfin, nous avons résumé l'analyse VC en une borne de généralisation, que nous utiliserons dans des techniques ultérieures comme la régularisation.

  • 00:05:00 Dans cette section, le conférencier discute du compromis entre approximation et généralisation en matière d'apprentissage. L'apprentissage vise à atteindre un petit E_out, ce qui signifie que l'hypothèse se rapproche bien de la fonction cible et que cette approximation est valable hors échantillon. Cependant, le fait d'avoir un ensemble d'hypothèses plus complexe augmente les chances d'approximer correctement f mais pose un problème pour identifier l'hypothèse appropriée. Un ensemble d'hypothèses idéal pour l'apprentissage est une hypothèse singleton qui se trouve être la fonction cible. Pourtant, puisque nous ne connaissons pas la fonction cible, nous avons besoin d'un ensemble d'hypothèses suffisamment grand pour avoir une chance. De plus, le conférencier explique comment l'analyse biais-variance décompose également E_out, tandis que l'analyse VC met l'accent sur la quantification du compromis.

  • 00:10:00 Dans cette section, l'orateur présente le compromis biais-variance et son lien avec les fonctions à valeurs réelles et la régression à l'aide de l'erreur quadratique. L'objectif est de décomposer l'erreur hors échantillon en deux composantes conceptuelles : approximation et généralisation. Pour ce faire, le locuteur utilise la valeur attendue de l'erreur par rapport à un ensemble de données particulier puisque l'hypothèse finale dépend de l'ensemble de données utilisé, mais vise à supprimer la dépendance en intégrant l'ensemble de données. Le résultat est un moyen d'analyser le comportement général de l'erreur lorsqu'on lui donne un nombre spécifique de points de données avec lesquels travailler.

  • 00:15:00 Dans cette section, le conférencier explique comment calculer les valeurs attendues d'un comportement par rapport à toutes les réalisations possibles de 100 exemples. En inversant l'ordre d'intégration et en se débarrassant d'une attente, l'enseignant arrive à une décomposition nette. L'étape suivante consiste à dériver une hypothèse moyenne en obtenant la valeur attendue de toutes les hypothèses possibles. Bien qu'il s'agisse certainement d'une tâche impossible, elle fournit un outil conceptuel d'analyse. Comprendre l'utilité technique de la barre g devient important lors de l'expansion de l'expression supérieure pour obtenir un terme linéaire qui nécessite finalement la définition de la barre g.

  • 00:20:00 Dans cette section, le conférencier décompose une quantité en deux étapes qui déterminent dans quelle mesure l'hypothèse qu'un algorithme d'apprentissage automatique dérive d'un ensemble de données donné s'écarte de la fonction cible. La première étape évalue dans quelle mesure cette hypothèse s'écarte de la meilleure hypothèse que l'algorithme peut produire compte tenu de l'ensemble de données donné, tandis que la deuxième étape évalue dans quelle mesure cette meilleure hypothèse s'écarte de la fonction cible réelle. L'enseignant arrive à deux quantités, le biais et la variance, pour dénoter ces deux étapes. Le biais mesure l'écart entre la moyenne des hypothèses produites par un algorithme d'apprentissage automatique et la fonction cible réelle, qui définit fini pour l'ensemble d'hypothèses de l'algorithme. Pendant ce temps, la variance mesure à quel point la distribution des hypothèses d'un modèle donné varie en fonction de différents ensembles de données.

  • 00:25:00 Dans cette section, le professeur discute du compromis biais-variance dans l'apprentissage automatique. Il explique que le biais est la limitation de l'ensemble d'hypothèses et que la variance est la différence de résultat lors de l'utilisation de différents ensembles de données. Il montre ensuite comment il existe un compromis entre la généralisation et l'approximation lors de la modification de la taille de l'ensemble d'hypothèses, et illustre cette idée par une comparaison d'un petit et d'un grand ensemble d'hypothèses. Il soutient qu'un ensemble d'hypothèses plus grand aura un biais plus petit mais une variance plus grande, tandis qu'un ensemble d'hypothèses plus petit aura un biais plus grand mais une variance plus petite.

  • 00:30:00 Dans cette section, l'orateur introduit le concept de compromis biais-variance, où le biais diminue et la variance augmente à mesure que l'ensemble d'hypothèses devient plus grand. Pour comprendre cela, l'orateur donne un exemple concret où la fonction cible est une sinusoïde, et deux ensembles d'hypothèses différents sont donnés : un modèle constant et un modèle linéaire. L'orateur montre alors que le modèle linéaire donne une meilleure approximation de la sinusoïde, mais avec quelques erreurs. Ceci n'est pas une situation d'apprentissage mais illustre le compromis entre biais et variance dans l'approximation de la fonction cible, ouvrant la voie à des problèmes d'apprentissage plus complexes.

  • 00:35:00 Dans cette section, le conférencier explique le compromis biais-variance dans l'apprentissage automatique. Il utilise l'exemple de l'ajustement d'une ligne à deux points, d'abord pour se rapprocher d'une fonction cible, et ensuite pour apprendre à partir d'exemples. L'analyse biais-variance est nécessaire pour évaluer les performances d'un modèle, quels que soient les deux points utilisés, et pour surmonter les difficultés liées à la dépendance à l'ensemble de données. Le conférencier génère ensuite des ensembles de données de taille deux points, leur associe une ligne et montre que l'erreur hors échantillon attendue est principalement la somme du biais et de la variance. La ligne verte très claire, barre g de x, est l'hypothèse moyenne qu'il obtient en répétant ce jeu. Pourtant, ce n'est pas le résultat du processus d'apprentissage car différents ensembles de données donneront des estimations différentes.

  • 00:40:00 Dans cette section de la vidéo, le concept de compromis biais-variance est abordé dans le contexte de l'apprentissage automatique. La variance est calculée comme l'écart type de la sortie du processus d'apprentissage, tandis que le biais est l'erreur entre la sortie prédite et la fonction cible. Le compromis entre biais et variance est démontré à l'aide de deux modèles, l'un avec un petit biais et une grande variance et l'autre avec un grand biais et une petite variance. Il est entendu que dans une situation d'apprentissage, la complexité du modèle doit être adaptée aux ressources de données disponibles plutôt qu'à la complexité cible.

  • 00:45:00 Dans cette section, l'orateur discute du compromis biais-variance dans l'apprentissage et introduit le concept de courbes d'apprentissage. Les courbes d'apprentissage tracent les valeurs attendues de E_out (erreur hors échantillon) et E_in (erreur dans l'échantillon) en fonction de N, la taille de l'ensemble de données. Lorsque N augmente, l'erreur hors échantillon diminue généralement, mais cette tendance peut être influencée par la complexité du modèle utilisé. L'orateur souligne l'importance d'avoir suffisamment de ressources de données pour naviguer efficacement dans l'ensemble d'hypothèses, et note que les données bruyantes peuvent rendre cette navigation encore plus difficile. Les courbes d'apprentissage fournissent une représentation visuelle du compromis biais-variance et de son évolution avec l'augmentation de N.

  • 00:50:00 Dans cette section, le conférencier discute de la relation entre l'analyse biais-variance et l'analyse VC à l'aide de courbes d'apprentissage. Il explique que les deux théories discutent d'approximation et prennent en considération ce qui se passe en termes de généralisation. L'enseignant souligne la différence d'échelle entre les deux théories et mentionne que le biais dépend de l'hypothèse posée. Enfin, le conférencier couvre brièvement l'analyse du cas de régression linéaire et le recommande comme un bon exercice pour mieux comprendre la régression linéaire.

  • 00:55:00 Dans cette section, l'instructeur décrit le modèle d'erreur dans l'échantillon et le modèle d'erreur hors échantillon, en particulier à l'aide des courbes d'apprentissage. L'instructeur utilise la régression linéaire et le bruit pour illustrer une formule simple pour l'erreur attendue dans l'échantillon : c'est presque parfait, et vous faites mieux que parfait par le rapport de d plus 1. L'instructeur met l'accent sur une courbe très spécifique, qui montre que plus vous avez de points de données, moins le bruit aura d'impact sur le taux d'erreur. Cependant, lorsque vous surajustez les données de l'échantillon, vous finissez par ajuster le bruit, et cela vous nuira au lieu de vous aider à long terme.

  • 01:00:00 Dans cette section, le professeur parle du compromis entre les modèles simples et complexes et de leur capacité à se rapprocher et à généraliser. Alors que les modèles complexes peuvent mieux se rapprocher de la fonction cible et des exemples de formation, les modèles simples sont meilleurs en termes de capacité de généralisation. En effet, il existe un compromis entre les deux et la somme des deux quantités peut aller dans les deux sens. La clé est de faire correspondre la complexité du modèle aux ressources de données disponibles. Moins d'exemples signifie que des modèles simples doivent être utilisés, tandis que de plus grandes ressources d'exemples nécessitent des modèles complexes pour de meilleures performances. L'erreur de généralisation attendue peut être trouvée à l'aide de la formule, qui est la dimension VC divisée par le nombre d'exemples.

  • 01:05:00 Dans cette section, le professeur explique comment l'analyse biais-variance est spécifique à la régression linéaire et comment elle suppose que vous connaissez la fonction cible. Bien qu'il s'agisse d'un guide utile et qu'il puisse être utilisé pour comprendre comment affecter à la fois le biais et la variance, ce n'est pas quelque chose qui peut être branché pour vous dire quel est le modèle. Il mentionne également que l'étalon-or pour choisir un modèle passe par la validation, qui comprend des méthodes d'ensemble comme le boosting. Le professeur introduit ensuite brièvement l'idée de la barre g comme outil théorique d'analyse, mais note que ce n'est pas l'objet de cette conférence.

  • 01:10:00 Dans cette section, le professeur parle de l'apprentissage d'ensemble par Bagging, qui est le processus d'utilisation d'un ensemble de données pour générer un grand nombre d'ensembles de données différents en les amorçant et en les faisant la moyenne. Cela donne un certain dividende sur l'apprentissage d'ensemble et peut aider à réduire la variance en faisant la moyenne de beaucoup de choses. Le modérateur demande alors si le biais-variance apparaît toujours à travers l'approche bayésienne. Le professeur explique que bien que l'approche bayésienne fasse certaines hypothèses, le biais-variance existe toujours. Enfin, il parle de la relation de l'approximation de la fonction numérique avec l'extrapolation en apprentissage automatique et du dilemme biais-variance covariance.

  • 01:15:00 Dans cette section du cours, le professeur discute de l'équilibre entre la variance et la covariance dans le contexte de l'apprentissage d'ensemble. Il explique que dans l'analyse biais-variance, il avait le luxe de choisir des ensembles de données générés indépendamment, de générer des modèles indépendants, puis de les moyenner. Cependant, dans la pratique, lors de la construction de modèles basés sur des variations de l'ensemble de données, la covariance entre les modèles commence à jouer un rôle. Plus tard, lorsqu'on lui a demandé si la régression linéaire est une technique d'apprentissage ou simplement une approximation de fonction, le professeur déclare que la régression linéaire est une technique d'apprentissage et que l'ajustement est la première partie de l'apprentissage. L'élément supplémentaire est de s'assurer que le modèle fonctionne bien hors échantillon, ce qui est l'objet de la théorie.
 

Cours 9 - Le modèle linéaire II



Cours d'apprentissage automatique de Caltech - CS 156. Cours 09 - Le modèle linéaire II

Cette conférence couvre divers aspects du modèle linéaire, y compris la décomposition biais-variance, les courbes d'apprentissage et les techniques pour les modèles linéaires tels que les perceptrons, la régression linéaire et la régression logistique. L'orateur met l'accent sur le compromis entre complexité et performance de généralisation, mettant en garde contre le surajustement et soulignant l'importance de charger correctement la dimension VC de l'espace des hypothèses pour des garanties valides. L'utilisation de transformées non linéaires et leur impact sur le comportement de généralisation sont également discutés. Le cours couvre en outre la fonction logistique et ses applications dans l'estimation des probabilités, et introduit les concepts de vraisemblance et de mesures d'erreur d'entropie croisée dans le contexte de la régression logistique. Enfin, des méthodes itératives d'optimisation de la fonction d'erreur, telles que la descente de gradient, sont expliquées.

La conférence couvre également une gamme de sujets liés aux modèles linéaires et aux algorithmes d'optimisation dans l'apprentissage automatique. Le professeur explique le compromis entre le taux d'apprentissage et la vitesse dans l'optimisation de la descente de gradient, présente l'algorithme de régression logistique et discute de ses mesures d'erreur et de son algorithme d'apprentissage. Les défis de la terminaison en descente de gradient et de la classification multi-classes sont également abordés. Le rôle de la dérivation et de la sélection de caractéristiques dans l'apprentissage automatique est souligné et discuté comme un art dans les domaines d'application, chargé en termes de dimension VC. Dans l'ensemble, cette conférence fournit un aperçu complet des modèles linéaires et des algorithmes d'optimisation pour l'apprentissage automatique.

  • 00:00:00 Dans cette section, Yaser Abu-Mostafa discute de la décomposition biais-variance dans l'erreur hors échantillon et illustre comment elle se compense avec l'ensemble d'hypothèses. Il explique également les courbes d'apprentissage, qui décrivent l'erreur de généralisation, et comment le nombre d'exemples, proportionnel à la dimension VC, déterminera les propriétés de généralisation. Des techniques pour les modèles linéaires sont également discutées.

  • 00:05:00 Dans cette section de la conférence, l'orateur récapitule brièvement le modèle linéaire en termes de classification linéaire et de régression linéaire, qui ont été couverts dans les conférences précédentes, puis passe au troisième type de modèle linéaire - la régression logistique. Avant de commencer la régression logistique, l'orateur règle les détails en termes de transformations non linéaires et de problèmes de généralisation. Les transformations non linéaires offrent une plate-forme pour appliquer des algorithmes d'apprentissage dans l'espace Z (espace des caractéristiques), l'hypothèse finale résidant toujours dans l'espace X (espace d'entrée). Dans le cas des transformées non linéaires, l'orateur souligne que les problèmes de généralisation ont été laissés de côté et qu'il fournira la pièce manquante dans le cours.

  • 00:10:00 Dans cette section, le conférencier discute du prix à payer pour effectuer des transformations non linéaires en ce qui concerne le comportement de généralisation dans l'espace X. En utilisant le modèle linéaire dans l'espace X, vous pouvez obtenir un vecteur de poids de d+1 paramètres libres. Cependant, la dimension VC dans l'espace des caractéristiques peut potentiellement être beaucoup plus grande que celle de l'espace X. Si la dimension VC est trop grande, alors bien qu'il soit possible d'ajuster le polynôme d'ordre 17, il n'y a aucune chance réelle de généralisation. Deux cas sont discutés où le premier cas est presque linéairement séparable, et le second cas est véritablement non linéaire. Pour que E_in soit nul, il faut aller dans un espace de grande dimension, ce qui devient problématique car il n'y a que deux points à classer.

  • 00:15:00 Dans cette section du cours, l'instructeur discute du compromis approximation-généralisation lorsqu'il s'agit de modèles linéaires. Il explique comment l'utilisation d'un modèle plus complexe, comme une surface de quatrième ordre, peut mieux approximer les données, mais peut ne pas bien généraliser. Il mentionne également l'idée d'utiliser une transformation vers un espace non linéaire, mais met en garde contre la recherche d'une réduction du nombre de paramètres. L'instructeur explique qu'il est important de charger la dimension VC de tout l'espace d'hypothèse exploré dans l'esprit pour que la garantie fournie par l'inégalité VC soit valide.

  • 00:20:00 Dans cette section, la discussion est centrée sur les dangers de l'espionnage des données lors du choix d'un modèle avant d'examiner les données. Il est souligné que cette pratique peut conduire à un ensemble d'hypothèses contaminé, ce qui signifie que les données ne sont plus fiables pour refléter les performances réelles. Le concept de régression logistique est introduit, ainsi que son modèle unique, sa mesure d'erreur et son algorithme d'apprentissage. Ce modèle linéaire est considéré comme un complément significatif aux modèles de perceptron et de régression linéaire discutés précédemment, et fournit un exemple utile des complexités et des variations qui existent dans l'apprentissage automatique.

  • 00:25:00 Dans cette section, le conférencier discute du modèle linéaire et des différentes façons dont il peut être utilisé, comme les perceptrons, la régression linéaire et la régression logistique. Pour la classification linéaire, l'hypothèse est une décision de +1 ou -1, qui est un seuillage direct du signal. Dans le cas de la régression linéaire, la sortie est identique à l'entrée, tandis que la régression logistique applique une non-linéarité appelée fonction logistique au signal, qui est interprétée comme une probabilité que quelque chose se produise. Le conférencier explique la forme de la fonction logistique et ses applications dans l'estimation des probabilités pour divers problèmes, tels que les demandes de cartes de crédit.

  • 00:30:00 Dans cette section, le concept de seuil souple ou sigmoïde est introduit dans le contexte de la fonction logistique. Cette fonction prend un signal linéaire en entrée et génère une probabilité. Il est particulièrement utile pour prédire des résultats tels que le risque de crise cardiaque, où plusieurs facteurs contribuent à la probabilité qu'un événement se produise. La sortie de la régression logistique est traitée comme une véritable probabilité pendant le processus d'apprentissage, même si les données d'entrée ne fournissent pas directement cette information.

  • 00:35:00 Dans cette section, nous discutons de l'apprentissage supervisé dans les données médicales et de la manière de générer un modèle qui se rapproche d'une fonction cible cachée. Les exemples sont donnés sous forme de sortie binaire, qui est affectée par une probabilité, ce qui en fait un cas bruyant. La cible va de l'espace euclidien de dimension d à 0,1 avec une interprétation probabiliste, f de x. L'hypothèse g de x est trouvée en trouvant les poids et en les produisant par points avec x. L'objectif est de choisir les poids de manière à ce que l'hypothèse de régression logistique reflète la fonction cible à l'aide d'une mesure d'erreur construite par vraisemblance qui soit à la fois plausible et conviviale pour l'optimiseur. La mesure d'erreur classe différentes hypothèses en fonction de la probabilité qu'elles soient réellement la cible qui a généré les données.

  • 00:40:00 Dans cette section de la conférence, l'orateur discute de l'utilisation de la vraisemblance et de la controverse autour de son application. Il explique que l'utilisation de la vraisemblance consiste à trouver l'hypothèse la plus plausible compte tenu des données. Cependant, ce n'est pas un processus complètement propre car la probabilité n'est pas la probabilité requise. L'orateur introduit ensuite une formule de vraisemblance et explique comment elle peut être utilisée pour dériver une mesure d'erreur à part entière. La formule est ensuite utilisée pour trouver la vraisemblance d'un ensemble de données entier, qui est un produit des vraisemblances de points de données individuels. Il conclut qu'il y aura toujours un compromis lors du choix d'une hypothèse, car favoriser un exemple peut gâcher les autres.

  • 00:45:00 Dans cette section de la conférence, l'orateur explique comment maximiser la vraisemblance d'une hypothèse sous un ensemble de données peut conduire à minimiser la mesure d'erreur. Prendre le logarithme naturel permet à la maximisation de devenir une minimisation, ce qui se traduit par une mesure d'erreur dans l'ensemble d'apprentissage. Après avoir simplifié la formule, le locuteur appelle la mesure d'erreur l'erreur dans l'échantillon de régression logistique, et il la définit comme la mesure d'erreur entre l'hypothèse qui dépend de w, appliquée à x_n, et la valeur donnée comme étiquette pour cet exemple , qui est y_n. L'orateur discute également de l'interprétation intéressante du score de risque, qui identifie les personnes à risque d'infarctus en fonction du signe de w transposé x_n.

  • 00:50:00 Dans cette section, la mesure d'erreur d'entropie croisée est présentée comme un moyen de mesurer la précision des prédictions binaires. L'objectif est de minimiser cette mesure d'erreur afin d'améliorer les prédictions du modèle. Cependant, contrairement à la régression linéaire, il n'y a pas de solution de forme fermée pour minimiser la mesure d'erreur pour la régression logistique. Au lieu de cela, une solution itérative est nécessaire, qui sera obtenue par la méthode de descente de gradient. Cette méthode consiste à faire un pas le long de la pente la plus raide de la surface et à répéter jusqu'à ce que le minimum soit atteint. La convexité de la mesure d'erreur pour la régression logistique fait de la descente de gradient un bon choix pour l'optimisation.

  • 00:55:00 Dans cette section du cours, le professeur discute des méthodes itératives utilisées pour trouver la valeur minimale de la fonction d'erreur dans le modèle linéaire. Il explique que ces méthodes impliquent de se déplacer le long de la surface par petites étapes et de faire des approximations locales en utilisant le calcul, en particulier les séries de Taylor. Il introduit ensuite le concept de descente de gradient, où le poids suivant est déterminé par le poids actuel plus le mouvement dans une direction spécifique, qui est déterminée en résolvant le vecteur unitaire dans la direction de la descente la plus raide. Le professeur poursuit en expliquant comment la direction qui atteint la valeur la plus négative pour le produit interne entre un vecteur et un vecteur unitaire est choisie comme direction du mouvement.

  • 01:00:00 Dans cette section, le conférencier discute du compromis entre la taille du pas, ou le taux d'apprentissage, dans l'optimisation de la descente de gradient. Faire de très petits pas finira par atteindre le minimum, mais cela prendrait une éternité, tandis que faire de plus grands pas serait plus rapide mais n'appliquerait peut-être pas d'approximation linéaire. Après analyse des graphiques, le meilleur compromis est d'avoir dans un premier temps un taux d'apprentissage important pour profiter des fortes pentes et devenir plus prudent lorsqu'on se rapproche du minimum pour éviter les dépassements. L'enseignant présente ensuite la formule d'un taux d'apprentissage fixe, où le taux d'apprentissage est proportionnel à la taille du gradient. L'algorithme de régression logistique est ensuite introduit, où le gradient est calculé à l'aide de la formule d'erreur dans l'échantillon, et le poids suivant est obtenu en soustrayant le taux d'apprentissage multiplié par le gradient du poids actuel. Enfin, les trois modèles linéaires, perceptron, régression linéaire et régression logistique, sont résumés dans une diapositive et appliqués au domaine du crédit.

  • 01:05:00 Dans cette section, le professeur discute des différents types de modèles linéaires qui peuvent être mis en œuvre dans l'analyse de crédit et des mesures d'erreur correspondantes et des algorithmes d'apprentissage utilisés. Par exemple, le perceptron est utilisé pour la classification binaire et la régression logistique est utilisée pour calculer la probabilité de défaut. Différentes mesures d'erreur ont été utilisées pour chaque modèle, telles que l'erreur de classification binaire pour le perceptron et l'erreur d'entropie croisée pour la régression logistique. L'algorithme d'apprentissage utilisé dépendait de la mesure d'erreur choisie, comme l'algorithme d'apprentissage du perceptron pour l'erreur de classification et la descente de gradient pour l'erreur d'entropie croisée. Enfin, le professeur discute brièvement des critères de terminaison et des problèmes qui surviennent avec la terminaison en descente de gradient, car une terminaison correctement analysée est un peu délicate en raison de nombreuses inconnues dans la surface d'erreur.

  • 01:10:00 Dans cette section, l'orateur explique que la descente de gradient est un algorithme d'optimisation efficace mais pas infaillible. Si la surface que l'algorithme d'optimisation essaie de parcourir comporte plusieurs minima locaux, l'algorithme peut ne trouver qu'un minimum local au lieu d'un minimum global qui donne le meilleur résultat. L'orateur suggère d'utiliser une combinaison de critères pour terminer l'algorithme d'optimisation et note que le gradient conjugué est une alternative valable à la descente de gradient. L'orateur suggère que si les minima locaux deviennent un véritable problème dans une application, il existe de nombreuses approches dans le domaine de l'optimisation pour résoudre ce problème.

  • 01:15:00 Dans cette section, le professeur explique le concept d'entropie croisée, qui est un moyen d'obtenir une relation entre deux distributions de probabilité en utilisant des valeurs logarithmiques et attendues. Le professeur discute également des limites de la recherche binaire et des méthodes d'optimisation du second ordre, soulignant que si des méthodes plus sophistiquées peuvent conduire à de meilleurs résultats, elles peuvent être trop coûteuses en termes de cycles CPU. Enfin, en réponse à une question, le professeur confirme que la régression logistique peut s'appliquer à un contexte multi-classes, comme le montre l'exemple de la reconnaissance des chiffres.

  • 01:20:00 Dans cette section de la conférence, le professeur discute de diverses méthodes de classification multi-classes, y compris la régression ordinale et les décisions binaires basées sur des arbres. Le professeur introduit également l'utilisation de la fonction tanh, qui sera utilisée comme fonction neuronale dans les réseaux de neurones. Le concept de taux d'apprentissage est également discuté, le professeur mentionnant qu'il existe des heuristiques pour les taux d'apprentissage adaptatifs qui peuvent être utilisés, et une règle empirique pour choisir le taux d'apprentissage est présentée. De plus, la distinction entre les fonctionnalités significatives et les fonctionnalités dérivées de l'examen de l'ensemble de données spécifique est faite, les premières étant moins susceptibles de perdre la garantie VC.

  • 01:25:00 Dans cette section, le professeur discute du processus de dérivation des fonctionnalités dans l'apprentissage automatique et souligne qu'il s'agit d'un art qui dépend du domaine d'application. Bien qu'il soit possible de dériver des caractéristiques basées sur les données, l'ensemble d'hypothèses final déterminera toujours le comportement de généralisation. Le professeur note également que la sélection de caractéristiques se fait automatiquement dans l'apprentissage automatique, mais elle fait partie de l'apprentissage et est facturée en termes de dimension VC. Le sujet de la sélection des fonctionnalités sera abordé plus en détail dans la future conférence sur les réseaux de neurones et les couches cachées.
 

Cours 10 - Réseaux de neurones



Cours d'apprentissage automatique de Caltech - CS 156. Cours 10 - Réseaux de neurones

Yaser Abu-Mostafa, professeur au California Institute of Technology, discute de la régression logistique et des réseaux de neurones dans cette conférence. La régression logistique est un modèle linéaire qui calcule une interprétation probabiliste d'une fonction à valeur réelle bornée. Il est incapable d'optimiser directement sa mesure d'erreur, de sorte que la méthode de descente de gradient est introduite pour minimiser une fonction non linéaire arbitraire qui est suffisamment lisse et deux fois différentiable. Bien qu'il n'y ait pas de solution de forme fermée, la mesure d'erreur est une fonction convexe, ce qui la rend relativement facile à optimiser à l'aide de la descente de gradient.

La descente de gradient stochastique est une extension de la descente de gradient utilisée dans les réseaux de neurones. Les réseaux de neurones sont un modèle qui implémente une hypothèse motivée par un point de vue biologique et liée aux perceptrons. L'algorithme de rétropropagation est un algorithme efficace qui accompagne les réseaux de neurones et rend le modèle particulièrement pratique. Le modèle a un lien biologique qui a excité les gens et était facile à mettre en œuvre à l'aide de l'algorithme. Bien qu'il ne s'agisse pas du modèle de choix de nos jours, les réseaux de neurones ont réussi dans les applications pratiques et sont toujours utilisés comme norme dans de nombreuses industries, telles que la banque et l'approbation de crédit.

Bref résumé:

  • La régression logistique est un modèle linéaire qui calcule une interprétation probabiliste d'une fonction à valeur réelle bornée ;
  • La méthode de descente de gradient est introduite pour optimiser la régression logistique, mais elle est incapable d'optimiser directement sa mesure d'erreur ;
  • La descente de gradient stochastique est une extension de la descente de gradient utilisée dans les réseaux de neurones ;
  • Les réseaux de neurones sont un modèle qui implémente une hypothèse motivée par un point de vue biologique et liée aux perceptrons ;
  • L'algorithme de rétropropagation est un algorithme efficace qui accompagne les réseaux de neurones et rend le modèle particulièrement pratique ;
  • Bien que les réseaux de neurones ne soient pas le modèle de choix de nos jours, ils sont toujours utilisés comme norme dans de nombreuses industries, telles que la banque et l'approbation de crédit.
 

Cours 11 - Sur-ajustement



Cours d'apprentissage automatique de Caltech - CS 156. Cours 11 - Surajustement

Cette conférence présente le concept et l'importance du surajustement dans l'apprentissage automatique. Le surajustement se produit lorsqu'un modèle est formé sur le bruit au lieu du signal, ce qui entraîne un mauvais ajustement hors échantillon. La conférence comprend diverses expériences pour illustrer les effets de différents paramètres, tels que le niveau de bruit et la complexité de la cible, sur le surajustement. L'enseignant insiste sur l'importance d'une détection précoce du surapprentissage et sur l'utilisation de techniques de régularisation et de validation pour le prévenir. L'impact du bruit déterministe et stochastique sur le surajustement est également discuté, et la conférence se termine en introduisant les deux prochaines conférences sur la manière d'éviter le surajustement par la régularisation et la validation.

Le concept de surajustement est discuté et l'importance de la régularisation pour le prévenir est soulignée. Le professeur met en évidence le compromis entre le surajustement et le sous-ajustement et explique le rôle de la dimension VC dans le surajustement, où l'écart dans la dimension VC étant donné le même nombre d'exemples entraîne des écarts dans l'erreur hors échantillon et dans l'échantillon. La question pratique de la validation d'un modèle et de son impact sur le surajustement et la sélection du modèle est également abordée. De plus, le professeur souligne le rôle des fonctions linéaires par morceaux dans la prévention du surajustement et souligne l'importance de considérer le nombre de degrés de liberté dans le modèle et de le restreindre par la régularisation.

  • 00:00:00 Dans cette section, le conférencier présente le sujet du surapprentissage dans l'apprentissage automatique et son importance, notant que la capacité à gérer le surapprentissage sépare les professionnels des amateurs dans le domaine. Le principal responsable du sur-ajustement est identifié comme étant le bruit, et le conférencier introduit le concept de régularisation et de validation en tant que techniques pour faire face au sur-ajustement. La section sert d'introduction à un nouveau sujet qui sera couvert dans les trois prochaines conférences.

  • 00:05:00 Dans cette section, le conférencier explique le concept de surajustement en montrant comment il peut se produire lors de l'ajustement d'un polynôme du 4e ordre à une fonction cible du 2e ordre avec un bruit supplémentaire. Cela se traduit par une erreur d'apprentissage nulle et un mauvais ajustement hors échantillon, ce qui est un exemple classique de surajustement, où le modèle est allé plus loin que nécessaire. Ce point est encore souligné lors de la discussion sur le surajustement dans les réseaux de neurones, car E_in diminue pendant la formation tandis que E_out reste élevé. Le conférencier note également que le surajustement est un terme comparatif, car il doit y avoir une autre situation qui est meilleure, et le surajustement peut se produire dans le même modèle.

  • 00:10:00 Dans cette section, le professeur Abu-Mostafa discute du surajustement, qui se produit lorsque E_in est abaissé, mais E_out augmente en raison de l'ajustement du bruit au lieu du signal. Il explique que la dimension VC effective augmente avec le temps, mais l'erreur de généralisation s'aggrave à mesure que le nombre de paramètres augmente. Un surajustement peut se produire lorsque deux modèles ou instances différents au sein du même modèle sont comparés. Une façon de résoudre ce problème consiste à détecter le surajustement en utilisant l'algorithme d'arrêt précoce, basé sur la validation, qui agit comme une régularisation pour éviter le surajustement. Afin d'éviter d'ajuster le bruit en cas de surajustement, il est important de le détecter tôt et de s'arrêter plutôt que de continuer à minimiser E_in.

  • 00:15:00 Dans cette section, le conférencier explique comment le surajustement peut se produire en raison de la présence de bruit dans les données. Une étude de cas est présentée avec deux modèles différents - un avec une cible bruyante d'ordre inférieur et un autre avec une cible silencieuse d'ordre élevé. Un polynôme d'ordre 2 et un polynôme d'ordre 10 sont utilisés pour ajuster les données. Pour l'ajustement de second ordre, l'erreur dans l'échantillon est de 0,05 et l'erreur hors échantillon est légèrement plus élevée. En revanche, l'ajustement de 10e ordre présente un problème, l'erreur dans l'échantillon étant inférieure à celle de l'ajustement de 2e ordre. Cependant, l'erreur hors échantillon augmente considérablement, indiquant un cas de surajustement où le bruit a été intégré au modèle.

  • 00:20:00 Dans cette section, le conférencier discute du surajustement et de la manière dont il peut se produire même dans des situations sans bruit lorsque le modèle s'adapte à un autre type de bruit. Il donne un exemple d'ajustement d'un modèle d'ordre 10 à une cible bruyante d'ordre 10 et comment cela a entraîné un surajustement. Ensuite, il montre qu'en faisant correspondre la complexité du modèle aux ressources de données plutôt qu'à la complexité cible, il peut en résulter de meilleures performances malgré un modèle plus simple. Le conférencier souligne que les problèmes de généralisation dépendent de la taille et de la qualité de l'ensemble de données, et que le simple fait de faire correspondre la complexité du modèle à la fonction cible n'est pas toujours la meilleure approche.

  • 00:25:00 Dans cette section, le concept de surajustement dans l'apprentissage automatique est exploré. La conférence utilise des courbes d'apprentissage pour démontrer comment l'erreur dans l'échantillon pour un modèle plus complexe est plus petite, mais l'erreur hors échantillon est plus grande, définissant la zone grise où se produit le surajustement. La conférence montre également une expérience avec deux apprenants, l'un choisissant un 10ème ordre et l'autre choisissant un 2ème ordre pour s'adapter à une cible d'ordre 50 sans bruit. Malgré l'absence de bruit, les deux apprenants subissent toujours un surajustement, ce qui conduit à la définition du bruit réel et à la nécessité de faire preuve de prudence dans les problèmes d'apprentissage automatique du monde réel. La conférence conclut que le surajustement se produit dans la majorité des cas, soulignant l'importance de comprendre et de résoudre ce problème.

  • 00:30:00 Dans cette section, le conférencier discute des paramètres qui affectent le surajustement, y compris le niveau de bruit, la complexité de la cible et le nombre de points de données. Pour créer des fonctions cibles intéressantes avec une grande complexité, l'enseignant utilise un ensemble standard de polynômes de Legendre avec des coefficients spécifiques qui sont orthogonaux les uns aux autres. En normalisant le signal à une énergie de 1, le conférencier peut affirmer que sigma au carré est la quantité de bruit. Lors de la génération d'instances de l'expérience, le conférencier utilise différentes combinaisons de bruit, de complexité cible et de nombre de points de données pour observer la persistance du surajustement.

  • 00:35:00 Dans cette section, le conférencier discute d'une méthode de mesure de surajustement qui compare les erreurs hors échantillon de deux modèles différents : un polynôme du 2e ordre et un polynôme du 10e ordre. La mesure est la différence entre l'erreur hors échantillon pour le modèle complexe et l'erreur hors échantillon pour le modèle simple. Si l'erreur hors échantillon du modèle complexe est plus grande, ce qui rend la mesure positive, il y a surajustement. Le conférencier montre ensuite comment la mesure de surajustement change avec différents niveaux de bruit et la complexité de la cible. À mesure que le niveau de bruit augmente et que la complexité de la cible augmente, le surajustement s'aggrave. Le conférencier note également que le surajustement est un problème important et doit être résolu.

  • 00:40:00 Dans cette section, le concept de bruit dans le surajustement est étendu au-delà du bruit conventionnel et divisé en bruit stochastique et bruit déterministe. Il est à noter que plus de données conduisent généralement à moins de surajustement, et une augmentation du bruit stochastique ou déterministe conduit à plus de surajustement. Le bruit déterministe est défini comme la partie de la fonction cible qu'un ensemble d'hypothèses ne peut pas capturer, et il est étiqueté comme bruit car un ensemble d'hypothèses ne peut pas le traiter. Le concept selon lequel quelque chose qui ne peut pas être capturé est du bruit est exploré plus en détail à l'aide d'un scénario hypothétique impliquant l'explication de nombres complexes à un jeune frère ayant une compréhension limitée des nombres.

  • 00:45:00 Dans cette section de la conférence, la différence entre le bruit déterministe et stochastique est expliquée, et l'impact du bruit déterministe sur le surajustement est analysé. Il est souligné que le bruit déterministe dépend de l'ensemble d'hypothèses utilisé, et à mesure que la complexité de la cible augmente, le bruit déterministe et le surajustement augmentent également. Cependant, cela ne se produit que lorsque la complexité cible dépasse un certain niveau. Pour N fini, les mêmes problèmes avec le bruit stochastique s'appliquent au bruit déterministe dans la mesure où vous pouvez en capturer une partie en raison de la taille limitée de l'échantillon. Il est également mentionné que l'utilisation d'un ensemble d'hypothèses plus complexe n'est pas toujours meilleure et peut conduire à un surajustement.

  • 00:50:00 Dans cette section, le conférencier discute de la question du surajustement lorsqu'on lui donne un échantillon fini. Il explique qu'une fois donné un échantillon fini, on a la capacité d'ajuster le bruit, à la fois stochastique et déterministe, ce qui peut conduire à de moins bonnes performances. Le conférencier fournit une analyse quantitative qui ajoute du bruit à la cible pour mieux comprendre le rôle du bruit stochastique et déterministe. Il ajoute et soustrait le centroïde et l'epsilon en vue d'obtenir des termes au carré et des termes croisés, ce qui conduit à un terme de variance, un terme de biais et un terme ajouté. Le terme ajouté est juste sigma au carré, la variance du bruit.

  • 00:55:00 Dans cette section de la conférence, l'orateur discute de la décomposition de la valeur attendue en biais et en variance, et de leur relation avec le bruit déterministe et stochastique. Les deux représentent la meilleure approximation de la fonction cible et du bruit qui ne peut pas être prédit, respectivement. L'augmentation du nombre d'exemples diminue la variance, mais le biais et la variance sont inévitables compte tenu d'une hypothèse. Le bruit déterministe et le bruit stochastique ont tous deux une version finie sur les points de données qui affectent la variance en rendant l'ajustement plus sensible au surajustement. L'orateur donne une piste dans les deux prochaines conférences sur la prévention du surajustement en discutant de deux approches, la régularisation et la validation. La régularisation revient à freiner pour éviter le surajustement, tandis que la validation consiste à vérifier les résultats pour éviter le surajustement.

  • 01:00:00 Dans cette section, le professeur aborde le concept de freiner le surajustement en utilisant un ajustement restreint ou une régularisation. Il utilise l'exemple des points d'ajustement à un polynôme d'ordre 4, mais l'empêche de s'ajuster complètement en y mettant un peu de friction. La quantité de frein appliquée est minime mais entraîne une réduction spectaculaire du surajustement tout en obtenant un ajustement fantastique. Le professeur note qu'il est important de comprendre la régularisation et comment la choisir afin d'éviter le surajustement. La session de questions-réponses traite de l'importance de la randomisation dans la descente de gradient stochastique et de la manière d'extraire une erreur hors échantillon dans les tracés de réseaux de neurones.

  • 01:05:00 Dans cette section, le professeur explique que le bruit déterministe et stochastique dans un scénario d'apprentissage est le même car le bruit déterministe est causé par l'incapacité d'un ensemble d'hypothèses à se rapprocher de la fonction cible. Dans les problèmes d'apprentissage du monde réel, la complexité de la fonction cible est généralement inconnue et le bruit ne peut pas être identifié. Le but de la compréhension conceptuelle du surajustement est d'éviter le surajustement sans les détails du bruit. Le surentraînement est synonyme de surapprentissage, par rapport au même modèle. D'autres sources d'erreur, telles que les nombres à virgule flottante, produisent un effet limité sur le surajustement, qui n'est jamais mentionné. En termes de modèle linéaire de troisième ordre (régression logistique), le professeur précise que lorsqu'il est appliqué à des données séparables linéairement, un minimum local et une erreur dans l'échantillon nulle peuvent être atteints.

  • 01:10:00 Dans cette section, le professeur discute de la question du surajustement et de sa version à échantillon fini, qui se produit en raison de la contribution du bruit provenant à la fois de facteurs stochastiques et déterministes dans un échantillon fini. Cela conduit l'algorithme à s'adapter à ce bruit, ce qui est préjudiciable lorsqu'il s'agit d'ajuster des modèles plus grands tels que H_10. Lors de la discussion sur l'utilisation de fonctions linéaires par morceaux pour éviter le surajustement, le professeur souligne l'importance de considérer le nombre de degrés de liberté dans votre modèle et de prendre des mesures pour restreindre votre modèle en termes d'ajustement par régularisation. Enfin, le professeur aborde la question pratique de la validation d'un modèle et son impact sur le surajustement et la sélection du modèle.

  • 01:15:00 Dans cette section, le professeur discute du compromis entre le surajustement et le sous-ajustement et explique que pour arriver à une meilleure hypothèse, vous devrez peut-être vous priver d'une ressource qui aurait pu être utilisée pour la formation. Le professeur élabore également sur la dimension VC (Vapnik-Chervonenkis) et son lien avec le surajustement, déclarant que l'écart dans la dimension VC, étant donné le même nombre d'exemples, est la raison des écarts dans le hors-échantillon et dans -erreur d'échantillonnage. Le professeur précise également que même s'ils ont illustré la complexité de la cible dans les tracés de couleurs, la complexité de la cible n'est pas explicitement mesurée et il n'existe aucun moyen clair de la cartographier dans l'énergie du bruit déterministe. Enfin, le professeur explique comment la complexité de la cible pourrait se traduire par quelque chose dans la décomposition biais-variance et a un impact sur le surajustement et la généralisation.
 

Cours 12 - Régularisation



Cours d'apprentissage automatique de Caltech - CS 156. Cours 12 - Régularisation

Cette conférence sur la régularisation commence par une explication du surajustement et de son impact négatif sur la généralisation des modèles d'apprentissage automatique. Deux approches de la régularisation sont discutées : mathématique et heuristique. Le cours se penche ensuite sur l'impact de la régularisation sur le biais et la variance dans les modèles linéaires, en utilisant l'exemple des polynômes de Legendre comme composants d'expansion. La relation entre C et lambda dans la régularisation est également couverte, avec une introduction à l'erreur augmentée et son rôle dans la justification de la régularisation pour la généralisation. Les techniques de décroissance/croissance du poids et l'importance de choisir le bon régularisateur pour éviter le surajustement sont également abordées. La conférence se termine par un accent sur le choix d'un bon oméga comme exercice heuristique et espère que lambda servira de grâce salvatrice pour la régularisation.

La deuxième partie traite de la décroissance du poids comme moyen d'équilibrer la simplicité du réseau avec sa fonctionnalité. Le conférencier met en garde contre une régularisation excessive et des performances non optimales, mettant l'accent sur l'utilisation de la validation pour déterminer les paramètres de régularisation optimaux pour différents niveaux de bruit. La régularisation est considérée comme expérimentale avec une base théorique et pratique. Les types courants de régularisation tels que L1/L2, l'arrêt précoce et l'abandon sont présentés, ainsi que la manière de déterminer la méthode de régularisation appropriée pour différents problèmes. Les hyperparamètres communs associés à la mise en œuvre de la régularisation sont également discutés.

  • 00:00:00 Dans cette section, Yaser Abu-Mostafo se penche sur les détails du surajustement, qui se produit lorsqu'un modèle s'adapte trop bien aux données, au prix d'une mauvaise généralisation. Même si les données ne sont pas bruitées, un bruit déterministe peut se produire en raison des limites du modèle, conduisant à un modèle qui nuit à l'erreur hors échantillon et provoque un surajustement. Cependant, Abu-Mostafo présente la régularisation comme premier remède au surajustement, qui est une technique utilisée dans presque toutes les applications d'apprentissage automatique, et qu'il est important de comprendre.

  • 00:05:00 Dans cette section, le conférencier discute de deux approches de régularisation en apprentissage automatique. La première approche est mathématique, où des contraintes de lissage sont imposées pour résoudre des problèmes mal posés, mais les hypothèses faites dans ces développements ne sont pas toujours réalistes pour des applications pratiques. La deuxième approche est heuristique et consiste à handicaper la minimisation de l'erreur dans l'échantillon en freinant l'ajustement, ce qui aide à lutter contre le surajustement. Le conférencier donne un exemple utilisant une sinusoïde et un ajustement de ligne, montrant qu'en régularisant et en contrôlant le décalage et la pente des lignes, nous pouvons être en mesure d'obtenir de meilleures performances hors échantillon.

  • 00:10:00 Dans cette section, le conférencier discute de l'impact de la régularisation sur le biais et la variance d'un modèle linéaire. En utilisant la régularisation, la variance est réduite tandis que le biais est légèrement augmenté en raison de l'ajustement imparfait. L'enseignant utilise l'exemple d'un modèle polynomial avec des polynômes de Legendre comme composantes d'expansion pour démontrer l'effet de la régularisation sur le biais et la variance. Avec la régularisation, le modèle linéaire surpasse le modèle non régularisé et même le modèle constant. La conférence se penche sur le développement mathématique de l'une des techniques de régularisation les plus célèbres de l'apprentissage automatique en mettant l'accent sur les conclusions concrètes et les leçons qui peuvent être tirées pour faire face à des situations du monde réel.

  • 00:15:00 Dans cette section, l'enseignant présente les polynômes de Legendre et explique comment ils peuvent être utilisés pour construire un ensemble d'hypothèses pour la régression polynomiale. En utilisant ces polynômes, qui sont orthogonaux et traitent de coordonnées différentes, le paramètre pertinent est une combinaison de poids, plutôt qu'un seul poids individuel. L'ensemble d'hypothèses peut être paramétré et représenté sous une forme linéaire, permettant des solutions analytiques faciles. La fonction cible est inconnue et le but est d'en obtenir une bonne approximation à l'aide d'un ensemble d'apprentissage fini. Le conférencier passe également en revue les solutions sans contraintes et contraintes pour minimiser l'erreur dans l'échantillon à l'aide de la régression linéaire.

  • 00:20:00 Dans cette section, l'enseignant aborde le concept de régularisation, qui est une contrainte appliquée aux poids des ensembles d'hypothèses. La régularisation implique de fixer un budget C pour la magnitude totale au carré des poids, ce qui signifie que vous ne pouvez pas avoir tous les poids trop grands. Le problème est de minimiser l'erreur dans l'échantillon tout en étant soumis à cette contrainte. La solution est obtenue à l'aide de multiplicateurs de Lagrange ou KKT, ce qui donne une nouvelle solution appelée w_reg. Le conférencier explique que l'objectif est de choisir un point dans un cercle qui minimise l'erreur dans l'échantillon, ce qui nécessite d'aller aussi loin que possible sans violer la contrainte.

  • 00:25:00 Dans cette section, le concept de régularisation est discuté, où l'objectif est de dériver un modèle qui se généralise bien aux données invisibles. La solution de régression linéaire est le minimum absolu, qui satisfait la contrainte. L'accent est mis sur la dérivation de la condition analytique pour atteindre le minimum de E_in, soumis à la contrainte, afin de trouver un compromis entre l'objectif et la contrainte. Le gradient de la fonction objectif doit être orthogonal à l'ellipse, et le vecteur w est dans la direction de la surface rouge. La condition analytique pour w_reg est que le gradient doit être proportionnel au négatif de la solution. En minimisant l'équation de la solution, on obtient le minimum de E_in, sans condition.

  • 00:30:00 Dans cette section, le cours traite de la relation entre les paramètres C et lambda dans la régularisation. Plus la valeur de C est grande, plus la valeur de lambda est petite car on met moins l'accent sur le terme de régularisation. Inversement, lorsque C diminue, le terme de régularisation devient plus significatif et la valeur de lambda doit augmenter pour appliquer la condition. Le cours introduit également l'erreur augmentée, qui est la somme de la fonction d'erreur et du terme de régularisation. Cela équivaut à un problème d'optimisation sans contrainte consistant à minimiser la fonction d'erreur tout en étant soumis à la contrainte. Cette correspondance justifie la régularisation en termes de généralisation et est applicable à tout régularisateur. Enfin, la conférence fournit la formule pour minimiser l'erreur augmentée et conclut en fournissant la solution.

  • 00:35:00 Dans cette section, l'orateur discute de la solution au problème de la régularisation. La solution est représentée par w_reg, qui est une modification de la solution pseudo-inverse avec un terme de régularisation supplémentaire. Sous des hypothèses propres, nous avons un apprentissage en une étape, y compris la régularisation. En d'autres termes, nous pouvons avoir une solution pure et simple sans faire d'optimisation contrainte. Le terme de régularisation dans la solution devient dominant à mesure que lambda augmente, ce qui fait tomber w_reg à zéro, créant une solution de plus en plus petite. Le locuteur applique alors la régularisation à un problème familier, montrant que le choix du lambda est critique, et qu'un choix heuristique du type de régularisateur sera nécessaire.

  • 00:40:00 Dans cette section, le concept de régularisation et sa méthode associée connue sous le nom de décroissance du poids sont introduits. La décroissance des poids est un célèbre régularisateur en apprentissage automatique qui consiste à minimiser w transposé w et à s'assurer que les poids sont petits pour que le nom de «décroissance» soit donné. Lors de l'utilisation de réseaux de neurones, la décroissance du poids peut être mise en œuvre par descente de gradient par lots, où l'ajout de ce terme réduit les poids avant tout mouvement dans l'espace des poids, ce qui limite ce que l'on peut apprendre sur la fonction lorsque λ est grand. Les variations de la décroissance du poids comprennent l'attribution de facteurs d'importance à certains poids et l'utilisation de différentes constantes pour expérimenter le type de régularisateur utilisé.

  • 00:45:00 Dans cette section, le conférencier discute des techniques de perte de poids et de croissance du poids, qui sont des contraintes utilisées dans l'apprentissage automatique pour limiter la plage de poids utilisée par les modèles. La décroissance du poids implique de contraindre les modèles à utiliser des poids plus petits, tandis que la croissance du poids contraint les poids plus grands. Le conférencier explique qu'une valeur lambda optimale doit être choisie pour les deux techniques afin d'obtenir les meilleures performances hors échantillon. De plus, le conférencier explique comment choisir le bon régularisateur, en soulignant l'importance d'éviter le surajustement grâce à l'utilisation de lignes directrices qui aident à guider le choix des régularisateurs. En fin de compte, l'enseignant recommande d'utiliser des règles pratiques pour aider à trouver les régularisateurs optimaux, comme éviter le bruit stochastique à haute fréquence.

  • 00:50:00 Dans cette section du cours, l'instructeur explique les différents types de bruit pouvant entraîner un surajustement et pourquoi il est important de choisir un régularisateur qui a tendance à choisir des hypothèses plus fluides. Il définit la forme générale de régularisation et l'erreur augmentée qui est minimisée, qui est similaire à l'équation utilisée dans l'analyse VC. Il discute également de la correspondance entre la complexité d'une hypothèse individuelle et la complexité de l'ensemble d'objets, et comment E_aug est une meilleure estimation pour E_out que E_in.

  • 00:55:00 Dans cette section de la conférence sur la régularisation, l'idée de l'erreur augmentée comme meilleur indicateur de l'erreur hors échantillon est discutée. La régularisation vise à réduire le surajustement, qui correspond essentiellement au bruit plus qu'au signal. Le principe directeur pour le choix d'un régularisateur est d'aller dans le sens du plus lisse, car le bruit n'est pas lisse et les solutions plus lisses ont tendance à nuire davantage au bruit qu'au signal adapté. Le concept de plus simple est également introduit dans un cas où plus lisse ne s'applique pas bien. Choisir un bon oméga est un exercice heuristique, et les calculs impliqués ne sont aussi bons que l'hypothèse sur laquelle ils sont basés. La conférence se termine avec l'espoir que lambda servirait de grâce salvatrice pour le choix du régularisateur.

  • 01:00:00 Dans cette section de la conférence, le concept de décroissance de poids pour les réseaux de neurones est exploré, où de petits poids entraînent la simplicité de la fonction, et des poids plus importants entraînent une dépendance logique pour permettre l'implémentation de toute fonctionnalité. Une autre forme de régularisateur est l'élimination des poids, où certains des poids au sein d'un réseau sont forcés à être nuls, ce qui entraîne une dimension VC plus petite, permettant une meilleure généralisation et une moindre chance de surajustement. L'élimination des pondérations douces est introduite, par laquelle une fonction continue est appliquée au réseau pour mettre l'accent sur certaines des pondérations par rapport à d'autres. Enfin, l'arrêt précoce est discuté comme une forme de régularisation, qui recommande d'arrêter l'entraînement avant la fin, car c'est un moyen indirect d'apporter de la simplicité à la fonction.

  • 01:05:00 Dans cette section, le professeur explique que la régularisation se fait via l'optimiseur et qu'on ne change pas la fonction objectif. Au lieu de cela, nous transmettons la fonction objectif, qui est l'erreur dans l'échantillon, à l'optimiseur et lui disons de la minimiser. Le professeur met ensuite en garde contre le simple fait de placer le régularisateur dans l'optimiseur, ce qui peut entraîner une régularisation excessive et des performances non optimales si cela n'est pas fait correctement. Il souligne l'importance de capturer autant que possible dans la fonction objectif, puis d'utiliser la validation pour déterminer la valeur optimale du paramètre de régularisation, lambda. Le professeur montre ensuite comment le choix de lambda change avec différents niveaux de bruit et comment l'utilisation de la validation peut aider à déterminer le meilleur résultat possible compte tenu du bruit. Enfin, il discute de l'utilisation de différents types de régularisateurs avec des paramètres différents, en fonction des performances.

  • 01:10:00 Dans cette section, le professeur discute de l'utilisation des régularisateurs dans l'apprentissage automatique, qui est une activité expérimentale plutôt qu'une activité entièrement fondée sur des principes. L'approche de l'apprentissage automatique se situe quelque part entre la théorie et la pratique, ce qui signifie qu'elle repose sur les deux. Le professeur utilise les polynômes de Legendre comme fonctions orthogonales car ils offrent un niveau de généralité intéressant et la solution est simple. La régularisation permet à un utilisateur de trouver un point idéal pour les meilleures performances, qui peut se situer entre deux étapes discrètes. Le terme de régularisation ajouté ne dépend pas explicitement du jeu de données. Cependant, le paramètre optimal, lambda, dépendra de l'ensemble d'apprentissage, qui sera déterminé par la validation.

  • 01:15:00 Dans cette section, le concept de régularisation est introduit, qui consiste à ajouter un terme de pénalité à la fonction de perte afin d'éviter le surajustement dans les modèles d'apprentissage automatique. Les deux types de régularisation les plus courants, L1 et L2, sont discutés avec leurs avantages et inconvénients respectifs. De plus, l'utilisation de l'arrêt précoce et de l'abandon comme techniques alternatives de régularisation est expliquée. La conférence se termine par un aperçu de la façon de déterminer la méthode de régularisation appropriée pour un problème donné, ainsi que des hyperparamètres courants à prendre en compte lors de la mise en œuvre de la régularisation.
 

Cours 13 - Validation




Cours d'apprentissage automatique de Caltech - CS 156. Cours 13 - Validation

Dans la conférence 13, l'accent est mis sur la validation en tant que technique importante dans l'apprentissage automatique pour la sélection de modèles. La conférence aborde les spécificités de la validation, y compris pourquoi elle s'appelle validation et pourquoi elle est importante pour la sélection du modèle. La validation croisée est également discutée comme un type de validation qui permet l'utilisation de tous les exemples disponibles pour la formation et la validation. L'enseignant explique comment estimer l'erreur hors échantillon à l'aide de la variable aléatoire qui prend un point hors échantillon et calcule la différence entre l'hypothèse et la valeur cible. La conférence aborde également le biais introduit lors de l'utilisation de l'estimation pour choisir un modèle particulier, car il n'est plus fiable car il a été sélectionné sur la base de l'ensemble de validation. Le concept de validation croisée est introduit comme méthode d'évaluation de l'erreur hors échantillon pour différentes hypothèses.

Il couvre également l'utilisation de la validation croisée pour la sélection et la validation des modèles afin d'éviter le surajustement, en mettant l'accent sur le "laissez-en un" et la validation croisée 10 fois. Le professeur démontre l'importance de tenir compte des écarts hors échantillon et de l'espionnage des données, et suggère d'inclure des méthodes de randomisation pour éviter les biais d'échantillonnage. Il explique que bien que la validation croisée puisse ajouter de la complexité, la combiner avec la régularisation peut sélectionner le meilleur modèle, et parce que la validation ne nécessite pas d'hypothèses, elle est unique. Le professeur explique en outre comment la validation croisée peut aider à faire des choix fondés même en comparant différents scénarios et modèles, et comment le nombre total de points de validation détermine la barre d'erreur et le biais.

  • 00:00:00 Dans cette section, l'accent est mis sur la validation, une autre technique importante d'apprentissage automatique utilisée pour la sélection de modèles. Le processus implique de choisir une taille de jeu de validation et de l'utiliser pour valider le processus de sélection du modèle. La conférence aborde les spécificités de la validation, y compris pourquoi elle s'appelle validation et pourquoi elle est importante pour la sélection du modèle. La discussion couvre également la validation croisée, qui est un type de validation qui permet l'utilisation de tous les exemples disponibles pour la formation et la validation. Le cours oppose la validation à la régularisation, jusqu'au contrôle.

  • 00:05:00 Dans cette section, le conférencier discute de la validation et de la régularisation dans le contexte de l'équation bien connue qui traite de la différence entre l'erreur dans l'échantillon et l'erreur hors échantillon due à la complexité du modèle. La régularisation estime la pénalité pour la complexité de surajustement tandis que la validation essaie d'estimer directement l'erreur hors échantillon. L'enseignant explique comment estimer l'erreur hors échantillon à l'aide de la variable aléatoire qui prend un point hors échantillon et calcule la différence entre l'hypothèse et la valeur cible. Le conférencier souligne comment la variance affecte la qualité de l'estimation et propose d'utiliser un ensemble complet de points au lieu d'un seul.

  • 00:10:00 Dans cette section, la notion d'ensemble de validation et l'erreur de validation en tant qu'estimation non biaisée de l'erreur hors échantillon sont introduites. La valeur attendue de l'erreur de validation est E_out, qui est une autre forme de la valeur attendue sur un seul point. La variance de l'erreur de validation est analysée pour montrer qu'il y a une amélioration de l'estimation basée sur E_val par rapport à un seul point. La variance finit par être proportionnelle à 1/K, ce qui signifie que l'augmentation de K peut réduire la barre d'erreur et améliorer la fiabilité de l'estimation. Cependant, le nombre de points de validation n'est pas gratuit et a un impact direct sur le nombre de points disponibles pour la formation.

  • 00:15:00 Dans cette section, l'accent est mis sur le processus de validation, dans lequel K points sont extraits de N points à des fins de validation, tandis que le sous-ensemble D_train restant est utilisé pour la formation. Il est également important de noter l'utilité d'avoir une estimation fiable d'un ensemble de validation pour s'assurer que l'hypothèse finale est fiable. Cependant, avoir une estimation fiable d'une mauvaise quantité ne doit pas être l'objectif. À mesure que la valeur de K augmente, l'estimation devient plus fiable, mais la qualité de l'hypothèse diminue. Ainsi, il est vital de trouver un moyen de ne pas avoir à payer le prix de l'augmentation de K. Une façon consiste à restaurer l'ensemble de données après avoir estimé l'erreur et à s'entraîner sur l'ensemble complet pour obtenir de meilleurs résultats.

  • 00:20:00 Dans cette section, l'accent est mis sur le compromis de performances lors de l'utilisation d'un ensemble de validation pendant la formation. L'ensemble réduit de D_train aura moins d'exemples par rapport à l'ensemble d'apprentissage complet D, à l'aide duquel nous obtenons l'hypothèse finale g moins. Pour obtenir une estimation, nous évaluons g moins sur un ensemble de validation D_val, puis ajoutons le reste des exemples dans le pot et rapportons g. Cependant, un grand K signifie que la différence entre g moins et g est plus grande, ce qui affecte la fiabilité de l'estimation que nous rapportons. Par conséquent, il existe une règle empirique pour utiliser un cinquième pour la validation afin d'obtenir le meilleur des deux mondes. Nous l'appelons validation parce qu'elle affecte le processus d'apprentissage et aide à faire des choix.

  • 00:25:00 Dans cette section, l'accent est mis sur la compréhension de la différence entre l'erreur de test et l'erreur de validation. Lorsque l'ensemble de test est impartial et est utilisé pour estimer E_out, il y aura des fluctuations dans l'estimation. Si un arrêt précoce est utilisé, le biais de l'estimation change. Dans un scénario de mini-apprentissage, il est facile de voir que la valeur attendue du minimum est inférieure à 0,5, ce qui en fait un biais optimiste. La même chose se produit lorsqu'un point est choisi pour un arrêt précoce - le point choisi est le minimum sur la réalisation, et un biais optimiste est introduit.

  • 00:30:00 Dans cette section, la conférence traite de l'utilisation de l'ensemble de validation pour la sélection de modèles dans l'apprentissage automatique. Le processus implique la formation de modèles M à l'aide d'un ensemble de données divisé en ensembles d'apprentissage et de validation, puis l'évaluation des performances de chaque modèle sur l'ensemble de validation pour obtenir des estimations de l'erreur hors échantillon. Le modèle avec la plus petite erreur de validation est choisi, mais il existe un risque de biais introduit en raison de ce processus de sélection. Néanmoins, le biais est généralement mineur en pratique et peut être accepté pour obtenir une estimation fiable de l'erreur hors échantillon.

  • 00:35:00 Dans cette section, le conférencier discute du biais introduit lors de l'utilisation de l'estimation pour choisir un modèle particulier, car il n'est plus fiable puisqu'il a été sélectionné sur la base de l'ensemble de validation. La valeur attendue de l'estimateur devient une estimation biaisée de l'erreur hors échantillon. Une expérience avec deux modèles a généré une courbe indiquant un biais systématique vers un modèle ou l'autre. Les courbes sur le graphique indiquent la courbe d'apprentissage en arrière et comment l'erreur hors échantillon diminue avec plus d'exemples pour la formation. À mesure que la taille de l'ensemble de validation augmente, l'estimation devient plus fiable et les courbes indiquant les erreurs des modèles convergent.

  • 00:40:00 Dans cette section, la conférence explique comment estimer l'écart ou le biais entre la formation sur un ensemble d'hypothèses spéciales et la recherche de l'hypothèse finale à l'aide d'un ensemble de validation. L'ensemble de validation est considéré comme l'erreur de formation pour l'ensemble d'hypothèses final, et avec un peu de mathématiques liées à la dimension VC et à la complexité effective, une estimation de l'erreur hors échantillon peut être obtenue. Bien que plus d'exemples améliorent l'estimation, les contributions logarithmiques doivent être prises en compte lors de la sélection d'un nombre accru d'hypothèses. Néanmoins, lorsqu'il s'agit d'un seul paramètre, la complexité effective va avec une dimension VC de 1, ce qui n'est pas trop difficile à gérer. Par conséquent, si vous disposez d'un ensemble approprié, l'estimation de l'erreur hors échantillon ne différera pas trop de la valeur réelle.

  • 00:45:00 Dans cette section, l'orateur aborde l'idée de contamination des données lors de l'utilisation d'estimations d'erreurs pour prendre des décisions, en particulier dans le contexte de la validation. L'ensemble d'apprentissage est considéré comme complètement contaminé, tandis que l'ensemble de test est complètement propre et donne une estimation impartiale. Cependant, le jeu de validation est légèrement contaminé car il sert à prendre quelques décisions, il est donc important de ne pas s'emballer et de passer à un autre jeu de validation lorsque cela est nécessaire. L'orateur introduit ensuite la validation croisée comme un régime de validation qui peut obtenir une meilleure estimation avec une barre d'erreur plus petite, tant qu'elle n'est pas biaisée dans le processus.

  • 00:50:00 Dans cette section, le professeur introduit le concept de validation par validation croisée, en particulier la méthode "en omettre un". Dans cette méthode, le jeu de données est divisé en deux, un point étant utilisé pour la validation et le reste utilisé pour la formation. Le processus est répété pour différents points, résultant en de multiples estimations impartiales et imparfaites. Étant donné que toutes les estimations sont basées sur un entraînement avec N moins 1 points de données, elles ont un fil conducteur. Bien qu'imparfaites, les estimations répétées donnent un aperçu du comportement du modèle et aident à l'optimiser pour obtenir les meilleures performances hors échantillon.

  • 00:55:00 Dans cette section, le concept de validation croisée est introduit en tant que méthode d'évaluation de l'erreur hors échantillon pour différentes hypothèses. En divisant l'ensemble de données en ensembles d'apprentissage et de validation, il est possible d'estimer les performances du modèle sur des données invisibles. La méthode "en omettre un" est utilisée pour illustrer le processus. L'efficacité de la validation croisée est discutée, en montrant que l'utilisation de N moins 1 points pour former et N points pour valider est remarquablement efficace pour obtenir des résultats précis.

  • 01:00:00 Dans cette section, le professeur discute de l'utilisation de la validation croisée pour la sélection de modèles. Il le démontre en comparant les modèles linéaire et constant à trois points, et montre comment le modèle constant l'emporte. Il applique ensuite la validation croisée au problème de la recherche d'une surface de séparation pour les chiffres manuscrits à l'aide d'une transformée non linéaire du 5ème ordre avec 20 caractéristiques. Il utilise la validation croisée "en exclure un" pour comparer 20 modèles et choisit où arrêter d'ajouter des fonctionnalités. Il montre que l'erreur de validation croisée suit de près l'erreur hors échantillon et que son utilisation comme critère de choix du modèle conduit à des minima à 6 caractéristiques avec des performances améliorées par rapport à l'utilisation du modèle complet sans validation.

  • 01:05:00 Dans cette section, le professeur discute de l'utilisation de la validation pour prévenir le surajustement et comment elle est considérée comme similaire à la régularisation. Il explique comment la validation "en omettre un" n'est pas pratique pour la plupart des problèmes réels et suggère d'utiliser à la place une validation croisée 10 fois. Il fournit également des conseils sur le nombre de paramètres à utiliser en fonction de la taille de l'ensemble de données et explique pourquoi le choix du modèle par validation ne compte pas comme une surveillance des données.

  • 01:10:00 Dans cette section, le professeur discute de l'importance de tenir compte de l'écart hors échantillon et de l'espionnage des données lors de l'utilisation de l'ensemble de validation pour faire des choix de modèles. Il souligne la nécessité d'utiliser des méthodes de randomisation telles que le retournement des pièces pour éviter les biais d'échantillonnage et l'utilisation de techniques de validation croisée pour choisir le paramètre de régularisation dans de nombreux cas pratiques. Alors que la validation croisée peut ajouter de la complexité de calcul, elle peut également être combinée avec la régularisation pour sélectionner la meilleure hypothèse pour un modèle. Le professeur note que bien qu'il existe d'autres méthodes de sélection de modèles, la validation est unique en ce sens qu'elle ne nécessite pas d'hypothèses.

  • 01:15:00 Dans cette section, le professeur explique comment la validation peut aider à faire des choix de principe dans la sélection de modèles, quelle que soit la nature du choix, et comment elle peut également être utilisée pour mettre à jour le modèle en cas d'évolution temporelle ou de système de suivi évolution. En comparant la validation et la validation croisée, il explique que les deux méthodes ont un biais, mais la validation croisée permet d'utiliser plus d'exemples à la fois pour la formation et la validation, ce qui entraîne une barre d'erreur plus petite et moins de vulnérabilité aux biais. Bien qu'il soit possible d'avoir des ensembles de données si volumineux que la validation croisée n'est pas nécessaire, le professeur donne un exemple où même avec 100 millions de points, la validation croisée était toujours bénéfique en raison de la nature des données.

  • 01:20:00 Dans cette section, le professeur discute des scénarios où la validation croisée est utile et aborde les problèmes potentiels avec elle. Il explique que la validation croisée devient pertinente lorsque la partie la plus pertinente d'un grand ensemble de données est plus petite que l'ensemble. Lors du choix entre des modèles concurrents, des preuves statistiques sont nécessaires pour déterminer l'importance de l'erreur hors échantillon. Le professeur déclare qu'avec un ensemble de données plus petit, il n'y a pas de réponse définitive quant à savoir s'il est préférable de rééchantillonner ou de diviser l'ensemble en morceaux pour la validation croisée. Le professeur discute également du rôle de l'équilibre entre les classes et de la façon dont le biais se comporte lors de l'augmentation du nombre de points laissés de côté. Enfin, le professeur explique que le nombre total de points de validation détermine la barre d'erreur et que le biais est fonction de la manière dont la validation croisée est utilisée.

  • 01:25:00 Dans cette section, le professeur discute de la barre d'erreur et comment elle peut fournir une indication de la vulnérabilité au biais dans une estimation. Si deux scénarios ont des barres d'erreur comparables, il n'y a aucune raison de croire que l'un est plus vulnérable au biais. Cependant, une analyse détaillée est nécessaire pour voir la différence entre prendre un scénario à la fois et considérer les corrélations. Le professeur conclut que tant qu'un certain nombre de plis sont effectués et que chaque exemple apparaît exactement une fois dans l'estimation de validation croisée, il n'y a pas de préférence entre les scénarios en termes de biais.
 

Cours 14 - Machines à vecteurs de support



Cours d'apprentissage automatique de Caltech - CS 156. Cours 14 - Support Vector Machines

La conférence couvre l'importance de la validation et son utilisation dans l'apprentissage automatique, ainsi que les avantages de la validation croisée par rapport à la validation. L'accent est mis sur les machines à vecteurs de support (SVM) en tant que modèle d'apprentissage le plus efficace pour la classification, avec un aperçu détaillé de la section qui implique la maximisation de la marge, la formulation et les solutions analytiques grâce à l'optimisation contrainte présentée. La conférence couvre une gamme de techniques, y compris comment calculer la distance entre un point et un hyperplan dans les SVM, comment résoudre le problème d'optimisation pour les SVM et comment formuler le problème d'optimisation des SVM dans sa double formulation. Le conférencier aborde également les aspects pratiques de l'utilisation de la programmation quadratique pour résoudre le problème d'optimisation et l'importance d'identifier les vecteurs de support. La conférence se termine par une brève discussion sur l'utilisation des transformations non linéaires dans les SVM.

Dans la deuxième partie de ce cours sur les machines à vecteurs de support (SVM), le conférencier explique comment le nombre de vecteurs de support divisé par le nombre d'exemples donne une borne supérieure sur la probabilité d'erreur dans la classification d'un point hors échantillon, ce qui rend le utilisation de vecteurs de support avec transformation non linéaire possible. Le professeur discute également de la normalisation de w transposé x plus b à 1 et de sa nécessité pour l'optimisation, ainsi que de la version à marge souple de SVM, qui autorise les erreurs et les pénalise. De plus, la relation entre le nombre de vecteurs de support et la dimension VC est expliquée, et la résistance de la méthode au bruit est mentionnée, avec la version soft de la méthode utilisée en cas de données bruitées.

  • 00:00:00 Dans cette section, l'enseignant discute de l'importance de la validation, notamment en termes d'utilisation dans l'apprentissage automatique. Le concept de biais impartial et optimiste résultant d'une erreur de validation et son effet sur la sélection du modèle sont également expliqués. L'avantage de la validation croisée par rapport à la validation est davantage mis en évidence dans la section. En outre, le conférencier présente les machines à vecteurs de support comme le modèle d'apprentissage le plus efficace pour la classification, citant son interprétation intuitive, une dérivation raisonnée et un ensemble d'optimisation comme des avantages significatifs du modèle d'apprentissage. Un aperçu détaillé de la section, qui implique la maximisation de la marge, de la formulation et des solutions analytiques grâce à une optimisation contrainte, est également présenté.

  • 00:05:00 Dans cette section, le concept de maximisation de la marge dans la séparation linéaire a été expliqué. Alors que toutes les lignes qui séparent les données séparables linéairement n'ont aucune erreur dans l'échantillon, certaines peuvent avoir de meilleures marges qui permettent une plus grande généralisation. Il est expliqué qu'une plus grande marge est préférable car, dans des situations bruyantes, la probabilité que le nouveau point soit classé correctement est plus élevée. Ceci est lié à la fonction de croissance et à la façon dont une fonction de croissance plus importante est désavantageuse pour la généralisation dans l'apprentissage automatique. Il est démontré que la maximisation de la marge peut aider à la généralisation en recherchant des lignes qui non seulement séparent correctement les données, mais ont également la marge maximale possible pour ces points de données.

  • 00:10:00 Dans cette section, le conférencier discute des marges grasses et de la manière dont elles peuvent améliorer les performances d'un classifieur. En exigeant qu'un classificateur ait une marge d'une certaine taille, le nombre de dichotomies possibles est réduit, ce qui conduit à une fonction de croissance plus petite et à une dimension VC plus petite. Plus la marge est grande, meilleures sont les performances hors échantillon du classifieur. Le conférencier explique ensuite comment résoudre pour la plus grande marge possible, en trouvant la distance entre l'hyperplan et le point de données le plus proche, et en normalisant le vecteur w pour simplifier l'analyse. Le signal, ou la distance entre l'hyperplan et les points de données, n'est pas la distance euclidienne, mais l'ordre des points les plus proches et les plus éloignés, et doit être converti pour obtenir la distance euclidienne.

  • 00:15:00 Dans cette section, le conférencier explique quelques aspects techniques relatifs à l'analyse de la machine à vecteurs de support. Premièrement, afin de comparer les performances de différents avions, la distance euclidienne est utilisée comme étalon. Deuxièmement, w est extrait du vecteur X afin d'analyser plus facilement les machines à vecteurs de support, et w₀ est extrait afin qu'il ne soit pas confondu avec le vecteur w qui a maintenant un nouveau rôle. Le but est de calculer la distance entre xₙ (le point le plus proche) et le plan. Le conférencier montre que le vecteur w est orthogonal au plan et à chaque vecteur du plan, ce qui signifie qu'il est orthogonal à chaque vecteur normal du plan, nous pouvons donc maintenant obtenir la distance entre xₙ et le plan.

  • 00:20:00 Dans cette section, l'orateur explique comment calculer la distance entre un point et un hyperplan dans les SVM. Cela peut être fait en projetant le vecteur allant du point à un point générique de l'hyperplan sur la direction orthogonale à l'hyperplan. Le vecteur unitaire dans cette direction est calculé en normalisant la longueur du vecteur. En utilisant un peu d'algèbre, le locuteur dérive une formule pour la distance qui est simplifiée en ajoutant un terme manquant. Cette formule peut être utilisée pour choisir la combinaison de w qui donne la meilleure marge possible. Le problème d'optimisation qui en résulte est peu convivial du fait du minimum dans les contraintes. Cependant, en faisant quelques observations simples, ce problème peut être reformulé en un problème quadratique plus convivial.

  • 00:25:00 Dans cette section, le conférencier explique comment résoudre le problème d'optimisation des machines à vecteurs de support (SVM). Ils commencent par montrer comment les SVM peuvent être formulés comme un problème d'optimisation contraint où ils doivent minimiser une fonction objectif soumise à des contraintes d'inégalité linéaire. Ils prouvent qu'il est possible d'utiliser des multiplicateurs de Lagrange pour transformer les contraintes d'inégalité en contraintes d'égalité, puis de résoudre le nouveau lagrangien. Ils notent que cette approche a été découverte indépendamment par Karush et Kuhn-Tucker et est appelée KKT Lagrangien. L'enseignant souligne que le processus est similaire à la procédure de régularisation, et ils rappellent la condition de gradient pour la solution.

  • 00:30:00 Dans cette section, le conférencier explique la relation entre le SVM et la régularisation et la formulation de Lagrange. Il est essentiel de noter que les contraintes conduisent à un gradient non nul, contrairement au problème sans contrainte où le gradient est égal à 0. La formulation de Lagrange est dépendante de variables comme w et b, et il existe de nouvelles variables, des multiplicateurs de Lagrange comme le vecteur alpha . Le problème posé est de minimiser la fonction objectif soumise aux contraintes de la forme, puis nous lui donnons un nom lagrangien. La partie intéressante est que nous maximisons en fait par rapport à alpha, bien que les alphas doivent être non négatifs, et nous devons donc faire attention à cela. La section se termine par une brève explication de la partie non contrainte, où nous devons minimiser le gradient du lagrangien par rapport à w et b.

  • 00:35:00 Dans cette section du cours, l'orateur explique comment formuler le problème d'optimisation SVM dans sa formulation duale. Il optimise d'abord le problème par rapport à w et b, résultant en deux conditions qu'il remplace dans le lagrangien d'origine, conduisant à la double formulation du problème, qui est une belle formule en termes de multiplicateurs de Lagrange alpha uniquement. Il fixe ensuite la contrainte pour que les alphas soient non négatifs et résout le problème de maximisation soumis à ces contraintes, ce qui donne les valeurs optimales d'alpha qui déterminent les vecteurs de support.

  • 00:40:00 Dans cette section, l'orateur discute des aspects pratiques de l'utilisation de la programmation quadratique pour résoudre le problème d'optimisation présenté précédemment pour les machines à vecteurs de support. L'objectif et les contraintes sont traduits en coefficients qui sont transmis au progiciel de programmation quadratique pour la minimisation. La dimension de la matrice dépend du nombre d'exemples et cela devient une considération pratique pour les grands ensembles de données. L'orateur prévient que lorsque le nombre d'exemples est important, la programmation quadratique a du mal à trouver la solution et peut nécessiter l'utilisation d'heuristiques.

  • 00:45:00 Dans cette section, la conférence se penche sur les solutions apportées par la programmation quadratique, en particulier alpha, et son lien avec le problème initial de détermination des poids, de la surface, de la marge et de b. Le cours met en évidence l'importance d'identifier les vecteurs de support, qui sont les points qui définissent le plan et la marge. Les mathématiques derrière les lambdas positifs (alphas dans ce cas) permettent d'identifier les vecteurs de support, car elles ne prennent en compte que les points avec des valeurs positives. Cela signifie que ces valeurs alpha sont cruciales pour définir la frontière entre les deux classifications, et l'identification de leur emplacement est essentielle pour optimiser les poids et créer la marge maximale.

  • 00:50:00 Dans cette section, le concept de vecteurs de support est introduit et discuté dans le contexte de l'algorithme de la machine à vecteurs de support (SVM). Les vecteurs de support sont définis comme les points de données les plus proches de la limite de décision ou de l'hyperplan qui sépare les classes de données. L'algorithme SVM optimise un problème de programmation quadratique pour déterminer les vecteurs de support et les paramètres de la fonction de décision. Les valeurs des paramètres ne dépendent que des vecteurs supports, qui sont les points critiques, permettant au modèle de bien généraliser. Les transformations non linéaires sont également brièvement décrites comme un moyen de gérer des données non séparables. La transformation des données dans un espace de dimension supérieure ne complique pas le problème d'optimisation, et la même technique peut être utilisée pour trouver les vecteurs de support et la fonction de décision.

  • 00:55:00 Dans cette section de la vidéo, le conférencier discute de l'utilisation des transformations non linéaires dans les SVM. Les transformations non linéaires sont utilisées lorsque les données ne sont pas linéairement séparables, ce qui est le cas dans l'espace X. Le conférencier montre comment utiliser une transformation non linéaire et travailler dans l'espace Z pour obtenir un résultat linéairement séparable. Il explique que la solution est simple et que le nombre d'alphas dépend du nombre de points de données, et non de la dimensionnalité de l'espace dans lequel vous travaillez. L'idée clé est que vous pouvez accéder à un espace énorme sans payer de prix. en matière d'optimisation. Les vecteurs de support sont identifiés dans l'espace Z, mais dans l'espace X, ils ressemblent à des points de données.

  • 01:00:00 Dans cette section, le conférencier discute du résultat de généralisation qui rend possible l'utilisation de vecteurs de support avec transformation non linéaire. Le nombre de vecteurs de support, qui représente le nombre de paramètres effectifs, divisé par le nombre d'exemples donne une borne supérieure sur la probabilité d'erreur dans la classification d'un point hors échantillon. Si la valeur attendue de plusieurs exécutions de cette machinerie tient, alors le E_out réel que vous obtiendrez dans un cas particulier sera limité au-dessus par un type de limite familier (par exemple, le nombre de paramètres, les degrés de liberté et la dimension VC divisés par le nombre d'exemples). Ce résultat oblige les gens à utiliser des vecteurs de support et des vecteurs de support avec la transformation non linéaire, car vous ne payez pas pour le calcul d'aller à une dimension supérieure ou la généralisation qui va avec.

  • 01:05:00 Dans cette section, le professeur explique pourquoi il choisit de normaliser w transposé x plus b à 1, et pourquoi cette normalisation est nécessaire pour l'optimisation. Il répond également à une question sur la manière dont SVM traite les points séparables de manière non linéaire par le biais de transformations non linéaires, et sur la manière dont la version à marge souple de SVM autorise les erreurs et les pénalise. De plus, le professeur aborde brièvement la relation entre le nombre de vecteurs de support et la dimension VC, et comment les alphas représentent les paramètres dans SVM.

  • 01:10:00 Dans cette section, le conférencier discute de la relation entre le nombre de paramètres non nuls et la dimension VC, qui équivaut au nombre de vecteurs de support par définition. La mesure de la marge peut varier selon la norme utilisée, mais il n'y a aucune raison impérieuse de préférer l'une à l'autre en termes de performance. Bien qu'il n'y ait pas de méthode directe pour élaguer les vecteurs de support, prendre des sous-ensembles et obtenir les vecteurs de support des vecteurs de support sont des considérations de calcul possibles. La méthode SVM n'est pas particulièrement sensible au bruit, et en cas de données bruyantes, la version logicielle de la méthode est utilisée, ce qui est remarquablement similaire au cas non bruyant.
 

Cours 15 - Méthodes du noyau



Cours d'apprentissage automatique de Caltech - CS 156. Cours 15 - Méthodes du noyau

Cette conférence sur les méthodes du noyau présente les machines à vecteurs de support (SVM) en tant que modèle linéaire plus axé sur les performances que les modèles de régression linéaire traditionnels en raison du concept de maximisation de la marge. Si les données ne sont pas linéairement séparables, des transformations non linéaires peuvent être utilisées pour créer des surfaces ondulées qui permettent toujours des hypothèses complexes sans payer un prix élevé en complexité. La vidéo explique les méthodes du noyau qui vont dans l'espace Z de grande dimension, expliquant comment calculer le produit interne sans calculer les vecteurs individuels. La vidéo décrit également les différentes approches pour obtenir un noyau valide pour les problèmes de classification et explique comment appliquer SVM aux données non séparables. Enfin, la vidéo explique le concept de mou et quantifie la violation de marge dans SVM, en introduisant une variable xi pour pénaliser la violation de marge et en passant en revue la formulation lagrangienne pour résoudre l'alpha.

La deuxième partie couvre les aspects pratiques de l'utilisation des machines à vecteurs de support (SVM) et des méthodes du noyau. Il explique le concept des machines à vecteurs de support de marge souple et comment elles permettent une certaine erreur de classification tout en maintenant une large marge. Il parle de l'importance du paramètre C, qui détermine combien de violation peut se produire, et suggère d'utiliser la validation croisée pour déterminer sa valeur. Il répond également aux préoccupations concernant la coordonnée constante dans les données transformées et assure aux utilisateurs qu'elle joue le même rôle que le terme de biais. De plus, il discute de la possibilité de combiner des noyaux pour produire de nouveaux noyaux et suggère des méthodes heuristiques qui peuvent être utilisées lorsque la programmation quadratique échoue à résoudre les SVM avec trop de points de données.

  • 00:00:00 Dans cette section de la conférence sur les méthodes du noyau, Yaser Abu-Mostafa présente le concept de machines à vecteurs de support (SVM), notant qu'elles ne sont rien d'autre qu'un modèle linéaire dans la forme la plus simple, mais sont plus axées sur les performances à cause de l'idée de maximiser la marge. En utilisant un package de programmation quadratique, nous pouvons résoudre le problème SVM et récupérer les alphas, ce qui nous aide à identifier les vecteurs de support. Si les données ne sont pas linéairement séparables, nous pouvons utiliser une transformation non linéaire, mais la surface ondulée résultante nous permet toujours d'obtenir une hypothèse complexe sans payer un prix élevé en complexité. Nous pouvons prédire l'erreur hors échantillon en fonction du nombre de vecteurs de support, qui est une quantité dans l'échantillon.

  • 00:05:00 Dans cette section, la vidéo explique le concept des méthodes du noyau et leur rôle dans l'extension des machines à vecteurs de support au-delà du cas séparable linéairement. L'idée derrière les méthodes du noyau est d'aller dans un espace Z de grande dimension sans payer le prix de la complexité. La vidéo explique que la clé pour y parvenir est de pouvoir calculer le produit interne dans l'espace Z sans réellement calculer les vecteurs individuels dans cet espace. C'est là qu'interviennent les noyaux, car ils permettent le calcul de produits internes en utilisant uniquement des entrées explicites. La vidéo explique ensuite les implications de ces méthodes pour traiter les transformations non linéaires et les marges souples, et comment elles peuvent être utilisées dans la pratique pour gérer des problèmes complexes.

  • 00:10:00 Dans cette section, la conférence explique l'utilisation du produit interne dans l'espace Z et son lien avec les méthodes du noyau. Le produit scalaire est nécessaire pour former le lagrangien et transmettre des contraintes à la programmation quadratique, mais il peut être calculé en utilisant uniquement des produits scalaires afin d'effectuer des machines à vecteurs de support. En utilisant un produit interne généralisé ou un noyau qui correspond à un espace Z, on peut transformer deux points x et x tiret en une fonction déterminée par x et x tiret, appelée noyau. Un exemple est donné d'un espace euclidien bidimensionnel utilisant une transformation polynomiale du 2ème ordre.

  • 00:15:00 Dans cette section, le conférencier discute du concept des méthodes du noyau et de la manière de calculer les noyaux sans transformer x et x dash. Le conférencier improvise un noyau qui ne transforme pas les choses dans l'espace Z et convainc le public que le noyau correspond à une transformation dans un certain espace Z, en y prenant un produit interne. En mettant au carré un noyau avec le 1 + x_xdash élevé à la puissance Q, le conférencier explique comment cela devient un produit scalaire dans un certain espace, ce qui en fait un noyau valide. De plus, le conférencier compare la quantité de calculs qu'il faudrait pour faire cela avec d'autres dimensions, quelle que soit la complexité de Q, qui reste la même.

  • 00:20:00 Dans cette section, le conférencier explique une méthode de noyau pour la transformation polynomiale qui peut être effectuée sans développer réellement le polynôme. En prenant le logarithme et en l'exponentiant, le polynôme devient une opération simple qui ne nécessite pas une expansion énorme. C'est un polynôme facile qui peut être visualisé en 2D et extrapolé pour d'autres cas. Un noyau qui correspond à un espace de dimension supérieure peut être obtenu en prenant un produit interne dans cet espace. L'enseignant présente un exemple de noyau qui n'a pas de terme de produit scalaire dans l'espace X ou Z mais correspond à un produit scalaire dans un espace de dimension infinie. Malgré les défis d'aller dans un espace de dimension infinie, la méthode du noyau est toujours utile et le nombre de vecteurs de support peut être utilisé pour déterminer la généralisation d'un modèle.

  • 00:25:00 Dans cette section, le conférencier démontre le noyau de la fonction de base radiale, un noyau sophistiqué qui correspond à un espace de dimension infinie, et montre comment il fonctionne en action en prenant un cas légèrement non séparable. Le conférencier génère 100 points au hasard et montre qu'il n'y a pas de ligne pour les séparer. Ensuite, l'enseignant transforme X en un espace de dimension infinie et calcule le noyau, qui est une simple exponentielle. L'enseignant transmet cela à la programmation quadratique, qui restitue les vecteurs supports. Lorsque l'enseignant assombrit les vecteurs supports, il devient plus facile de voir les deux classes.

  • 00:30:00 Dans cette section, l'orateur discute de l'idée des méthodes du noyau et de la manière dont elles peuvent être utilisées pour la classification. Il présente un exemple d'utilisation d'un noyau sur un ensemble de données de points afin de les transformer en un espace de dimension infinie où ils peuvent être séparés par un plan linéaire. Les vecteurs de marge et de support résultants sont utilisés pour déterminer la quantité dans l'échantillon qui guide la propriété de généralisation. L'orateur poursuit ensuite en expliquant comment un noyau valide correspondant à un produit scalaire dans un certain espace Z peut être utilisé pour formuler le problème et construire l'hypothèse. Dans l'ensemble, il met l'accent sur l'utilité des méthodes du noyau et sur la manière dont elles peuvent être appliquées pour résoudre des problèmes de classification.

  • 00:35:00 Dans cette section, nous apprenons à traduire le modèle linéaire en une forme de noyau, où les machines à vecteurs de support deviennent un modèle permettant de choisir le noyau. Le noyau prend la place du produit interne après que les produits internes sont pris avec l'espace Z. Le modèle résultant dépend du choix du noyau, et nous pouvons également résoudre pour b en branchant un vecteur de support. Le noyau, cependant, est difficile à déterminer car vous ne pouvez pas vérifier sa validité sans visiter l'espace Z. Néanmoins, nous illustrons comment nous pouvons comparer les approches en examinant la forme fonctionnelle de différents noyaux.

  • 00:40:00 Dans cette section, l'enseignant explique les conditions d'obtention d'un noyau valide dans les méthodes noyaux. Il existe trois approches : la construction, où un noyau est construit à partir d'un ensemble conceptuel ou explicite de transformations ; La condition de Mercer , qui nécessite qu'un noyau donné soit symétrique et qu'une matrice construite à partir des valeurs du noyau soit semi-définie positive; et enfin, une approche d'improvisation, où la viabilité du noyau est une préoccupation très pratique, et deux conditions doivent être simultanément satisfaites. Celles-ci sont que le noyau est symétrique et que la matrice construite à partir des valeurs du noyau doit être semi-définie positive pour tout choix de points, comme l'exige la condition de Mercer.

  • 00:45:00 Dans cette section, le conférencier décrit des situations où les données ne sont pas linéairement séparables et comment appliquer l'algorithme des machines à vecteurs de support dans de tels cas. Il pourrait y avoir deux scénarios de données non séparables, l'un où la non-séparabilité est faible et l'autre où la non-séparabilité est importante. Pour traiter des données séparables non linéaires, on peut faire des erreurs et apprendre avec la généralisation au lieu d'essayer d'utiliser des espaces complexes de dimensions excessivement élevées qui contiennent tous les points de données, maintenant ainsi l'erreur faible. En cas de non-séparabilité grave, il faut opter pour une transformation non linéaire et utiliser des noyaux ou des machines à vecteurs de support à marge souple. Le conférencier parle ensuite de l'idée de violation de marge et de la façon de la quantifier pour tenir compte des erreurs de classification.

  • 00:50:00 Dans cette section, le conférencier introduit le concept de mou et quantifie la violation de marge dans SVM. Il explique qu'il introduira une marge pour chaque point qui mesure la violation de marge, et pénalisera la violation totale commise en additionnant ces marges. Il choisit cette mesure d'erreur, qui est raisonnable et mesure la violation de la marge, plutôt que d'autres. Il présente ensuite la nouvelle optimisation, qui minimise le terme d'erreur de violation de marge, tout en maximisant la marge. La constante C donne l'importance relative de ce terme de violation de marge par rapport au terme précédent qui maximise la marge. Selon la valeur de C, le résultat final peut être une donnée linéairement séparable ou un compromis car il représente le compromis entre la marge et la marge. Enfin, il passe en revue la formulation lagrangienne avec l'ajout des nouveaux termes.

  • 00:55:00 Dans cette section, le conférencier explique le nouveau problème de programmation quadratique introduit en ajoutant la variable xi pour pénaliser les violations de marge. Le lagrangien inclut de nouvelles contraintes sur xi qui doivent être résolues pour utiliser les multiplicateurs de Lagrange, bêta. Le conférencier montre ensuite comment la minimisation de w et b reste inchangée et trouve que la résolution de xi donne une quantité qui est toujours nulle. Cette découverte conduit à l'abandon de bêta du lagrangien, laissant la même solution qu'auparavant, la seule ramification étant que alpha est désormais non seulement supérieur ou égal à zéro, mais également inférieur ou égal à C.

  • 01:00:00 Dans cette section de la vidéo, le conférencier passe en revue le concept de machines à vecteurs de support de marge souple, qui permettent une certaine erreur de classification tout en conservant une large marge. La solution implique une contrainte supplémentaire qui nécessite que alpha soit au plus C, ainsi que la contrainte d'égalité déjà existante. Les machines à vecteurs de support de marge souple comprennent à la fois des vecteurs de support de marge et sans marge, ces derniers étant les points qui violent la marge, provoquant un mou qui est représenté par la valeur xi. La valeur de C est un paramètre important qui détermine le degré de violation qui peut se produire, et cela est généralement déterminé par une validation croisée.

  • 01:05:00 Dans cette section, le conférencier discute des points pratiques sur l'utilisation des machines à vecteurs de support (SVM) et des méthodes du noyau. Il explique que si les données ne sont pas linéairement séparables, la programmation quadratique peut ne pas converger, conduisant à une situation où il n'y a pas de solution réalisable. Cependant, il encourage les utilisateurs à être paresseux et à toujours transmettre les alphas de la programmation quadratique à la solution pour évaluer si elle sépare ou non les données. De plus, il répond aux préoccupations concernant la coordonnée constante, 1, qui est transformée avec les données, expliquant qu'elle joue effectivement le même rôle que le terme de biais, b, et que les utilisateurs n'ont pas à s'inquiéter d'avoir plusieurs coordonnées avec le même rôle.

  • 01:10:00 Dans cette section, le professeur explique que la linéarité des machines à vecteurs de support (SVM) dépend de certaines hypothèses, et qu'elle peut être meilleure que linéaire dans certains cas. La dimension des données peut affecter l'efficacité de SVM, mais le noyau RBF peut traiter des dimensions infinies si les termes d'ordre supérieur se désintègrent rapidement. Un noyau valide doit avoir un produit interne bien défini, qui dépend de la convergence. Le professeur n'aborde pas les SVM généralisés aux cas de régression car ils nécessitent plus de détails techniques, et le principal succès des SVM réside dans la classification. Enfin, il peut y avoir des plaintes de progiciels de programmation quadratiques pour ne pas être définis positifs, mais les solutions peuvent toujours convenir avec une certaine fiabilité.

  • 01:15:00 Dans cette section, le professeur discute de la possibilité de combiner des noyaux pour produire de nouveaux noyaux et de la nécessité pour la combinaison de maintenir un produit interne dans un espace Z. Il mentionne également que le problème de programmation quadratique est le goulot d'étranglement dans la résolution des problèmes avec les SVM et donne une estimation du nombre de points qui peuvent être traités par la programmation quadratique. De plus, il suggère des méthodes heuristiques qui peuvent être utilisées lorsque la programmation quadratique échoue à résoudre les SVM avec trop de points de données.