Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Cours 6 - Théorie de la généralisation
Cours d'apprentissage automatique de Caltech - CS 156. Cours 06 - Théorie de la généralisation
Le cours traite de la théorie de la généralisation et de la fonction de croissance comme le nombre de dichotomies pouvant être générées par une hypothèse posée sur un ensemble de N points, le but étant de caractériser l'ensemble de la fonction de croissance et de généraliser pour tout N en caractérisant la rupture indiquer. L'orateur démontre le processus de calcul de la fonction de croissance pour différents ensembles d'hypothèses et prouve la limite supérieure de la fonction de croissance en utilisant l'identité combinatoire. La discussion aborde également l'utilisation de la fonction de croissance dans l'inégalité de Hoeffding, le VC destiné à caractériser les chevauchements entre hypothèses et l'inégalité de Vapnik-Chervonenkis, qui est polynomiale en N avec l'ordre du polynôme décidé par le point de rupture.
Le professeur aborde la théorie de la généralisation, clarifie les points précédents et explique le concept de point d'arrêt, qui sert à calculer les ressources nécessaires à l'apprentissage. L'accent de l'apprentissage est mis sur l'approximation de E_out, et non de E_in, ce qui permet à l'apprenant de travailler avec des quantités familières. Le professeur explique également le raisonnement derrière le remplacement de M par la fonction de croissance et comment cela est lié à la quantité combinatoire B de N et k. Tout en discutant des fonctions de régression, le professeur met l'accent sur le compromis biais-variance et sur le fait que l'apprenabilité est indépendante de la fonction cible. Enfin, le professeur note que les mêmes principes s'appliquent à tous les types de fonctions.
Cours 07 - La dimension VC
Cours d'apprentissage automatique de Caltech - CS 156. Cours 07 - La dimension VC
La conférence introduit le concept de dimension VC, qui est le nombre maximum de points qui peuvent être brisés par un ensemble d'hypothèses, et explique ses applications pratiques. La dimension VC représente les degrés de liberté d'un modèle, et sa relation avec le nombre de paramètres dans un modèle est discutée. Des exemples sont donnés pour montrer comment calculer la dimension VC pour différents ensembles d'hypothèses. La relation entre le nombre d'exemples nécessaires et la dimension CV est explorée, et il est noté qu'il existe une relation proportionnelle entre les deux. Les implications de l'augmentation de la dimension VC sur les performances d'un algorithme d'apprentissage sont également discutées. Dans l'ensemble, la conférence donne un aperçu de la théorie du VC et de ses implications pratiques pour l'apprentissage automatique.
La vidéo couvre également le concept de généralisation et la limite de généralisation, qui est une déclaration positive qui montre le compromis entre la taille de l'ensemble d'hypothèses et une bonne généralisation dans l'apprentissage automatique. Le professeur explique la dimension VC, qui est la plus grande valeur avant le premier point de rupture, et comment elle peut être utilisée pour approximer le nombre d'exemples nécessaires. Il note l'importance de choisir la bonne mesure d'erreur et précise que l'estimation de la dimension VC est une estimation lâche qui peut être utilisée pour comparer des modèles et estimer le nombre d'exemples nécessaires. La conférence se termine en soulignant les points communs entre ce matériel et le sujet de la conception d'expériences et comment les principes d'apprentissage s'étendent à d'autres situations au-delà des scénarios d'apprentissage stricts.
Cours 8 - Compromis Biais-Variance
Cours d'apprentissage automatique de Caltech - CS 156. Cours 08 - Compromis biais-variance
Le professeur discute du compromis biais-variance dans l'apprentissage automatique, expliquant comment la complexité de l'ensemble d'hypothèses affecte le compromis entre généralisation et approximation. Le conférencier introduit le concept de biais et de variance, qui mesure l'écart entre la moyenne des hypothèses produites par un algorithme d'apprentissage automatique et la fonction cible réelle, ainsi que la variation de la distribution des hypothèses d'un modèle donné en fonction de différents ensembles de données, respectivement. Le compromis se traduit par un ensemble d'hypothèses plus grand ayant un biais plus petit mais une variance plus grande, tandis qu'un ensemble d'hypothèses plus petit aura un biais plus grand mais une variance plus petite. Le conférencier souligne l'importance d'avoir suffisamment de ressources de données pour naviguer efficacement dans l'ensemble d'hypothèses et souligne la différence d'échelle entre l'analyse biais-variance et l'analyse VC.
Il discute également du compromis entre les modèles simples et complexes en termes de leur capacité à se rapprocher et à généraliser, avec moins d'exemples nécessitant des modèles simples et de plus grandes ressources d'exemples nécessitant des modèles plus complexes. L'analyse biais-variance est spécifique à la régression linéaire et suppose la connaissance de la fonction cible, la validation étant l'étalon-or pour choisir un modèle. L'apprentissage d'ensemble est discuté via Bagging, qui utilise le bootstrap pour faire la moyenne de plusieurs ensembles de données, réduisant ainsi la variance. L'équilibre entre la variance et la covariance dans l'apprentissage d'ensemble est également expliqué, et la régression linéaire est classée comme une technique d'apprentissage avec l'ajustement comme première partie de l'apprentissage, tandis que la théorie met l'accent sur de bonnes performances hors échantillon.
Cours 9 - Le modèle linéaire II
Cours d'apprentissage automatique de Caltech - CS 156. Cours 09 - Le modèle linéaire II
Cette conférence couvre divers aspects du modèle linéaire, y compris la décomposition biais-variance, les courbes d'apprentissage et les techniques pour les modèles linéaires tels que les perceptrons, la régression linéaire et la régression logistique. L'orateur met l'accent sur le compromis entre complexité et performance de généralisation, mettant en garde contre le surajustement et soulignant l'importance de charger correctement la dimension VC de l'espace des hypothèses pour des garanties valides. L'utilisation de transformées non linéaires et leur impact sur le comportement de généralisation sont également discutés. Le cours couvre en outre la fonction logistique et ses applications dans l'estimation des probabilités, et introduit les concepts de vraisemblance et de mesures d'erreur d'entropie croisée dans le contexte de la régression logistique. Enfin, des méthodes itératives d'optimisation de la fonction d'erreur, telles que la descente de gradient, sont expliquées.
La conférence couvre également une gamme de sujets liés aux modèles linéaires et aux algorithmes d'optimisation dans l'apprentissage automatique. Le professeur explique le compromis entre le taux d'apprentissage et la vitesse dans l'optimisation de la descente de gradient, présente l'algorithme de régression logistique et discute de ses mesures d'erreur et de son algorithme d'apprentissage. Les défis de la terminaison en descente de gradient et de la classification multi-classes sont également abordés. Le rôle de la dérivation et de la sélection de caractéristiques dans l'apprentissage automatique est souligné et discuté comme un art dans les domaines d'application, chargé en termes de dimension VC. Dans l'ensemble, cette conférence fournit un aperçu complet des modèles linéaires et des algorithmes d'optimisation pour l'apprentissage automatique.
Cours 10 - Réseaux de neurones
Cours d'apprentissage automatique de Caltech - CS 156. Cours 10 - Réseaux de neurones
Yaser Abu-Mostafa, professeur au California Institute of Technology, discute de la régression logistique et des réseaux de neurones dans cette conférence. La régression logistique est un modèle linéaire qui calcule une interprétation probabiliste d'une fonction à valeur réelle bornée. Il est incapable d'optimiser directement sa mesure d'erreur, de sorte que la méthode de descente de gradient est introduite pour minimiser une fonction non linéaire arbitraire qui est suffisamment lisse et deux fois différentiable. Bien qu'il n'y ait pas de solution de forme fermée, la mesure d'erreur est une fonction convexe, ce qui la rend relativement facile à optimiser à l'aide de la descente de gradient.
La descente de gradient stochastique est une extension de la descente de gradient utilisée dans les réseaux de neurones. Les réseaux de neurones sont un modèle qui implémente une hypothèse motivée par un point de vue biologique et liée aux perceptrons. L'algorithme de rétropropagation est un algorithme efficace qui accompagne les réseaux de neurones et rend le modèle particulièrement pratique. Le modèle a un lien biologique qui a excité les gens et était facile à mettre en œuvre à l'aide de l'algorithme. Bien qu'il ne s'agisse pas du modèle de choix de nos jours, les réseaux de neurones ont réussi dans les applications pratiques et sont toujours utilisés comme norme dans de nombreuses industries, telles que la banque et l'approbation de crédit.
Bref résumé:
Cours 11 - Sur-ajustement
Cours d'apprentissage automatique de Caltech - CS 156. Cours 11 - Surajustement
Cette conférence présente le concept et l'importance du surajustement dans l'apprentissage automatique. Le surajustement se produit lorsqu'un modèle est formé sur le bruit au lieu du signal, ce qui entraîne un mauvais ajustement hors échantillon. La conférence comprend diverses expériences pour illustrer les effets de différents paramètres, tels que le niveau de bruit et la complexité de la cible, sur le surajustement. L'enseignant insiste sur l'importance d'une détection précoce du surapprentissage et sur l'utilisation de techniques de régularisation et de validation pour le prévenir. L'impact du bruit déterministe et stochastique sur le surajustement est également discuté, et la conférence se termine en introduisant les deux prochaines conférences sur la manière d'éviter le surajustement par la régularisation et la validation.
Le concept de surajustement est discuté et l'importance de la régularisation pour le prévenir est soulignée. Le professeur met en évidence le compromis entre le surajustement et le sous-ajustement et explique le rôle de la dimension VC dans le surajustement, où l'écart dans la dimension VC étant donné le même nombre d'exemples entraîne des écarts dans l'erreur hors échantillon et dans l'échantillon. La question pratique de la validation d'un modèle et de son impact sur le surajustement et la sélection du modèle est également abordée. De plus, le professeur souligne le rôle des fonctions linéaires par morceaux dans la prévention du surajustement et souligne l'importance de considérer le nombre de degrés de liberté dans le modèle et de le restreindre par la régularisation.
Cours 12 - Régularisation
Cours d'apprentissage automatique de Caltech - CS 156. Cours 12 - Régularisation
Cette conférence sur la régularisation commence par une explication du surajustement et de son impact négatif sur la généralisation des modèles d'apprentissage automatique. Deux approches de la régularisation sont discutées : mathématique et heuristique. Le cours se penche ensuite sur l'impact de la régularisation sur le biais et la variance dans les modèles linéaires, en utilisant l'exemple des polynômes de Legendre comme composants d'expansion. La relation entre C et lambda dans la régularisation est également couverte, avec une introduction à l'erreur augmentée et son rôle dans la justification de la régularisation pour la généralisation. Les techniques de décroissance/croissance du poids et l'importance de choisir le bon régularisateur pour éviter le surajustement sont également abordées. La conférence se termine par un accent sur le choix d'un bon oméga comme exercice heuristique et espère que lambda servira de grâce salvatrice pour la régularisation.
La deuxième partie traite de la décroissance du poids comme moyen d'équilibrer la simplicité du réseau avec sa fonctionnalité. Le conférencier met en garde contre une régularisation excessive et des performances non optimales, mettant l'accent sur l'utilisation de la validation pour déterminer les paramètres de régularisation optimaux pour différents niveaux de bruit. La régularisation est considérée comme expérimentale avec une base théorique et pratique. Les types courants de régularisation tels que L1/L2, l'arrêt précoce et l'abandon sont présentés, ainsi que la manière de déterminer la méthode de régularisation appropriée pour différents problèmes. Les hyperparamètres communs associés à la mise en œuvre de la régularisation sont également discutés.
Cours 13 - Validation
Cours d'apprentissage automatique de Caltech - CS 156. Cours 13 - Validation
Dans la conférence 13, l'accent est mis sur la validation en tant que technique importante dans l'apprentissage automatique pour la sélection de modèles. La conférence aborde les spécificités de la validation, y compris pourquoi elle s'appelle validation et pourquoi elle est importante pour la sélection du modèle. La validation croisée est également discutée comme un type de validation qui permet l'utilisation de tous les exemples disponibles pour la formation et la validation. L'enseignant explique comment estimer l'erreur hors échantillon à l'aide de la variable aléatoire qui prend un point hors échantillon et calcule la différence entre l'hypothèse et la valeur cible. La conférence aborde également le biais introduit lors de l'utilisation de l'estimation pour choisir un modèle particulier, car il n'est plus fiable car il a été sélectionné sur la base de l'ensemble de validation. Le concept de validation croisée est introduit comme méthode d'évaluation de l'erreur hors échantillon pour différentes hypothèses.
Il couvre également l'utilisation de la validation croisée pour la sélection et la validation des modèles afin d'éviter le surajustement, en mettant l'accent sur le "laissez-en un" et la validation croisée 10 fois. Le professeur démontre l'importance de tenir compte des écarts hors échantillon et de l'espionnage des données, et suggère d'inclure des méthodes de randomisation pour éviter les biais d'échantillonnage. Il explique que bien que la validation croisée puisse ajouter de la complexité, la combiner avec la régularisation peut sélectionner le meilleur modèle, et parce que la validation ne nécessite pas d'hypothèses, elle est unique. Le professeur explique en outre comment la validation croisée peut aider à faire des choix fondés même en comparant différents scénarios et modèles, et comment le nombre total de points de validation détermine la barre d'erreur et le biais.
Cours 14 - Machines à vecteurs de support
Cours d'apprentissage automatique de Caltech - CS 156. Cours 14 - Support Vector Machines
La conférence couvre l'importance de la validation et son utilisation dans l'apprentissage automatique, ainsi que les avantages de la validation croisée par rapport à la validation. L'accent est mis sur les machines à vecteurs de support (SVM) en tant que modèle d'apprentissage le plus efficace pour la classification, avec un aperçu détaillé de la section qui implique la maximisation de la marge, la formulation et les solutions analytiques grâce à l'optimisation contrainte présentée. La conférence couvre une gamme de techniques, y compris comment calculer la distance entre un point et un hyperplan dans les SVM, comment résoudre le problème d'optimisation pour les SVM et comment formuler le problème d'optimisation des SVM dans sa double formulation. Le conférencier aborde également les aspects pratiques de l'utilisation de la programmation quadratique pour résoudre le problème d'optimisation et l'importance d'identifier les vecteurs de support. La conférence se termine par une brève discussion sur l'utilisation des transformations non linéaires dans les SVM.
Dans la deuxième partie de ce cours sur les machines à vecteurs de support (SVM), le conférencier explique comment le nombre de vecteurs de support divisé par le nombre d'exemples donne une borne supérieure sur la probabilité d'erreur dans la classification d'un point hors échantillon, ce qui rend le utilisation de vecteurs de support avec transformation non linéaire possible. Le professeur discute également de la normalisation de w transposé x plus b à 1 et de sa nécessité pour l'optimisation, ainsi que de la version à marge souple de SVM, qui autorise les erreurs et les pénalise. De plus, la relation entre le nombre de vecteurs de support et la dimension VC est expliquée, et la résistance de la méthode au bruit est mentionnée, avec la version soft de la méthode utilisée en cas de données bruitées.
Cours 15 - Méthodes du noyau
Cours d'apprentissage automatique de Caltech - CS 156. Cours 15 - Méthodes du noyau
Cette conférence sur les méthodes du noyau présente les machines à vecteurs de support (SVM) en tant que modèle linéaire plus axé sur les performances que les modèles de régression linéaire traditionnels en raison du concept de maximisation de la marge. Si les données ne sont pas linéairement séparables, des transformations non linéaires peuvent être utilisées pour créer des surfaces ondulées qui permettent toujours des hypothèses complexes sans payer un prix élevé en complexité. La vidéo explique les méthodes du noyau qui vont dans l'espace Z de grande dimension, expliquant comment calculer le produit interne sans calculer les vecteurs individuels. La vidéo décrit également les différentes approches pour obtenir un noyau valide pour les problèmes de classification et explique comment appliquer SVM aux données non séparables. Enfin, la vidéo explique le concept de mou et quantifie la violation de marge dans SVM, en introduisant une variable xi pour pénaliser la violation de marge et en passant en revue la formulation lagrangienne pour résoudre l'alpha.
La deuxième partie couvre les aspects pratiques de l'utilisation des machines à vecteurs de support (SVM) et des méthodes du noyau. Il explique le concept des machines à vecteurs de support de marge souple et comment elles permettent une certaine erreur de classification tout en maintenant une large marge. Il parle de l'importance du paramètre C, qui détermine combien de violation peut se produire, et suggère d'utiliser la validation croisée pour déterminer sa valeur. Il répond également aux préoccupations concernant la coordonnée constante dans les données transformées et assure aux utilisateurs qu'elle joue le même rôle que le terme de biais. De plus, il discute de la possibilité de combiner des noyaux pour produire de nouveaux noyaux et suggère des méthodes heuristiques qui peuvent être utilisées lorsque la programmation quadratique échoue à résoudre les SVM avec trop de points de données.