Apprentissage Automatique et Réseaux Neuronaux - page 50

 

Tutoriel sur la science des données - Cours complet sur la science des données [2020] (1-3)


Tutoriel sur la science des données - Cours complet sur la science des données [2020]

Partie 1

  • 00:00:00 Ainsi, la science des données est un domaine qui traite de la résolution créative de problèmes à l'aide d'outils de codage, de mathématiques et de statistiques dans des contextes appliqués. Cela implique d'écouter toutes les données et d'être plus inclusif dans l'analyse pour mieux comprendre les questions de recherche. Ce domaine est très demandé car il offre un avantage concurrentiel et un aperçu de ce qui se passe autour de nous. McKinsey Global Institute a prévu le besoin de postes de talents analytiques approfondis et de gestionnaires et d'analystes qui comprennent les données pour prendre des décisions commerciales.

  • 00: 05: 00 La vidéo traite de la forte demande et du besoin critique de science des données, qui comprend à la fois des spécialistes et des généralistes, compte tenu des 1,5 million d'offres d'emploi prévues pour les gestionnaires avertis en matière de données. Le diagramme de Venn de la science des données, créé par Drew Conway, illustre que le codage, les mathématiques/statistiques et l'expertise du domaine sont les trois composantes de la science des données, l'intersection de celles-ci constituant le domaine. L'importance du codage réside dans la capacité à collecter et à préparer des données à partir de nouvelles sources, avec des langages essentiels tels que R, Python, SQL et Bash. La section se termine en mentionnant comment la science des données est une alternative de carrière convaincante et peut améliorer l'un dans n'importe quel domaine, les scientifiques des données se classant au troisième rang des dix salaires les plus rémunérateurs aux États-Unis.

  • 00: 10: 00 La vidéo traite des trois composants du diagramme de Venn de la science des données : compétences en piratage, connaissances en mathématiques et en statistiques et expertise du domaine. La vidéo explique que même si ces éléments se chevauchent, la capacité d'utiliser les trois avec succès est importante pour accomplir quelque chose de pratique. La vidéo explore ensuite trois domaines distincts qui se chevauchent et se croisent dans le diagramme : la recherche traditionnelle, l'apprentissage automatique et "la zone de danger", ou l'intersection du codage et de la connaissance du domaine sans mathématiques ni statistiques. De plus, la vidéo met en évidence trois parcours différents qui sont importants en science des données : le codage, les statistiques et un parcours dans un domaine spécifique. La vidéo se termine en soulignant qu'il existe de nombreux rôles impliqués dans la science des données, et que diverses compétences et expériences sont nécessaires pour mener à bien un projet de science des données.

  • 00:15:00 Les étapes générales du parcours de science des données sont expliquées. Ces étapes comprennent la planification, la préparation des données, la modélisation ou la modélisation statistique et le suivi. La planification implique la définition des objectifs du projet, l'organisation des ressources, la coordination des personnes et la création d'un calendrier. La préparation des données comprend l'obtention et le nettoyage des données, leur exploration et leur affinement. Lors de la modélisation ou de la modélisation statistique, des modèles statistiques sont créés, validés, évalués et affinés. Le suivi consiste à présenter et à déployer le modèle, à le revoir pour voir s'il fonctionne bien et à archiver les actifs. Il est à noter que la science des données n'est pas seulement un domaine technique, mais nécessite des compétences en matière de planification, de présentation et de contexte. De plus, différents rôles existent dans la science des données, y compris les ingénieurs qui se concentrent sur le matériel back-end.

  • 00:20:00 La vidéo traite des différents types de personnes impliquées dans la science des données. Ceux-ci incluent les développeurs, les développeurs de logiciels et les administrateurs de bases de données qui constituent la base de la science des données. Les spécialistes du Big Data se concentrent sur le traitement de grandes quantités de données et la création de produits de données tels que les systèmes de recommandation. Les chercheurs se concentrent sur la recherche spécifique à un domaine et possèdent de solides compétences en statistiques. Les analystes jouent un rôle essentiel dans les tâches quotidiennes de gestion d'une entreprise, tandis que les entrepreneurs ont besoin de données et de compétences commerciales. Enfin, la vidéo parle d'équipes en science des données et du fait qu'il n'y a pas de "licornes à pile complète" qui possèdent toutes les compétences en science des données. Au lieu de cela, les gens ont des forces différentes et il est important d'apprendre à travailler efficacement au sein d'une équipe pour mener à bien les projets.

  • 00:25:00 L'importance du travail d'équipe en science des données est soulignée, car une personne ne peut généralement pas couvrir toutes les compétences nécessaires à un projet. L'exemple de deux personnes fictives, Otto et Lucy, est utilisé pour démontrer comment la combinaison de leurs capacités peut créer une "équipe licorne" capable de répondre aux critères requis pour un projet de science des données. De plus, la distinction entre science des données et mégadonnées est explorée, à l'aide de diagrammes de Venn. Il est expliqué que même si les mégadonnées ne nécessitent pas tous les outils de la science des données, tels que l'expertise du domaine et l'analyse statistique, elles nécessitent toujours des compétences en matière de codage et de quantification. À l'inverse, la science des données peut se faire sans big data, mais nécessite tout de même au moins une des trois caractéristiques du big data.

  • 00:30:00 L'orateur discute de la distinction entre le big data et la science des données, ainsi que de la différence entre la science des données et la programmation informatique. L'orateur explique que les mégadonnées font référence au volume, à la vitesse ou à la variété des données, tandis que la science des données combine les trois et nécessite des compétences plus spécialisées telles que le codage, les statistiques, les mathématiques et l'expertise du domaine. Pendant ce temps, la programmation informatique consiste à donner des instructions de tâche aux machines, ce qui est différent de l'analyse complexe requise en science des données. Malgré le partage de certains outils et pratiques avec le codage, la science des données nécessite une base statistique solide.

  • 00:35:00 La différence entre la science des données et les statistiques est expliquée. Bien qu'ils partagent des procédures, la science des données n'est pas un sous-ensemble des statistiques, car la plupart des scientifiques des données ne sont pas formellement formés en tant que statisticiens. De plus, l'apprentissage automatique et le big data sont des domaines importants pour la science des données qui ne sont pas partagés avec la plupart des statistiques. Ils diffèrent également dans leurs contextes de travail, les scientifiques des données travaillant souvent dans des environnements commerciaux par rapport aux statisticiens. Bien qu'ils partagent l'analyse des données, ils ont des niches et des objectifs différents qui en font des domaines conceptuellement distincts malgré le chevauchement apparent. L'intelligence d'affaires, ou BI, s'oppose également à la science des données, car la BI est très appliquée et n'implique pas de codage.

  • 00:40:00 L'instructeur explique la relation entre la science des données et l'intelligence d'affaires (BI). BI se concentre principalement sur l'analyse de données simple et efficace en mettant l'accent sur l'expertise du domaine. Cependant, la science des données peut aider à mettre en place et à étendre les systèmes de BI en identifiant les sources de données et en fournissant une analyse de données plus complexe. De plus, les praticiens de la science des données peuvent en apprendre davantage sur la conception et la convivialité des applications BI. L'instructeur aborde également les questions éthiques en science des données, y compris les problèmes de confidentialité, d'anonymat et de droit d'auteur, en soulignant l'importance de maintenir la confidentialité des données.

  • 00:45:00 L'orateur parle des risques liés aux projets de science des données. L'un de ces risques est la sécurité des données, car les pirates peuvent tenter de voler des données précieuses. Un autre risque est le potentiel de biais dans les algorithmes et les formules utilisés en science des données, ce qui peut conduire à une discrimination involontaire basée sur des facteurs tels que le sexe ou la race. L'excès de confiance dans les analyses, qui peut conduire à se tromper de chemin, est un autre risque. Malgré ces risques, la science des données a un potentiel énorme et l'orateur donne un bref aperçu des méthodes utilisées dans la science des données, y compris l'approvisionnement en données, le codage, les mathématiques, les statistiques et l'apprentissage automatique, en mettant l'accent sur la perspicacité et les outils et la technologie comme ils servir à poursuivre cet objectif.

  • 00:50:00 Le didacticiel vidéo aborde les différentes méthodes d'approvisionnement en données utilisées en science des données et souligne l'importance d'évaluer la qualité des données. Ces méthodes incluent l'utilisation de données existantes, les API de données, le grattage de données Web et la création de nouvelles données par le biais d'enquêtes ou d'expériences. Il est important d'évaluer la qualité des données recueillies, car "les ordures entrantes, les ordures sortantes" en tant que mauvaises données conduisent à de mauvaises informations. Par conséquent, il est nécessaire de vérifier la pertinence, l'exactitude et la signification des données, et des métriques telles que les métriques commerciales, les KPI et la précision de la classification peuvent aider à cela. La prochaine étape des méthodes de science des données est le codage, qui consiste à entrer dans les données pour les maîtriser. Cependant, il est important de se rappeler que le codage n'est qu'une partie de la science des données, et que la science des données est plus que de simples procédures techniques.

  • 00:55:00 Le narrateur explique les trois catégories d'outils pertinents pour la science des données : les applications, les formats de données et le code. Certains outils courants incluent Excel et R, qui peuvent accomplir de nombreuses tâches. Cependant, le narrateur souligne que les outils ne sont qu'un moyen d'atteindre une fin et que la partie la plus importante de la science des données consiste à comprendre l'objectif et à choisir les bons outils et données pour atteindre cet objectif. Le narrateur aborde ensuite brièvement le rôle des mathématiques dans la science des données ; bien que les ordinateurs puissent effectuer de nombreuses procédures mathématiques, il est toujours important d'avoir une compréhension mathématique car cela permet des choix éclairés, permet le débogage lorsque les choses tournent mal, et parfois les calculs manuels peuvent être plus faciles et plus rapides.

Partie 2

  • 01:00:00 L'orateur discute de l'importance d'avoir des connaissances de base en mathématiques pour la science des données. Les bases de l'algèbre, de l'algèbre linéaire ou matricielle, des systèmes d'équations linéaires, du calcul, du grand O, de la théorie des probabilités et du théorème de Bayes sont toutes pertinentes en science des données. Un peu de connaissances en mathématiques peut aider à la résolution de problèmes et à la capacité d'examiner les problèmes. L'orateur donne ensuite un bref aperçu des statistiques en science des données, y compris les graphiques et statistiques exploratoires, et l'inférence, comme les tests d'hypothèses et les estimations. L'orateur mentionne également certains problèmes potentiels tels que la sélection des fonctionnalités, la validation et le choix des estimateurs, mais avertit le public des trolls et de prendre des décisions éclairées par eux-mêmes pour effectuer des analyses utiles.

  • 01:05:00 L'orateur résume les concepts de statistiques et d'apprentissage automatique. Il déclare que les statistiques permettent l'exploration et la description des données, ainsi que l'inférence sur la population. L'apprentissage automatique est un outil utilisé pour catégoriser les cas, prédire les scores et réduire la dimensionnalité de grands ensembles de données dispersés. L'objectif est d'obtenir un aperçu utile des données, et la visualisation et la communication sont essentielles pour guider les gens à travers une histoire basée sur les données à résoudre pour la valeur. L'équation de la valeur est l'analyse multipliée par l'histoire, il est donc important de se concentrer sur la narration et la communication en plus de l'analyse technique.

  • 01:10:00 La vidéo explique l'importance d'une analyse axée sur les objectifs et comment il est essentiel de communiquer d'une manière que les clients peuvent facilement comprendre. L'intervenant insiste sur la nécessité pour l'analyste d'éviter l'égocentrisme, le faux consensus et l'ancrage pour rendre le projet simplement compréhensible pour les clients. En termes de livraison de l'analyse, la vidéo souligne l'importance de la simplification. La vidéo suggère que des graphiques et des tableaux soient utilisés pour présenter l'analyse plutôt que du texte et que l'analyste ne présente les détails techniques que lorsque cela est nécessaire. La vidéo donne ensuite l'exemple d'un ensemble de données concernant les admissions aux études supérieures de 1973 à l'Université de Berkeley pour démontrer la bonne manière de présenter les données de manière simplifiée.

  • 01:15:00 L'instructeur explique le concept du paradoxe de Simpson, où le biais peut être négligeable au niveau du département mais significatif lorsque l'on considère l'ensemble de données complet. L'exemple des dossiers d'admission de Berkeley a montré que les femmes avaient un taux d'acceptation inférieur; cependant, cela était dû au fait que les femmes postulaient à des programmes plus sélectifs, des programmes avec des taux d'acceptation plus faibles. L'instructeur insiste sur l'importance de poser des questions de suivi au-delà de l'analyse au niveau de la surface, telles que l'examen des critères d'admission, des stratégies de promotion, de la formation antérieure et des niveaux de financement des différents programmes. Le but ultime de l'analyse des données est de fournir des informations exploitables qui peuvent guider la prise de décision et atteindre un objectif spécifique pour le client. Par conséquent, il est essentiel de justifier les recommandations avec des données et de s'assurer qu'elles sont réalisables et dans les limites des capacités du client.

  • 01:20:00 La différence fondamentale entre corrélation et causalité est expliquée. Alors que les données donnent une corrélation, les clients veulent savoir ce qui cause quelque chose, ce qui peut être réalisé grâce à des études expérimentales, des quasi-expériences, une théorie basée sur la recherche et une expérience spécifique à un domaine. De plus, des facteurs sociaux doivent être pris en compte, notamment la mission et l'identité du client, l'environnement commercial et réglementaire et le contexte social à l'intérieur et à l'extérieur de l'organisation. Les graphiques de présentation sont également abordés, les graphiques exploratoires étant simples et à l'avantage de l'analyste, tandis que les graphiques de présentation nécessitent de la clarté et un flux narratif pour éviter les distractions, telles que la couleur, les fausses dimensions, l'interaction et l'animation.

  • 01:25:00 L'orateur utilise des exemples pour démontrer ce qu'il ne faut pas faire lors de la visualisation des données, puis donne des exemples de graphiques clairs et efficaces. Ils soulignent l'importance de créer un flux narratif dans les graphiques de présentation et expliquent comment y parvenir à l'aide de graphiques simples et faciles à lire. L'objectif général des graphiques de présentation est de raconter une histoire et de communiquer des données clairement et efficacement. L'orateur souligne que les graphiques de présentation doivent être clairs et ciblés pour atteindre cet objectif.

  • 01:30:00 L'intervenant insiste sur l'importance de la recherche reproductible en science des données, c'est-à-dire l'idée de pouvoir reproduire un projet dans le futur pour en vérifier les résultats. Ceci est réalisé en archivant tous les ensembles de données et codes utilisés dans le processus, en les stockant dans des formats non propriétaires et en rendant la recherche transparente grâce à l'annotation. L'Open Science Framework et l'Open Data Science Conference ont également été mentionnés comme des ressources pour partager la recherche avec d'autres et promouvoir la responsabilisation. Le conférencier suggère d'utiliser les cahiers Jupyter ou RMarkdown comme cahiers numériques pour expliquer les processus et créer un récit fort qui peut être transmis à de futurs collègues ou clients.

  • 01:35:00 L'orateur discute de l'utilisation de RMarkdown pour archiver le travail et soutenir la collaboration. L'analyse R peut être affichée sous forme d'en-têtes formatés, de texte et de sortie R, qui peuvent être téléchargés sur RPubs et partagés avec d'autres. Pour pérenniser votre travail, il est important d'expliquer vos choix, de montrer comment vous l'avez fait et de partager votre récit, afin que les gens comprennent votre processus et vos conclusions. L'orateur suggère les prochaines étapes pour les téléspectateurs, y compris essayer le codage en R ou Python, la visualisation des données, approfondir les statistiques et les mathématiques, essayer l'apprentissage automatique, s'impliquer dans la communauté de la science des données et rendre service. Le conférencier conclut en soulignant l'importance pour chacun d'apprendre à travailler avec des données de manière intelligente et sensible, car la science des données est fondamentalement démocratique.

  • 01:40:00 L'instructeur discute de l'importance de définir des mesures de réussite dans les projets de science des données. Il explique que les objectifs doivent être explicites et doivent guider l'effort global, aidant toutes les personnes impliquées à être plus efficaces et productives. L'instructeur note qu'afin de définir des paramètres de réussite, il est important de comprendre le domaine ou l'industrie spécifique dans lequel le projet se déroule. Cela peut inclure des mesures telles que le chiffre d'affaires, les taux de clics, les scores aux tests et les taux de rétention, entre autres. De plus, la discussion couvre les indicateurs de performance clés (KPI) et les objectifs SMART, qui peuvent tous deux aider les organisations et les équipes à définir leurs mesures de réussite de manière claire et mesurable.

  • 01:45:00 L'importance de mettre en place des objectifs organisationnels mesurables et des mesures de réussite est discutée. Lors de la définition du succès et de la mesure des progrès, il est important d'être réaliste, spécifique et limité dans le temps dans les objectifs fixés. Cependant, lorsqu'il s'agit d'équilibrer plusieurs objectifs qui peuvent être contradictoires, vous devez optimiser et trouver l'équilibre idéal des efforts. La précision des mesures est également cruciale, et la création d'un tableau de classification peut aider à déterminer la précision des tests, y compris la sensibilité, la spécificité, la valeur prédictive positive et la valeur prédictive négative. Ces métriques définissent la précision différemment, comme mesurer si une alarme se déclenche pendant un incendie ou si l'alarme identifie correctement lorsqu'il n'y a pas d'incendie.

  • 01:50:00 L'instructeur insiste sur l'importance de comprendre le contexte social de la mesure dans la recherche de données. Les gens ont leurs propres objectifs et sentiments, qui affectent la précision de la mesure. Les organisations ont leurs propres modèles commerciaux, lois, politiques et pratiques culturelles qui limitent la manière dont les objectifs peuvent être atteints. Il existe une concurrence à la fois entre les organisations et au sein de l'organisation, et les gens ont tendance à manipuler les systèmes de récompense à leur avantage. Malgré ces problèmes, il est toujours possible d'obtenir de bonnes métriques avec l'approvisionnement en données, en particulier en utilisant des données existantes telles que des données internes, ouvertes et tierces.

  • 01:55:00 L'orateur couvre différents types de sources de données disponibles pour les projets de science des données. Les données internes sont rapides et faciles à utiliser, mais elles peuvent ne pas exister, la documentation peut faire défaut et la qualité peut être discutable. Les sources de données ouvertes, telles que data.gov, fournissent des données standardisées librement disponibles et bien documentées, mais elles peuvent avoir des échantillons biaisés et des problèmes de confidentialité. Une troisième option est les données en tant que service ou les courtiers en données, tels qu'Acxiom et Nielsen, qui fournissent une énorme quantité de données sur divers sujets, notamment les comportements et les préférences des consommateurs, le marketing, l'identité et les finances, mais à un coût.

Partie 3

  • 02:00:00 L'orateur discute des avantages et des inconvénients de l'utilisation de courtiers en données comme source de données. Bien que les données au niveau individuel puissent être obtenues auprès de courtiers en données, ce qui facilite l'accès à des informations spécifiques sur les consommateurs, cela peut être coûteux et une validation est toujours nécessaire. Alternativement, les API fournissent un moyen numérique d'obtenir des données Web, permettant aux programmes de se parler et de récupérer des données au format JSON. Les API REST sont indépendantes du langage, ce qui permet une intégration facile dans divers langages de programmation, les API visuelles et les API sociales étant des formes courantes. L'orateur démontre l'utilisation d'une API dans RStudio pour obtenir des données historiques sur les courses de voitures de Formule 1 à partir d'Ergast.com.

  • 02:05:00 L'orateur discute de l'utilisation des API et du scraping pour obtenir des données pour la science des données. Les API sont un moyen rapide et facile de travailler avec des données structurées provenant de pages Web, qui peuvent être directement introduites dans des logiciels pour analyse. Le scraping, quant à lui, consiste à extraire des informations de pages Web lorsque les données ne sont pas facilement disponibles dans des formats structurés. Cependant, l'orateur avertit les utilisateurs d'être conscients des problèmes de droit d'auteur et de confidentialité liés au grattage Web. Des applications comme import.io et ScraperWiki peuvent être utilisées pour le scraping Web, mais les utilisateurs peuvent également coder leurs propres scrapers en utilisant des langages comme R, Python ou Bash. Lors du grattage de texte ou de tableaux HTML, les balises HTML sont utilisées pour identifier les informations importantes.

  • 02:10:00 L'orateur explique comment extraire des données de différentes sources et mentionne que si les données nécessaires à l'analyse n'ont pas d'API existante, le scraping peut être une technique utile. Cependant, il faut être conscient des questions liées au droit d'auteur et à la vie privée. L'orateur explique en outre comment créer de nouvelles données et suggère des stratégies telles que des entretiens, des enquêtes, le tri de cartes, des expériences en laboratoire et des tests A/B. Les méthodes varient en fonction du rôle que l'on joue, si on a besoin de données quantitatives ou qualitatives, et comment on a l'intention d'obtenir les données.

  • 02:15:00 L'accent est mis sur deux méthodes de collecte de données : les entretiens et les enquêtes. Les entretiens sont efficaces pour de nouvelles situations ou de nouveaux publics, car ils fournissent des informations ouvertes sans contraintes de réponses. Les entretiens structurés impliquent des ensembles de questions prédéterminés, tandis que les entretiens non structurés ressemblent à des conversations où des questions surgissent en réponse à des réponses. Les entretiens nécessitent une formation et une analyse spéciales pour extraire des données qualitatives. D'autre part, les enquêtes sont faciles à mettre en place et à envoyer à de grands groupes de personnes, mais elles nécessitent une bonne compréhension de l'éventail de réponses, des dimensions et des catégories du public cible. Les enquêtes peuvent être fermées, avec des options prédéterminées, ou ouvertes, avec des réponses libres. L'utilisation de logiciels comme SurveyMonkey ou Google Forms peut simplifier le processus. Cependant, une question ambiguë ou chargée peut compromettre la fiabilité de l'enquête.

  • 02:20:00 La vidéo discute de l'utilisation des enquêtes et met en garde contre le potentiel de biais et de sondages poussés, qui sont des tentatives biaisées de collecter des données. La vidéo souligne l'importance d'une formulation claire et sans ambiguïté des questions, des options de réponse et de la sélection d'échantillons pour garantir des résultats représentatifs. La vidéo présente également le concept de tri de cartes, qui est une méthode de construction d'un modèle mental des structures mentales des gens pour voir comment les gens organisent intuitivement les informations. Le processus consiste à créer des cartes avec différents sujets, qui sont ensuite triés en groupes similaires. Les données de dissemblance résultantes peuvent être utilisées pour représenter visuellement l'ensemble de la similarité ou de la dissemblance entre les éléments d'information individuels. La vidéo recommande l'utilisation d'outils de tri de cartes numériques pour faciliter le processus.

  • 02:25:00 La vidéo parle d'expériences en laboratoire sur la recherche de données, qui sont utilisées pour déterminer les relations de cause à effet dans la recherche. Les expériences de laboratoire sont fondées sur des hypothèses et visent à tester une variation à la fois, et nécessitent une affectation aléatoire pour équilibrer les différences préexistantes entre les groupes. Une expérience de laboratoire est coûteuse, prend du temps et nécessite une formation spécialisée approfondie. Cependant, il est considéré comme l'étalon-or pour générer des informations fiables sur les causes et les effets. De plus, les tests A/B sont mis en évidence comme une technique utile pour la conception de sites Web et pour déterminer quel élément de site Web est le plus efficace pour les utilisateurs.

  • 02:30:00 La vidéo traite du test A/B, qui est une version de l'expérimentation de site Web, utilisée pour optimiser la conception d'un site Web pour différents résultats, tels que les taux de réponse, la valeur du panier ou l'abandon. Les tests A/B sont un processus en ligne qui permet des évaluations, des tests et des développements continus, qui peuvent être effectués à l'aide de logiciels tels que Optimizely ou VWO. La vidéo souligne également l'importance de connaître la place appropriée des outils de données dans la science des données et rappelle aux téléspectateurs d'explorer les sources de données ouvertes, les fournisseurs de données et d'envisager de créer de nouvelles données si nécessaire. Enfin, la vidéo couvre certains outils essentiels de la science des données, notamment les feuilles de calcul, Tableau pour la visualisation des données, le langage de programmation R, Python, SQL, ainsi que d'autres langages de programmation tels que C, C++ et Java, qui constituent la base de la science des données. .

  • 02:35:00 L'accent est mis sur le principe de Pareto ou la règle des 80/20. Le principe suggère que 80% de la sortie provient de 20% des outils, il n'est donc pas nécessaire d'apprendre tous les outils et façons de faire disponibles. Il est plutôt suggéré de se concentrer sur les outils les plus productifs et les plus utiles pour mener vos propres projets de science des données. Les feuilles de calcul, en particulier, sont importantes car elles sont largement utilisées et fournissent un format commun pour les ensembles de données facilement transférables. Ils sont également faciles à utiliser et permettent la navigation, le tri et la réorganisation des données. Excel, en fait, est classé cinquième dans une enquête menée auprès d'experts en exploration de données, devant des outils plus avancés comme Hadoop et Spark.

  • 02:40:00 L'instructeur explique l'importance des feuilles de calcul en science des données, en soulignant leurs diverses utilisations telles que la recherche et le remplacement, le formatage, le suivi des modifications et la création de tableaux croisés dynamiques. Cependant, l'instructeur insiste également sur le besoin de données ordonnées, ou de données bien formatées avec des colonnes représentant des variables et des lignes représentant des cas, pour déplacer facilement les données d'un programme ou d'une langue à l'autre. L'instructeur montre ensuite comment ranger les données dans Excel et souligne l'importance d'utiliser des outils de visualisation tels que Tableau et Tableau Public pour une analyse efficace des données.

  • 02:45:00 L'instructeur présente Tableau Public, une version gratuite du logiciel Tableau mais avec une mise en garde majeure, à savoir que vous ne pouvez pas enregistrer de fichiers localement sur votre ordinateur. Au lieu de cela, il les enregistre publiquement sur le Web. L'instructeur montre comment télécharger et installer le logiciel et créer un compte pour enregistrer votre travail en ligne. Ils expliquent ensuite comment importer un fichier Excel et créer un graphique de base à l'aide d'une interface glisser-déposer. L'instructeur montre comment ventiler les ventes par article et par période et ajuster la période à trois mois. Ils montrent ensuite comment convertir le graphique en graphique, démontrant ainsi la flexibilité et la facilité d'utilisation de Tableau Public.

  • 02:50:00 Le didacticiel vidéo présente Tableau, un outil utilisé pour créer des visualisations interactives permettant aux utilisateurs de manipuler et d'analyser des données. La vidéo montre étape par étape comment utiliser Tableau pour organiser les données, ajouter des couleurs aux graphiques et créer des lignes moyennes et des prévisions. Après avoir montré comment enregistrer des fichiers dans Tableau Public, la vidéo recommande aux utilisateurs de prendre le temps d'explorer l'outil et de créer des visualisations convaincantes qui peuvent fournir des informations utiles à partir de leurs données. De plus, le didacticiel décrit brièvement SPSS, un progiciel statistique créé à l'origine pour la recherche en sciences sociales, mais qui est maintenant utilisé dans de nombreuses applications universitaires et commerciales.

  • 02:55:00 La vidéo traite de SPSS, qui est un logiciel qui ressemble à une feuille de calcul mais qui a des menus déroulants pour faciliter un peu la vie des utilisateurs par rapport à certains des langages de programmation qu'ils peuvent utiliser. Lorsque les utilisateurs ouvrent SPSS, ils se voient présenter une interface principale qui ressemble beaucoup à une feuille de calcul et un volet séparé pour consulter les informations variables. Les utilisateurs peuvent accéder à des exemples d'ensembles de données dans SPSS, mais ils ne sont pas faciles d'accès et sont bien cachés. SPSS permet aux utilisateurs d'effectuer des analyses pointer-cliquer, ce qui peut être inhabituel pour beaucoup de choses. La vidéo le démontre en créant un histogramme des prix des logements et un tableau contenant un diagramme à tiges et à feuilles et un diagramme en boîte. Enfin, la vidéo souligne que SPSS a tendance à être très lent lorsqu'il s'ouvre et peut se bloquer, les utilisateurs doivent donc enregistrer leur travail en permanence et être patients lorsqu'il est temps d'ouvrir le programme.
Data Science Tutorial - Learn Data Science Full Course [2020]
Data Science Tutorial - Learn Data Science Full Course [2020]
  • 2020.11.10
  • www.youtube.com
Have a look at our Data science for beginners course, Data scientist job are world-wide highly paid jobs in 2020 and coming years too. Data science have hig...
 

Tutoriel sur la science des données - Cours complet sur la science des données [2020] (4-6)


Tutoriel sur la science des données - Cours complet sur la science des données [2020]

Partie 4

  • 03:00:00 L'instructeur discute de différents logiciels pouvant être utilisés pour l'analyse de données, notamment SPSS et JASP. Bien que SPSS soit un programme couramment utilisé qui comporte à la fois des menus déroulants et des commandes de syntaxe textuelles, l'instructeur présente également JASP en tant que nouveau programme gratuit, open source et comprenant des approches bayésiennes. La vidéo montre comment utiliser JASP pour effectuer différentes analyses statistiques et présente son interface conviviale comme une excellente alternative à SPSS.

  • 03:05:00 L'orateur présente JASP, un logiciel gratuit et open source qui offre un moyen simple et intuitif d'effectuer des analyses statistiques, de créer des visualisations et de partager les résultats en ligne via le site Web du cadre scientifique ouvert OSF. L'orateur montre comment JASP permet aux utilisateurs de modifier les analyses statistiques en affichant les commandes qui les produisent et en les partageant avec d'autres, fournissant un remplacement collaboratif à SPSS. De plus, le conférencier discute brièvement d'autres choix de logiciels d'analyse de données courants tels que SAS et Tableau, mais note que les nombreuses options peuvent être écrasantes.

  • 03:10:00 L'orateur discute de diverses options logicielles d'analyse de données parmi lesquelles les utilisateurs peuvent choisir, y compris des outils gratuits et d'autres coûteux. Alors que certains programmes sont conçus pour des statistiques générales et d'autres pour des applications d'exploration de données plus spécifiques, l'orateur conseille aux utilisateurs de garder à l'esprit leur fonctionnalité, leur facilité d'utilisation, le soutien de la communauté et leur coût lors de la sélection d'un programme qui répond le mieux à leurs besoins et exigences. Plutôt que d'essayer toutes les options logicielles, les utilisateurs peuvent se concentrer sur un ou deux outils qui les aident à tirer le meilleur parti de leurs projets d'analyse de données.

  • 03:15:00 L'instructeur insiste sur l'importance de comprendre le HTML lorsqu'on travaille avec des données Web. HTML est ce qui constitue la structure et le contenu des pages Web, et être capable de naviguer dans les balises et la structure est crucial lors de l'extraction de données pour des projets de science des données. L'instructeur fournit un exemple de balises HTML et explique comment elles définissent la structure et le contenu de la page. De plus, l'instructeur aborde XML, qui signifie eXtensible Markup Language, et est utilisé pour définir des données afin que les ordinateurs puissent les lire. Les fichiers XML sont couramment utilisés dans les données Web et sont même utilisés pour créer des fichiers Microsoft Office et des bibliothèques iTunes.

  • 03:20:00 La vidéo traite du XML (Extensible Markup Language) et de son utilisation pour les données semi-structurées. XML utilise des balises qui définissent les données, et ces balises peuvent être créées et définies selon les besoins. La vidéo montre également un exemple d'un ensemble de données de l'API ergast.com affiché en XML et à quel point il est facile de convertir XML en d'autres formats, tels que CSV ou HTML, et vice versa. JSON (JavaScript Object Notation) est également présenté comme un format de données semi-structuré similaire à XML, où chaque élément d'information est défini par des balises qui varient librement.

  • 03:25:00 Le didacticiel traite des différences entre les formats XML et JSON. Les deux formats utilisent des balises pour désigner les informations, mais XML est utilisé pour le stockage des données et a la capacité d'inclure des commentaires et des métadonnées dans les balises. En revanche, JSON est conçu pour l'échange de données et utilise une structure qui représente des objets et des tableaux. JSON remplace XML comme conteneur de données sur les pages Web en raison de sa nature plus compacte et est beaucoup plus facile à convertir entre les formats. Le didacticiel note également que R est le principal langage de codage pour la science des données en raison de sa nature gratuite et open source, et qu'il est spécifiquement développé pour les opérations vectorielles.

  • 03:30:00 L'orateur discute des avantages de l'utilisation de R dans la science des données, notamment son solide support communautaire, sa vaste sélection de packages qui étendent ses capacités et le choix d'interfaces pour le codage et l'obtention de résultats. Bien qu'il puisse être initialement intimidant de programmer via la ligne de commande, la transparence et l'accessibilité de R le rendent avantageux pour la réplicabilité. L'orateur mentionne également une interface alternative, Crantastic!, qui se connecte à CRAN pour montrer la popularité et les mises à jour récentes, ce qui en fait un moyen d'obtenir les derniers et les meilleurs packages de science des données. De plus, le conférencier discute de Python, un langage de programmation à usage général qui peut être utilisé pour tout type d'application et qui est le seul langage à usage général sur la liste des logiciels utilisés par les experts en exploration de données.

  • 03:35:00 Le narrateur discute du langage de programmation Python et de son utilité pour la science des données. Python est facile à utiliser et possède une vaste communauté avec des milliers de packages disponibles, en particulier pour les travaux liés aux données. Il existe deux versions de Python, 2.x et 3.x, mais le narrateur recommande d'utiliser 2.x car de nombreux packages de science des données sont développés dans cet esprit. Python dispose de diverses interfaces disponibles, notamment IDLE et Jupyter, qui est basé sur un navigateur et un choix populaire pour les travaux de science des données, en raison de sa capacité à incorporer le formatage Markdown, la sortie de texte et les graphiques en ligne. Il existe de nombreux packages disponibles pour Python, notamment NumPy, SciPy, Matplotlib, Seaborn, Pandas et scikit-learn, que le narrateur prévoit d'utiliser pour démontrer la puissance de Python pour la science des données dans des exemples pratiques.

  • 03:40:00 L'orateur discute de l'utilité de SQL en tant que langage pour la science des données. Il note que SQL est principalement utilisé pour les bases de données relationnelles, qui permettent un stockage efficace et bien structuré des données, et est un outil performant qui existe depuis un certain temps. L'orateur explique également qu'il n'y a qu'une poignée de commandes de base nécessaires pour obtenir ce dont vous avez besoin d'une base de données SQL. Une fois organisées, les données sont généralement exportées vers un autre programme pour analyse. En outre, il existe plusieurs choix courants de systèmes de gestion de bases de données relationnelles, notamment la base de données Oracle et Microsoft SQL Server (monde industriel) et MySQL et PostgreSQL (monde open source). L'orateur aborde également les avantages des interfaces utilisateur graphiques par rapport aux interfaces textuelles.

  • 03:45:00 Les langages fondamentaux de la science des données, C, C++ et Java, sont discutés. C et C++ sont connus pour leur rapidité et leur fiabilité, ce qui les rend bien adaptés au codage au niveau de la production et à l'utilisation des serveurs. Java, d'autre part, est connu pour sa portabilité et est le langage de programmation informatique le plus populaire dans l'ensemble. Bien que les analystes ne travaillent généralement pas avec ces langages, ils constituent le fondement de la science des données et sont utilisés par les ingénieurs et les développeurs de logiciels. De plus, Bash est mentionné comme un exemple d'outil ancien mais toujours activement utilisé pour interagir avec des ordinateurs via une interface de ligne de commande.

  • 03:50:00 L'instructeur explique que même si les utilitaires Bash sont conçus pour des tâches spécifiques, ils peuvent accomplir beaucoup de choses et sont faciles à utiliser. Les utilitaires intégrés incluent "cat", "awk", "grep", "sed", "head", "tail", "sort", "uniq", "wc" et "printf". Des utilitaires de ligne de commande installables sont également disponibles, notamment "jq" et "json2csv", qui fonctionnent avec des données JSON, et "Rio" et "BigMLer", qui permettent l'accès à la ligne de commande pour la programmation R ou les serveurs d'apprentissage automatique. L'instructeur souligne que l'expression régulière (regex) est un moyen suralimenté de trouver des modèles spécifiques dans le texte et les données, en disant qu'une fois qu'un modèle est identifié, vous pouvez l'exporter vers un autre programme pour une analyse plus approfondie.

  • 03:55:00 Le didacticiel vidéo explique les expressions régulières ou regex, qui aident les data scientists à trouver les bonnes données pour leurs projets en recherchant des éléments spécifiques dans une chaîne cible. Les expressions régulières se composent de littéraux, de métacaractères et de séquences d'échappement, et les utilisateurs peuvent les utiliser pour rechercher des modèles de données en combinant des éléments. Une façon amusante d'apprendre regex est de jouer à Regex Golf, où les utilisateurs écrivent une expression regex qui correspond à tous les mots de la colonne de gauche et à aucun des mots de droite en utilisant le moins de caractères possible. Le didacticiel se termine en recommandant des outils de données tels qu'Excel, Tableau, R, Python, Bash et regex pour toute personne intéressée par la pratique de la science des données, mais note que la science des données ne se limite pas à connaître les outils, car ils ne sont qu'une partie d'un effort beaucoup plus grand.

Partie 5

  • 04:00:00 L'importance d'avoir une bonne compréhension des mathématiques en science des données est soulignée. Premièrement, les mathématiques permettent de savoir quelles procédures utiliser et pourquoi. Deuxièmement, une solide compréhension des mathématiques aide à diagnostiquer les problèmes et à savoir quoi faire lorsque les choses ne fonctionnent pas correctement. Enfin, certaines procédures mathématiques sont plus faciles et plus rapides à faire à la main. La vidéo couvre plusieurs domaines des mathématiques importants pour la science des données, notamment l'algèbre élémentaire, l'algèbre linéaire, les systèmes d'équations linéaires, le calcul, le Big O ou l'ordre, la théorie des probabilités et le théorème de Bayes. Bien que certaines personnes puissent trouver les mathématiques intimidantes, il s'agit d'un outil essentiel qui peut aider à extraire le sens des données pour faire des choix éclairés.

  • 04:05:00 Nous devons avoir une base solide en mathématiques. Cela inclut des sujets tels que l'algèbre et l'algèbre linéaire. L'algèbre nous aide à combiner plusieurs scores et à obtenir un résultat unique. D'autre part, l'algèbre linéaire ou l'algèbre matricielle traite des matrices, qui sont composées de nombreuses lignes et colonnes de nombres. Les machines adorent les matrices car elles offrent un moyen efficace d'organiser et de traiter les données. Comprendre l'algèbre linéaire est essentiel car cela nous aide à modéliser et à résoudre des problèmes complexes en science des données.

  • 04:10:00 L'orateur explique comment l'algèbre linéaire et l'algèbre matricielle sont utilisées en science des données pour représenter et manipuler de grandes collections de nombres et de coefficients. L'utilisation de variables en gras dans la notation matricielle permet des représentations super compactes de données qui peuvent être utilisées pour prédire des valeurs. De plus, l'orateur couvre le concept de résolution de systèmes d'équations linéaires et montre comment l'utiliser dans un exemple de calcul des ventes et des revenus d'une société hypothétique qui vend des étuis pour iPhone. La résolution de systèmes d'équations linéaires peut être effectuée à la main ou avec une algèbre matricielle linéaire, et les deux méthodes peuvent être utilisées pour résoudre plusieurs inconnues imbriquées.

  • 04:15:00 Le présentateur montre comment résoudre un système d'équations linéaires en utilisant l'algèbre et la représentation graphique. Ils utilisent un exemple de problème pour montrer comment trouver des solutions uniques en isolant les variables et en effectuant des calculs simples. L'intersection des deux lignes sur le graphique représente la solution des équations. La vidéo aborde ensuite le calcul, qui est à la base de nombreuses procédures utilisées en science des données, en particulier pour analyser des quantités qui changent dans le temps. Les deux types de calcul, différentiel et intégral, sont expliqués et le calcul différentiel est démontré graphiquement.

  • 04:20:00 La vidéo traite de la relation entre le calcul et l'optimisation dans la science des données pratiques. La pente d'une courbe à un point spécifique peut être trouvée en utilisant le calcul, ce qui est important pour prendre des décisions qui maximisent ou minimisent les résultats. La vidéo fournit un exemple de tarification pour un service de rencontres en ligne, où le calcul peut être utilisé pour déterminer le prix optimal qui maximisera les revenus. En trouvant les ventes en fonction du prix et en utilisant la dérivée, on peut trouver le revenu maximal en trouvant le prix qui correspond à la pente maximale.

  • 04:25:00 L'orateur explique comment utiliser le calcul pour trouver le revenu maximum pour un produit hypothétique. La première étape consiste à calculer les ventes en fonction du prix et à obtenir la pente de la droite, qui est égale à -0,6. Ensuite, cette équation est transformée en revenus, qui peuvent être calculés comme 480 fois le prix moins 0,6 fois le prix. La dérivée de cette équation est prise pour trouver le revenu maximum, qui est au prix de 400 $ avec un total de 240 nouveaux abonnements par semaine, ce qui donne un revenu de 96 000 $ par an. Ceci est comparé aux revenus actuels de 90 000 $ par an à un prix de 500 $ par an et 180 nouveaux abonnements par semaine.

  • 04:30:00 La vidéo traite du concept de la notation Big O et de son lien avec la vitesse des opérations. Big O donne la vitesse à laquelle les choses se développent à mesure que le nombre d'éléments augmente et il peut y avoir des différences surprenantes dans les taux de croissance. La vidéo explique plusieurs types de taux de croissance, tels que O1, logarithmique, linéaire, log-linéaire, quadratique, exponentiel et factoriel, avec des exemples de chacun. De plus, la vidéo note que certaines fonctions sont plus variables que d'autres, ce qui affecte la rapidité des opérations. Comprendre Big O est donc important pour prendre des décisions éclairées sur l'optimisation des opérations et l'amélioration de l'efficacité.

  • 04:35:00 L'orateur discute de l'importance de connaître les différents types et méthodes de tri des données et comment ils varient en termes de vitesse et d'efficacité, en particulier en termes de demandes qu'ils font sur l'espace de stockage et la mémoire d'un ordinateur. Il est essentiel de tenir compte de ces exigences pour utiliser efficacement le temps et obtenir des informations précieuses sur la science des données. La section présente également les principes fondamentaux de la probabilité, qui jouent un rôle essentiel en mathématiques et en science des données. Les probabilités vont de zéro à cent pour cent, car elles sont calculées à partir d'un espace de probabilité qui inclut tous les résultats possibles. Le complément d'une probabilité est représenté par le symbole tilde, et les probabilités conditionnelles sont utilisées pour déterminer la probabilité d'un événement étant donné qu'un autre événement s'est produit.

  • 04:40:00 L'orateur discute des probabilités et explique comment calculer les probabilités conjointes à l'aide de la règle de multiplication. Ils utilisent un espace échantillon de différentes formes pour démontrer comment calculer la probabilité que quelque chose soit carré ou rouge (qui est de 60 %) et la probabilité que quelque chose soit à la fois carré et rouge (qui est de 10 %). Ils expliquent comment les probabilités peuvent ne pas toujours être intuitives et comment les probabilités conditionnelles peuvent être utiles, mais peuvent ne pas fonctionner comme prévu. Enfin, ils introduisent le théorème de Bayes, qui est un moyen de calculer la probabilité d'une hypothèse compte tenu des données, et expliquent en quoi il diffère des tests inférentiels traditionnels.

  • 04:45:00 L'instructeur présente un exemple de calcul de la probabilité a posteriori à l'aide de la recette générale, qui combine les probabilités a priori, la probabilité des données et la vraisemblance des données. L'exemple utilise une condition médicale et un test qui a un taux de détection de 90 % pour ceux qui ont la maladie, mais aussi un taux de faux positifs de 10 %. L'instructeur explique comment calculer la probabilité d'avoir la maladie avec un résultat de test positif, qui n'est en fait que de 81,6 %. L'exemple souligne l'importance de comprendre la précision et les limites des tests et comment les changements dans les probabilités a priori peuvent avoir un impact sur les probabilités a posteriori.

  • 04:50:00 Le concept du théorème de Bayes est expliqué et pourquoi il est important en science des données. Le théorème de Bayes peut aider à répondre aux questions et donner des probabilités précises en fonction du taux de base de la chose mesurée, comme la probabilité d'avoir une maladie en cas de résultat de test positif. Il est également recommandé que les scientifiques des données aient une bonne compréhension des principes mathématiques tels que l'algèbre, le calcul et les probabilités pour sélectionner les procédures appropriées pour l'analyse et diagnostiquer les problèmes qui peuvent survenir. Les statistiques jouent également un rôle crucial dans la science des données car elles aident à résumer et à généraliser les données, mais l'analyse dépend toujours des objectifs du projet et des connaissances partagées.

  • 04:55:00 L'importance des statistiques dans la science des données est mise en évidence en tant qu'outil utilisé pour résumer et généraliser les données. Cependant, il est souligné qu'il n'y a pas de réponse définitive et que la généralisation implique de traiter des statistiques inférentielles tout en étant conscient des limites des modèles statistiques. Les modèles sont destinés à servir un objectif particulier et représentent des résumés souvent utiles mais pas tout à fait exacts. L'exploration des données est ensuite discutée, en mettant l'accent sur l'utilisation de méthodes graphiques avant l'exploration numérique et sur l'importance de porter une attention particulière aux données. Le but de l'exploration est d'aider à comprendre votre ensemble de données avant de construire des modèles statistiques.

Partie 6

  • 05:00:00 L'importance de commencer par les graphiques en science des données est soulignée. En utilisant des graphiques, on peut avoir une idée des données, vérifier les anomalies et analyser les variables. Différents types de graphiques sont suggérés, notamment des diagrammes à barres, des boîtes à moustaches et des diagrammes de dispersion, qui peuvent être utilisés en fonction du type de variable analysée. En outre, les distributions multivariées sont également abordées et il est noté que l'utilisation de graphiques 3D doit être abordée avec prudence.

  • 05:05:00 L'orateur discute des limites des graphiques 3D et des avantages d'utiliser une matrice de tracés à la place. L'orateur explique que si les graphiques 3D peuvent être utiles pour trouver des clusters en 3 dimensions, ils sont généralement difficiles à lire et déroutants. La matrice de tracés, quant à elle, fournit un graphique beaucoup plus facile à lire et permet un affichage multidimensionnel. Le conférencier souligne l'importance de l'exploration graphique des données comme première étape critique dans l'exploration des données et suggère d'utiliser des méthodes simples et rapides telles que les diagrammes à barres et les diagrammes de dispersion. La deuxième étape implique des statistiques exploratoires ou une exploration numérique des données, qui comprend des statistiques robustes, le rééchantillonnage des données et la transformation des données.

  • 05:10:00 L'orateur discute des principes des statistiques robustes, du rééchantillonnage et de la transformation des variables. Ils expliquent comment le rééchantillonnage permet des estimations empiriques de la variabilité d'échantillonnage et mentionnent différentes techniques, telles que le jackknife, le bootstrap et la permutation. L'orateur présente également l'échelle des pouvoirs de Tukey, qui est un moyen de transformer des variables et de corriger l'asymétrie et d'autres problèmes. Ils expliquent ensuite comment les statistiques descriptives peuvent aider à raconter une histoire sur les données en utilisant quelques chiffres pour représenter une plus grande collection de données. L'orateur discute de différentes mesures du centre ou de l'emplacement d'une distribution, telles que le mode, la médiane et la moyenne.

  • 05:15:00 L'orateur discute des mesures utilisées pour décrire la propagation d'un ensemble de données, y compris la plage, les centiles, la plage interquartile, la variance et l'écart type. La plage est simplement la différence entre les scores les plus élevés et les plus bas dans l'ensemble de données, tandis que la plage interquartile est la distance entre les scores du premier et du troisième quartile. La variance est l'écart quadratique moyen par rapport à la moyenne d'un ensemble de données, et l'écart type est la racine carrée de la variance. Le conférencier fournit également des exemples de calcul de chaque mesure à l'aide d'un petit ensemble de données.

  • 05:20:00 L'orateur discute de différentes mesures de tendance centrale et de variabilité, y compris la plage, la plage interquartile (IQR), la variance et l'écart type. Il explique que bien que la plage soit facile à calculer, elle peut être affectée par des valeurs aberrantes. L'IQR est souvent utilisé pour les données biaisées car il ignore les extrêmes. La variance et l'écart type sont les moins intuitifs mais les plus utiles car ils alimentent de nombreuses autres procédures en science des données. L'orateur parle également de la forme de la distribution, en notant les différentes variations telles que symétrique, asymétrique, unimodale, bimodale et uniforme. Enfin, il introduit le concept de statistiques inférentielles, discutant de la différence entre les populations et les échantillons et des deux approches générales d'inférence : les tests et l'estimation.

  • 05:25:00 L'orateur présente les statistiques inférentielles qui impliquent l'échantillonnage de données à partir d'une population plus large et l'ajustement de l'erreur d'échantillonnage en testant ou en estimant les valeurs des paramètres. Le principal défi des statistiques inférentielles réside dans la variabilité d'échantillonnage qui affecte l'interprétation de la population sous-jacente. L'orateur se penche ensuite sur les tests d'hypothèses qui sont utilisés dans la recherche scientifique, les diagnostics médicaux et d'autres processus décisionnels pour tester les théories et déterminer la probabilité que les différences observées se produisent par hasard. Les deux types d'hypothèses en jeu sont l'hypothèse nulle qui ne suppose aucun effet systématique et l'hypothèse alternative qui suppose la présence d'un tel effet. La section se termine par un aperçu de la distribution normale standard utilisée dans l'analyse statistique.

  • 05:30:00 L'instructeur explique le concept de test d'hypothèse et ses pièges potentiels. Le test d'hypothèse implique le calcul des scores z des données et la décision de conserver l'hypothèse nulle ou de la rejeter. Cependant, le processus peut entraîner des faux positifs et des faux négatifs, qui sont conditionnels au rejet ou au non-rejet de l'hypothèse nulle, respectivement. L'instructeur insiste sur l'importance de réfléchir au calcul des faux négatifs en fonction de plusieurs éléments du cadre de test. Bien qu'il existe des critiques sur les tests d'hypothèses, ils restent très utiles dans de nombreux domaines. L'instructeur poursuit en discutant de l'estimation, qui est conçue pour donner une estimation d'un paramètre, et qui reste une procédure inférentielle. Les intervalles de confiance sont une approche courante de l'estimation, qui se concentre sur les valeurs probables de la valeur de la population.

  • 05:35:00 La vidéo traite des intervalles de confiance et des trois étapes générales pour les estimer. La première étape consiste à choisir un niveau de confiance, généralement de 95 %, qui donne une plage de valeurs probables. La deuxième étape implique un compromis entre l'exactitude et la précision. La vidéo montre la différence entre des estimations exactes et précises et le scénario idéal est celui qui est à la fois exact et précis. La dernière étape consiste à interpréter correctement l'intervalle de confiance. L'interprétation statistiquement précise consiste à indiquer l'intervalle sous forme de phrase, tandis que l'interprétation familière décrit la probabilité que la moyenne de la population se situe dans cette plage. La vidéo se termine par une démonstration de données générées aléatoirement contenant la moyenne de la population et le nombre d'échantillons nécessaires pour inclure la vraie valeur de la population dans un intervalle de confiance.

  • 05:40:00 Les facteurs qui affectent la largeur d'un intervalle de confiance sont expliqués, notamment le niveau de confiance, l'écart type et la taille de l'échantillon. Le tutoriel fournit des exemples graphiques pour illustrer comment chacun des facteurs influence la taille de l'intervalle et comment la variabilité des données est incorporée dans l'estimation. La méthode des moindres carrés ordinaires (OLS), qui est l'approche la plus courante, est introduite ainsi que le maximum de vraisemblance (ML), une méthode permettant de choisir les paramètres qui rendent les données observées les plus probables. La différence entre ces deux méthodes est mise en évidence, OLS agissant comme un meilleur estimateur linéaire sans biais, tandis que ML fonctionne comme une sorte de recherche locale.

  • 05:45:00 L'instructeur explique trois méthodes courantes d'estimation des paramètres de population, y compris les moindres carrés ordinaires (OLS), le maximum de vraisemblance (ML) et le maximum a posteriori (MAP), et comment les trois méthodes sont liées les unes aux autres. L'instructeur aborde ensuite différentes mesures d'ajustement pour la correspondance entre les données et le modèle créé, y compris R2, R2 ajusté, -2LL, AIC, BIC et chi carré, et leurs variations, qui aident à choisir les meilleurs modèles pour le données et de réduire l'effet de surajustement.

  • 05:50:00 La vidéo traite de la sélection des fonctionnalités et de la manière dont elle est utilisée pour sélectionner les meilleures fonctionnalités ou variables, se débarrasser des variables non informatives ou bruyantes et simplifier le modèle statistique en cours de création pour éviter le surajustement. Le problème majeur de la sélection des caractéristiques est la multicolinéarité, qui découle du chevauchement entre les prédicteurs et la variable de résultat. La vidéo explique différentes manières de traiter la multicolinéarité, telles que les valeurs de probabilité, les coefficients standardisés et les variations de la régression séquentielle. Cependant, s'appuyer sur les valeurs de p peut être problématique car cela gonfle les faux positifs et les procédures par étapes augmentent considérablement le risque de surajustement. Pour résoudre ces problèmes, de nouvelles méthodes sont disponibles, telles que l'analyse des points communs, l'analyse de la dominance et les pondérations d'importance relative.

  • 05:55:00 Le conférencier discute des problèmes courants de la modélisation, notamment la non-normalité, la non-linéarité, la multicolinéarité et les données manquantes. La non-normalité et la non-linéarité peuvent fausser les mesures et les modèles car elles supposent la symétrie et la nature unimodale d'une distribution normale et d'une relation linéaire, respectivement. La multicolinéarité peut avoir un impact sur les coefficients dans le modèle global, et une façon d'y remédier peut être d'utiliser moins de variables ou de s'appuyer sur l'expertise du domaine. Le problème de l'explosion combinatoire survient lorsque des combinaisons de variables ou de catégories croissent trop rapidement pour être analysées.

  • 06:00:00 La vidéo traite des défis liés à la gestion de l'explosion combinatoire, de la malédiction de la dimensionnalité et des données manquantes dans la science des données. Pour relever le premier défi, on peut s'appuyer sur la théorie ou utiliser une approche basée sur les données telle qu'un modèle Monte Carlo de chaîne de Markov pour explorer l'éventail des possibilités. Pour faire face à la malédiction de la dimensionnalité, on peut réduire la dimensionnalité des données en les projetant sur un espace de dimension inférieure. Enfin, le problème des données manquantes peut créer des biais et fausser l'analyse, et peut être résolu en vérifiant les modèles, en créant de nouvelles variables et en imputant les valeurs manquantes à l'aide de diverses méthodes. La validation du modèle est également discutée, et la vidéo présente plusieurs manières générales d'y parvenir, y compris l'approche bayésienne, la réplication, la validation d'exclusion et la validation croisée.

  • 06:05:00 L'orateur discute des différentes méthodes de validation des modèles statistiques telles que la validation de l'exclusion, la validation croisée et la validation de l'exclusion. Il souligne l'importance de tester la résistance du modèle statistique développé dans diverses situations, car cela aidera à vérifier la validité de leur analyse et de leur raisonnement tout en renforçant la confiance dans l'utilité de leurs résultats. Il souligne également que les débutants doivent tenir compte de la mentalité de bricolage (faites-le vous-même) lorsqu'ils commencent avec la science des données, car des outils simples tels que R et Python peuvent aider à démarrer, et il n'est pas nécessaire d'attendre que les développements de pointe commencent. Enfin, il avertit les auditeurs de se méfier des trolls dans le domaine de la science des données, car il y a des critiques qui peuvent se tromper et intimider, mais chaque analyse a de la valeur, et il faut écouter attentivement et viser un objectif tout en se méfiant des probabilités.

  • 06:10:00 L'orateur conclut le cours "Statistiques et science des données" en encourageant les apprenants à continuer d'explorer et d'analyser les données pour améliorer leurs compétences. L'orateur recommande aux apprenants des cours supplémentaires à suivre, notamment des cours conceptuels sur l'apprentissage automatique et la visualisation de données, ainsi que des cours pratiques sur les procédures statistiques dans des langages de programmation tels que R, Python et SPSS. Le conférencier souligne également l'importance de l'expertise du domaine en science des données, en plus des compétences en codage et en quantification. En fin de compte, l'orateur conseille aux apprenants de "se lancer" et de ne pas se soucier de la perfection, car il y a toujours place à l'amélioration.
Data Science Tutorial - Learn Data Science Full Course [2020]
Data Science Tutorial - Learn Data Science Full Course [2020]
  • 2020.11.10
  • www.youtube.com
Have a look at our Data science for beginners course, Data scientist job are world-wide highly paid jobs in 2020 and coming years too. Data science have hig...
 

Convolutions dans l'apprentissage en profondeur - Application de démonstration interactive



Convolutions dans l'apprentissage en profondeur - Application de démonstration interactive

Bienvenue dans la démo de Steeplezer avec Mandy. Dans cet épisode, nous explorerons l'application de démonstration de convolution interactive sur deeplister.com pour améliorer notre compréhension des opérations de convolution utilisées dans les réseaux de neurones.

Les opérations de convolution sont des composants cruciaux dans les réseaux de neurones convolutifs pour mapper les entrées aux sorties à l'aide de filtres et d'une fenêtre glissante. Nous avons un épisode dédié qui explique l'opération de convolution et son rôle dans les réseaux de neurones pour une compréhension plus fondamentale. Maintenant, concentrons-nous sur la façon dont nous pouvons utiliser l'application de démonstration de convolution interactive sur deeplister.com pour approfondir notre compréhension de cette opération. Sur la page d'application, nous voyons initialement la partie supérieure, puis nous ferons défiler vers le bas pour afficher la partie inférieure. L'application de démonstration nous permet d'assister à l'opération de convolution en action sur une entrée donnée et d'observer comment la sortie est dérivée. Nous avons plusieurs options avec lesquelles travailler dans la démo. Tout d'abord, nous pouvons basculer entre le mode plein écran. Deuxièmement, nous pouvons sélectionner l'ensemble de données et choisir le chiffre avec lequel nous voulons travailler, allant de 0 à 9, puisque nous utilisons MNIST.

Dans les couches convolutives des réseaux de neurones, les valeurs de filtre sont apprises au cours du processus de formation pour détecter divers modèles tels que des bords, des formes ou des textures. Dans cette démo, nous pouvons choisir parmi différents ensembles de filtres, tels que des filtres de bord, pour observer des exemples de convolutions. Pour notre premier exemple, nous allons sélectionner le filtre de bord gauche pour l'appliquer à une image d'un chiffre 9 du jeu de données MNIST. En configurant ces options, nous sommes prêts à procéder à la démo. L'image d'entrée du chiffre 9 est affichée, chaque petit carré représentant un pixel et sa valeur. Nous nous concentrons sur un bloc de pixels 3x3 et le filtre de bord gauche sélectionné. L'opération de convolution implique une multiplication élément par élément des valeurs d'entrée et de filtre, suivie d'une sommation pour obtenir la sortie finale.

En survolant chaque pixel, nous pouvons observer la multiplication qui se produit entre les valeurs d'entrée et de filtre. Après avoir additionné tous les produits, nous stockons la sortie résultante en bas, représentant l'image entière après convolution. En cliquant sur le bouton d'étape, nous déplaçons le bloc d'entrée d'un pixel vers la droite (pas de 1) et effectuons à nouveau l'opération de convolution. Ce processus se poursuit jusqu'à ce que nous atteignions la sortie finale. Nous pouvons également jouer à la démo pour automatiser ces opérations et la mettre en pause pour inspecter des pixels spécifiques.

La sortie représente les activations positives sous forme de pixels orange ou rouges, indiquant les bords gauches détectés par le filtre. Les activations négatives sont affichées sous forme de pixels bleus, représentant les bords droits. Une fonction d'activation de valeur est généralement appliquée à la sortie de convolution, conservant les valeurs positives et définissant les valeurs négatives sur zéro. En survolant les valeurs de sortie, nous pouvons les corréler avec les valeurs d'entrée et de filtre correspondantes. La sortie résultante est une collection d'activations positives représentant les bords gauches. Nous pouvons jouer le reste de la démo pour voir la sortie finale. Pour démontrer l'effet inverse, nous passons à un filtre de bord droit, ce qui donne la même sortie avec les pixels positifs et négatifs interchangés.

Comme autre exemple, nous passons au jeu de données Fashion MNIST et sélectionnons une image de t-shirt. En appliquant un filtre de bord "haut", nous pouvons observer la détection des bords haut et bas.

N'hésitez pas à explorer les différents exemples de la démo sur deeplister.com pour approfondir votre compréhension des opérations de convolution. Merci d'avoir regardé et pensez à consulter notre deuxième chaîne, "The Blizzard Vlog", sur YouTube pour plus de contenu. N'oubliez pas de visiter beeplezer.com pour le billet de blog correspondant et envisagez de rejoindre Deep Blizzard Hive Mind pour des avantages et des récompenses exclusifs.

Convolutions in Deep Learning - Interactive Demo App
Convolutions in Deep Learning - Interactive Demo App
  • 2021.06.02
  • www.youtube.com
In deep learning, convolution operations are the key components used in convolutional neural networks. A convolution operation maps an input to an output usi...
 

Qu'est-ce que l'apprentissage en profondeur ? (DL 01)



Qu'est-ce que l'apprentissage en profondeur ? (DL 01)

Bienvenue dans l'apprentissage en profondeur ! Je m'appelle Bryce et je suis ravi de vous aider à en savoir plus sur ce sujet brûlant en informatique. L'apprentissage en profondeur est omniprésent dans notre vie quotidienne. Les algorithmes qui reconnaissent votre visage, comprennent votre discours et recommandent du contenu sur votre plateforme préférée sont tous basés sur un apprentissage en profondeur.

Mais qu'est-ce que le deep learning exactement ? Cela implique l'utilisation de réseaux de neurones et de programmation différentiable pour l'apprentissage automatique. Les réseaux de neurones sont des modèles informatiques inspirés du comportement des neurones dans le cerveau. Ils sont constitués de nœuds représentant les neurones et d'arêtes dirigées représentant les connexions entre eux, chaque arête ayant un poids indiquant sa force. Les neurones peuvent additionner les entrées pondérées de leurs voisins pour déterminer s'ils s'activent.

L'apprentissage automatique, qui se situe à l'intersection de l'intelligence artificielle et de la science des données, consiste à faire automatiquement des inférences intelligentes à partir des données. Contrairement à l'informatique traditionnelle, où les algorithmes sont conçus pour résoudre directement les problèmes, l'apprentissage automatique laisse les exemples de données définir les entrées et les sorties du problème. Nous implémentons ensuite des algorithmes qui déduisent la solution à partir de l'ensemble de données.

Les problèmes d'apprentissage automatique peuvent être classés en tant que régression ou classification. La régression consiste à déduire une fonction qui mappe les entrées continues aux sorties continues, comme la régression linéaire. La classification, d'autre part, attribue des étiquettes discrètes aux points d'entrée, telles que l'inférence des limites de décision.

L'apprentissage en profondeur nous permet de résoudre des problèmes complexes qui combinent des aspects de régression et de classification. Par exemple, la reconnaissance d'objets implique l'apprentissage d'une fonction qui prend une image en entrée et génère des cadres de délimitation et des étiquettes pour les objets de l'image.

Pour former un réseau de neurones, nous utilisons la descente de gradient, une technique qui minimise une fonction en suivant son gradient. Cela nécessite de différencier les activations du réseau de neurones. Les fonctions d'activation comme les fonctions en escalier ne conviennent pas à la différenciation, nous utilisons donc des approximations douces comme la fonction sigmoïde.

Les principes de formation des réseaux de neurones et de la programmation différentiable vont au-delà de l'apprentissage en profondeur. Nous pouvons considérer les neurones comme des programmes informatiques simples qui effectuent des sommes pondérées et appliquent des fonctions d'activation. Cela conduit au concept de programmation différentiable, où des fonctions qui peuvent être mathématiquement exploitées et différenciées peuvent être incorporées dans des modèles d'apprentissage en profondeur.

Dans ce cours, nous commencerons par des réseaux de neurones simples pour comprendre les bases de l'apprentissage automatique et de la descente de gradient stochastique. Nous ajouterons progressivement de la complexité, en explorant les réseaux de neurones profonds et la programmation générale différentiable. En cours de route, nous nous exercerons à utiliser des bibliothèques d'apprentissage en profondeur, discuterons des limites et des inconvénients, et vous préparerons à concevoir, appliquer, évaluer et critiquer des modèles d'apprentissage en profondeur pour des problèmes du monde réel.

À la fin du semestre, vous serez équipé pour relever des défis passionnants grâce à l'apprentissage en profondeur et aurez une compréhension globale de ses applications et de ses implications.

What is Deep Learning? (DL 01)
What is Deep Learning? (DL 01)
  • 2022.08.24
  • www.youtube.com
Davidson CSC 381: Deep Learning, Fall 2022
 

Prérequis d'apprentissage en profondeur (DL 02)




Prérequis d'apprentissage en profondeur (DL 02)

Pour réussir un cours sur le deep learning, il faut une formation en informatique et en mathématiques. Plus précisément, vous devriez avoir suivi des cours sur les structures de données, l'algèbre linéaire et le calcul multivariable. Examinons plus en détail l'importance de chacune de ces conditions préalables.

Avoir une formation en programmation est crucial pour ce cours d'informatique de premier cycle de niveau supérieur. Les structures de données servent de condition préalable pour s'assurer que vous avez une expérience de programmation suffisante. Comprendre les concepts liés à l'efficacité algorithmique rencontrés dans les structures de données sera également utile.

Dans ce cours, mes vidéos utilisent principalement du pseudocode ou expriment mathématiquement des calculs. Cependant, les devoirs nécessiteront une programmation à la fois en Python et en Julia. Python est largement utilisé pour les bibliothèques d'apprentissage en profondeur telles que TensorFlow et PyTorch, vous apprendrez donc à utiliser ces outils. Julia, d'autre part, est excellente pour combler le fossé entre les mathématiques et le calcul, ce qui facilite la compréhension du fonctionnement interne des réseaux de neurones.

D'un point de vue mathématique, nous utiliserons des concepts d'algèbre linéaire et de calcul multivariable. Cependant, les concepts spécifiques sur lesquels nous nous concentrerons ne représentent qu'une fraction de ce qui est généralement enseigné dans ces cours. Si vous n'avez suivi qu'un seul de ces cours, vous devriez pouvoir rattraper assez rapidement les concepts nécessaires de l'autre.

En algèbre linéaire, il est essentiel d'être à l'aise avec la notation matricielle. L'apprentissage en profondeur implique des opérations sur des vecteurs, des matrices et des tableaux de plus grande dimension (tenseurs). Il sera nécessaire de maîtriser les produits matrice-vecteur, d'appliquer des fonctions aux matrices et aux vecteurs et d'effectuer des opérations telles que les produits scalaires et les normes.

Le calcul multivariable est crucial pour comprendre les gradients, un concept clé utilisé tout au long du cours. Vous devez être à l'aise pour évaluer les gradients et prendre des dérivées partielles en utilisant des règles apprises en calcul de base, telles que la règle du produit et la règle du quotient.

Si vous n'êtes pas sûr de vos connaissances en algèbre linéaire ou en calcul multivariable, je fournirai une liste de lecture de vidéos de Grant Sanderson pour vous aider à approfondir ces sujets. Les vidéos en surbrillance dans la liste de lecture couvrent les concepts spécifiques que nous utiliserons dans le cours.

En vous assurant d'avoir une solide formation dans ces matières préalables, vous serez bien préparé pour aborder les activités et les devoirs de la première semaine du cours et réussir un apprentissage en profondeur.

Deep Learning Prerequisites (DL 02)
Deep Learning Prerequisites (DL 02)
  • 2022.08.24
  • www.youtube.com
Davidson CSC 381: Deep Learning, Fall 2022Suggested linear algebra playlist: https://www.youtube.com/watch?v=fNk_zzaMoSs&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE...
 

Que peut calculer un seul neurone ? (DL 03)



Que peut calculer un seul neurone ? (DL 03)

Les réseaux de neurones sont constitués de nombreux nœuds avec un grand nombre de connexions. Pour mieux les comprendre, concentrons-nous sur un neurone individuel et explorons ses capacités, les types de modèles qu'il peut représenter et comment ces modèles peuvent être entraînés.

Un nœud dans un réseau neuronal reçoit des entrées et effectue un calcul simple pour générer une sortie numérique. Ce calcul comporte deux étapes : premièrement, les entrées sont multipliées par les poids correspondants et additionnées ; ensuite, la somme des entrées pondérées passe par une fonction d'activation pour produire la sortie.

Mathématiquement, la sortie est obtenue en appliquant une fonction d'activation (notée f) à la somme des entrées pondérées. Par conséquent, la sortie est le résultat de l'application de la fonction d'activation à la somme de chaque poids multipliée par son entrée correspondante, plus un terme de biais.

Le biais permet à la somme d'être non nulle même si toutes les entrées sont nulles. Nous pouvons considérer le biais comme un autre poids et le représenter avec une flèche supplémentaire entrant dans le nœud. Chaque neurone effectue une somme pondérée sur ses entrées, mais différents neurones peuvent avoir différentes fonctions d'activation.

Pour un modèle de neurone unique, deux fonctions d'activation remarquables sont les fonctions linéaires et échelonnées. La fonction d'activation linéaire permet au neurone d'effectuer une régression, tandis que la fonction d'étape lui permet d'effectuer une classification.

Dans le cas d'un neurone avec une seule entrée, la somme pondérée des entrées est calculée en multipliant l'entrée par le poids et en ajoutant le biais. La fonction d'activation linéaire choisie, y = x, nous permet d'exprimer n'importe quelle fonction linéaire de x1 en utilisant les paramètres de poids (w1) et de biais (b). Ainsi, ce neurone peut calculer n'importe quelle fonction linéaire avec une entrée unidimensionnelle (x1) et une sortie unidimensionnelle (y).

Si le neurone a plus d'entrées, la cartographie s'étend aux entrées multidimensionnelles mais reste une fonction linéaire adaptée à la régression. Cependant, la visualisation de la fonction devient difficile à mesure que la dimension d'entrée augmente.

Dans le cas d'un neurone à deux entrées, la fonction échelon est utilisée comme activation. La somme pondérée des entrées est toujours calculée et l'activation passe de zéro à un lorsque la somme devient positive. L'activation peut être décrite à l'aide d'une fonction par morceaux, et la limite de décision entre les entrées résultant en une sortie 0 ou 1 est celle où la somme pondérée des entrées est égale à zéro. Cette configuration convient aux tâches de classification, où les entrées sont étiquetées 0 ou 1 en fonction de la sortie du neurone.

Pour effectuer une régression ou une classification à l'aide de neurones uniques, nous avons besoin d'un ensemble de données composé de paires d'entrée-sortie. La fonction d'activation choisie varie selon que la sortie est binaire (0 ou 1) ou continue. La dimensionnalité des exemples d'entrée détermine le nombre d'entrées et de poids dans le modèle de neurone unique.

La formation d'un réseau neuronal ou d'un neurone unique implique la définition d'une fonction de perte qui quantifie l'écart du modèle par rapport aux données. Pour les tâches de régression, la somme des erreurs au carré peut être utilisée, tandis que les tâches de classification avec des sorties binaires peuvent utiliser d'autres fonctions de perte appropriées.

L'objectif de la formation est de mettre à jour les paramètres (pondérations et biais) de manière à minimiser la perte et à améliorer la précision du modèle. La descente de gradient est une technique d'optimisation courante utilisée pour mettre à jour les paramètres et réduire la perte.

Dans la vidéo suivante, nous approfondirons le concept de descente de gradient et comment il facilite les mises à jour des paramètres pour améliorer les performances du modèle.

What can a single neuron compute? (DL 03)
What can a single neuron compute? (DL 03)
  • 2022.09.02
  • www.youtube.com
Davidson CSC 381: Deep Learning, Fall 2022
 

Comment entraîner son neurone (DL 04)



Comment entraîner son neurone (DL 04)

Dans notre vidéo précédente, nous avons exploré le calcul d'un seul neurone. Nous avons appris qu'un neurone calcule en prenant une somme pondérée d'entrées, en ajoutant un biais et en appliquant une fonction d'activation. L'utilisation d'une fonction en escalier pour l'activation nous donne un classificateur binaire, tandis qu'une fonction linéaire nous donne un régresseur.

Nous avons également discuté de la mesure de la perte d'un modèle sur son ensemble de données à l'aide de la somme des erreurs au carré et de la formation du modèle à l'aide du gradient de la fonction de perte. La fonction de perte dépend des paramètres du modèle, à savoir les poids et le biais. L'erreur quadratique moyenne est couramment utilisée comme fonction de perte dans les calculs.

Pour comprendre comment la fonction de perte dépend des paramètres et comment nous pouvons les modifier pour réduire la perte, nous avons calculé la perte sur un petit ensemble de données de régression. En additionnant les différences au carré entre les sorties correctes et prédites, nous avons obtenu la valeur de perte.

Ensuite, nous nous sommes concentrés sur la recherche du gradient de la fonction de perte. Nous avons dérivé les dérivées partielles de la perte par rapport à chaque paramètre. Ces dérivées partielles forment le gradient, qui nous guide pour diminuer la perte. En mettant à jour les paramètres dans la direction opposée du gradient, nous pouvons minimiser la perte et améliorer la représentation de l'ensemble de données par notre modèle.

Nous avons visualisé la fonction de perte comme une surface dans l'espace des paramètres et discuté de la façon dont le gradient indique la direction de la plus forte augmentation de la perte. En faisant de petits pas dans la direction opposée du gradient, nous pouvons diminuer la perte de manière itérative et affiner notre modèle.

Pour les tâches de classification, nous avons rencontré un défi lors de la prise de la dérivée de l'activation de la fonction échelon. Pour surmonter cela, nous avons remplacé la fonction en escalier par une approximation douce appelée la fonction sigmoïde. Nous avons expliqué le comportement de la fonction sigmoïde et sa capacité à produire des sorties probabilistes entre 0 et 1.

Nous avons appliqué la fonction sigmoïde à un exemple de classification et montré comment calculer la perte et le gradient à l'aide de la nouvelle activation. Le processus de mise à jour des paramètres et d'amélioration du modèle reste le même qu'en régression.

Enfin, nous avons souligné que les concepts discutés peuvent être étendus à des dimensions supérieures en appliquant les mêmes formules à plusieurs poids et points de données. Les principes généraux de calcul de la perte, de calcul du gradient et de mise à jour des paramètres sont valables quelle que soit la dimensionnalité de l'entrée.

Dans l'ensemble, la compréhension du calcul d'un seul neurone, de la fonction de perte et du gradient constitue la base de la formation des réseaux de neurones et de l'amélioration de leurs performances.

How to train your neuron (DL 04)
How to train your neuron (DL 04)
  • 2022.09.03
  • www.youtube.com
Davidson CSC 381: Deep Learning, Fall 2022
 

Le pipeline d'analyse de données (DL 05)



Le pipeline d'analyse de données (DL 05)

Dans notre classe d'apprentissage en profondeur, nous approfondirons l'étude des réseaux de neurones. Cependant, il est important de se rappeler qu'un réseau de neurones, ou tout modèle d'apprentissage automatique, n'est qu'une partie d'un système plus vaste. Avant que les données puissent être introduites dans un réseau neuronal, elles doivent être collectées et traitées dans un format que le réseau peut comprendre. De même, les sorties d'un réseau de neurones nécessitent souvent un post-traitement ou une analyse plus approfondie.

Tout au long du semestre, il sera utile de garder à l'esprit la métaphore d'un pipeline d'analyse de données. Cette analogie souligne que notre objectif dans l'apprentissage automatique est de transformer les observations du monde en prédictions sur le monde, et le réseau de neurones n'est qu'une étape dans ce processus. Le pipeline nous rappelle de considérer les étapes par lesquelles nos données passent et comment chaque étape contribue à la suivante.

Différents problèmes nécessitent différentes étapes dans le pipeline. Alors que les ensembles de données standardisés ou simulés peuvent nous permettre de sauter certaines étapes, les applications réelles de l'apprentissage en profondeur nous obligent à prendre en compte les aspects pratiques de l'analyse des données.

Discutons plus en détail de certains aspects importants des pipelines d'analyse de données. La première étape est la collecte de données. Bien que des ensembles de données préexistants puissent être utilisés dans certains cas, si nous voulons résoudre un nouveau problème avec un apprentissage en profondeur, nous devons déterminer quelles données conviennent à la formation de notre modèle. Lors de la collecte de données, nous devons nous assurer que nous disposons d'une quantité suffisante, étant donné que les récents succès de l'apprentissage en profondeur reposent sur de grands ensembles de données. Cependant, il y a aussi trop de données, surtout lorsque les ressources de calcul sont limitées. Dans certains cas, travailler avec une quantité limitée de données peut être bénéfique, en particulier lors de l'exploration et de la découverte de problèmes. Il est crucial de s'assurer que l'ensemble de données que nous utilisons pour la formation est représentatif du problème que nous visons à résoudre. Cela implique de prendre en compte des facteurs tels que la représentation de toutes les classes souhaitées dans une tâche de classification et de ne pas négliger les valeurs aberrantes importantes que le modèle doit reconnaître.

Un autre défi consiste à identifier les biais systématiques dans les ensembles de données. Les biais peuvent survenir de diverses manières, comme une surreprésentation des images prises les jours ensoleillés, entraînant des difficultés pour un classificateur d'images dans des conditions nuageuses. Les biais peuvent également affecter les prévisions liées à la santé ou à l'éducation, en attribuant des facteurs individuels à des structures sociales plus larges. Il est essentiel de garder à l'esprit les biais potentiels lors de la collecte des données. Cependant, traiter et corriger les biais est un problème complexe qui nécessite des recherches continues sur l'apprentissage en profondeur.

Après avoir collecté des données, nous devons souvent les nettoyer avant d'appliquer l'apprentissage automatique ou d'autres techniques de traitement. Cette étape implique de gérer les données manquantes, de décider quelles dimensions des données sont pertinentes et de traiter les différentes dimensionnalités dans les exemples. Un bon étiquetage des données est crucial pour l'apprentissage supervisé. L'obtention d'étiquettes appropriées peut être difficile, en particulier lors de la transcription de la langue des signes ou de la gestion des incohérences entre la parole et le texte. Les étiquettes doivent représenter avec précision les aspects des données que nous voulons que notre modèle apprenne.

Ensuite, nous devons transformer les données dans un format numérique adapté à la formation de notre réseau neuronal ou modèle d'apprentissage automatique. Les réseaux de neurones attendent une entrée numérique sous forme de vecteurs ou de matrices. Le processus de codage numérique varie en difficulté selon le problème. Par exemple, le traitement des données d'image est relativement simple en raison de la représentation basée sur les pixels déjà utilisée par les ordinateurs. Cependant, la manipulation de données textuelles codées au format ASCII nécessite des représentations alternatives. Transformer la représentation des données ou même la dimensionnalité devient de plus en plus important à mesure que les problèmes deviennent plus complexes.

De plus, il peut être avantageux de normaliser les données, en particulier si les réseaux de neurones ont tendance à produire des valeurs comprises entre zéro et un. La normalisation implique la mise à l'échelle de la plage de valeurs de données, garantissant que les entrées du réseau neuronal sont plus proches les unes des autres. Après la sortie du réseau de neurones, nous devrons peut-être effectuer des étapes de post-traitement. Cela inclut le décodage de la sortie du réseau dans le format de prédiction souhaité, la transmission de la confiance de la prédiction et la prise en compte de l'application ou de l'algorithme qui utilisera les prédictions du modèle.

Une fois que nous avons traité les données et entraîné notre réseau de neurones, nous pouvons passer à l'étape d'évaluation et de réglage. C'est là que nous évaluons les performances de notre modèle et apportons des améliorations. L'évaluation consiste à utiliser l'ensemble de tests que nous avons mis de côté plus tôt. En appliquant le réseau de neurones formé à ces données invisibles, nous pouvons mesurer à quel point il se généralise à de nouveaux exemples. Nous utilisons généralement des mesures telles que l'exactitude, la précision, le rappel et le score F1 pour évaluer les performances de notre modèle. Ces métriques donnent un aperçu de l'efficacité avec laquelle le réseau de neurones fait des prédictions.

Sur la base des résultats de l'évaluation, nous pouvons identifier les domaines dans lesquels le modèle peut être sous-performant ou présenter des limites. Ces informations nous guident dans les ajustements et améliorations nécessaires. Nous pouvons itérer sur l'architecture du modèle, les hyperparamètres, ou même collecter des données supplémentaires si nécessaire. L'objectif est d'affiner les performances du modèle et de s'assurer qu'il atteint la précision et la fiabilité souhaitées.

Au cours du processus de réglage, nous expérimentons différentes configurations et paramètres pour optimiser les performances du modèle. Cela inclut l'ajustement d'hyperparamètres tels que le taux d'apprentissage, la taille des lots et les techniques de régularisation. Grâce à une exploration et une expérimentation systématiques, nous visons à trouver la meilleure combinaison de paramètres qui maximise l'efficacité du réseau de neurones.

En plus d'affiner le modèle lui-même, nous considérons également le contexte plus large de son application. Nous prenons en compte le problème spécifique que nous essayons de résoudre et les implications réelles des prédictions du modèle. Cela implique d'examiner les aspects sociaux, éthiques et juridiques du déploiement du modèle dans la pratique. Il est crucial de s'assurer que le modèle est juste, impartial et aligné sur les valeurs et les exigences du domaine du problème.

En tant que praticiens de l'apprentissage en profondeur, notre responsabilité va au-delà du développement de modèles précis. Nous devons analyser et interpréter les résultats de manière critique, en tenant compte de tout biais ou limitation potentiels. Il est nécessaire de revoir et de réévaluer régulièrement les performances du modèle pour maintenir son efficacité dans le temps.

Étudier les réseaux de neurones dans une classe d'apprentissage en profondeur implique de comprendre qu'ils font partie d'un système plus vaste. Le pipeline d'analyse des données, de la collecte des données au prétraitement, à la formation et à l'évaluation, englobe plusieurs étapes qui nécessitent une attention particulière. En étant conscients de l'ensemble du processus et en améliorant continuellement nos modèles, nous pouvons exploiter efficacement la puissance de l'apprentissage en profondeur pour faire des prédictions précises et résoudre des problèmes du monde réel.

The Data Analysis Pipeline (DL 05)
The Data Analysis Pipeline (DL 05)
  • 2022.09.09
  • www.youtube.com
Davidson CSC 381: Deep Learning, Fall 2022
 

Validation hors échantillon (DL 06)



Validation hors échantillon (DL 06)

Dans l'apprentissage automatique, l'évaluation d'un modèle consiste à faire de nouvelles prédictions et à les tester sur des données inédites. Dans cette discussion, nous explorerons comment utiliser efficacement nos données pour valider et améliorer nos modèles d'apprentissage automatique.

Le processus de sélection du modèle commence par l'identification des options disponibles pour résoudre un problème donné. Cela nous amène au concept d'espace d'hypothèses d'un modèle, qui définit les types de fonctions que le modèle peut représenter. L'espace d'hypothèse est limité par des facteurs tels que la représentation d'entrée choisie et le type de sortie requis.

Une fois que nous avons choisi un modèle spécifique ou un algorithme d'apprentissage automatique, divers aspects du modèle peuvent être ajustés. Cela inclut l'ajustement des paramètres du modèle, tels que les pondérations et les biais, qui sont formés à l'aide des données. De plus, d'autres aspects, comme le taux d'apprentissage ou le nombre d'itérations, peuvent être considérés comme des hyperparamètres qui influencent les performances du modèle.

Pour explorer et tester efficacement différentes options, nous nous appuyons sur la validation expérimentale. Cela implique de diviser notre ensemble de données en ensembles d'entraînement et de test. L'ensemble d'apprentissage est utilisé pour former le modèle, tandis que l'ensemble de test est utilisé pour évaluer ses performances sur des données invisibles. En comparant différents modèles ou hyperparamètres sur l'ensemble de test, nous pouvons déterminer lesquels sont les plus efficaces pour généraliser à de nouvelles données.

La généralisation est un aspect essentiel de l'apprentissage automatique, car notre objectif est de développer des modèles capables de faire des prédictions précises sur de nouvelles données inédites. Le surajustement, où un modèle devient trop spécifique aux données d'entraînement, est un défi courant pour parvenir à une bonne généralisation. En séparant une partie des données pour la validation hors échantillon, nous pouvons évaluer si un modèle est surajusté ou se généralise avec succès.

Lors de l'exploration de plusieurs hyperparamètres, nous pouvons systématiquement faire varier leurs valeurs ou échantillonner au hasard à partir d'une plage plausible. La randomisation nous permet d'explorer efficacement une plus large gamme de valeurs. Cependant, si une expérimentation approfondie conduit à un surajustement de l'ensemble de test, une séparation supplémentaire des données en ensembles d'apprentissage, de validation et de test ou l'utilisation de la validation croisée peut être nécessaire.

La validation croisée consiste à diviser les données en plusieurs sous-ensembles et à former et tester de manière itérative le modèle sur différentes combinaisons de ces sous-ensembles. Cette approche fournit une estimation plus robuste des performances et de la capacité de généralisation du modèle.

L'idée clé de l'apprentissage automatique est de valider expérimentalement nos modèles en séparant les données d'apprentissage et de test. Cela nous permet d'évaluer leurs performances sur des exemples inédits et de prendre des décisions éclairées concernant la sélection de modèles et le réglage des hyperparamètres.

Out-of-Sample Validation (DL 06)
Out-of-Sample Validation (DL 06)
  • 2022.09.09
  • www.youtube.com
Davidson CSC 381: Deep Learning, Fall 2022
 

Réseaux de neurones feed-forward (DL 07)



Réseaux de neurones feed-forward (DL 07)

Les réseaux de neurones, contrairement aux neurones uniques, sont constitués de plusieurs couches et effectuent des calculs via des nœuds. Chaque nœud calcule la somme pondérée des entrées et applique une fonction d'activation. Dans un réseau de neurones, l'entrée d'un nœud peut provenir d'activations de nœuds précédentes, et son activation calculée peut être transmise à des nœuds ultérieurs.

Par exemple, le neurone 8 d'un réseau reçoit des entrées des neurones 5, 6 et 7. La somme pondérée des entrées effectuées par le neurone 8 est la somme des activations de ces neurones multipliée par les poids correspondants, plus le biais. La fonction d'activation est ensuite appliquée à la somme pondérée. La sortie du neurone 8 est utilisée comme entrée pour les nœuds 11 et 12. Différentes fonctions d'activation peuvent être utilisées dans un réseau de neurones, telles que la tangente hyperbolique et l'unité linéaire redresseuse (ReLU).

Pour effectuer des calculs à l'aide d'un réseau de neurones pour faire des prédictions, nous commençons par définir les activations des nœuds de la couche d'entrée en fonction des données d'entrée. Les nœuds de la couche d'entrée stockent simplement les valeurs du vecteur d'entrée. La taille des couches d'entrée et de sortie dépend de la dimensionnalité des données et de la prédiction souhaitée. Les neurones cachés du réseau, organisés en couches, effectuent des calculs entre les entrées et les sorties. En calculant les activations pour chaque couche, nous pouvons transmettre les entrées à la couche suivante, en faisant référence aux activations précédentes. Ces activations sont également nécessaires pour la descente de gradient lors des mises à jour de poids. La présence de couches cachées dans un réseau neuronal offre la possibilité d'utiliser des fonctions d'activation non linéaires. Les activations linéaires n'offrent aucun avantage dans les réseaux multicouches. Les fonctions d'activation non linéaires, telles que la fonction sigmoïde, permettent la représentation de diverses fonctions.

Les neurones représentant des opérations logiques telles que AND, OR et NOT peuvent être construits à l'aide de classificateurs de fonctions échelonnées. En rapprochant ces opérations logiques à l'aide d'activations sigmoïdes, un réseau de neurones peut représenter n'importe quelle fonction booléenne. Pour former un réseau de neurones, nous utilisons la descente de gradient pour mettre à jour les poids et les biais. Les paramètres du réseau incluent tous les poids et biais de l'ensemble du réseau. La fonction de perte dans un réseau avec plusieurs neurones de sortie peut être l'erreur quadratique moyenne additionnée sur tous les neurones de sortie. L'objectif est de réduire la perte en mettant à jour les paramètres de manière itérative.

La descente de gradient est effectuée en calculant les gradients de la perte par rapport aux paramètres, en prenant des mesures dans le sens opposé des gradients pour minimiser la perte. Ce processus est connu sous le nom de rétropropagation et permet au réseau d'apprendre et d'améliorer ses prédictions. Dans la vidéo suivante, nous approfondirons les détails de l'algorithme de rétropropagation, qui est utilisé pour effectuer des mises à jour de descente de gradient sur un réseau de neurones. La rétropropagation permet un calcul efficace des gradients de perte par rapport aux paramètres du réseau.

Le processus commence par calculer le gradient de la fonction de perte par rapport aux activations de sortie. Ce gradient représente la sensibilité de la perte aux variations des activations de sortie. Il peut être obtenu en appliquant la règle de la chaîne, car la perte dépend des activations de sortie via la fonction d'activation et de la différence au carré avec les valeurs cibles. Une fois que le gradient de la perte par rapport aux activations de sortie est calculé, il est propagé vers l'arrière à travers le réseau. A chaque couche, les gradients sont multipliés par la dérivée de la fonction d'activation par rapport à la somme pondérée des entrées. Cette dérivée capture la sensibilité de l'activation aux variations de la somme pondérée.

En propageant les gradients vers l'arrière, on peut calculer les gradients de la perte par rapport aux activations de la couche précédente. Ces gradients indiquent dans quelle mesure chaque activation dans la couche précédente contribue à la perte. En utilisant les gradients de la perte par rapport aux activations, nous pouvons alors calculer les gradients de la perte par rapport aux poids et biais dans chaque couche. Ces gradients sont obtenus en multipliant l'activation de la couche précédente par le gradient correspondant de la fonction d'activation. Enfin, avec les gradients de la perte par rapport aux paramètres, nous pouvons mettre à jour les poids et les biais en utilisant l'algorithme de descente de gradient. En prenant des mesures dans le sens opposé aux gradients, nous optimisons progressivement les paramètres du réseau pour minimiser la perte.

Ce processus itératif de propagation vers l'avant, de propagation vers l'arrière et de mises à jour des paramètres est répété pendant un certain nombre d'époques ou jusqu'à ce que la perte converge vers une valeur satisfaisante. Grâce à ce processus de formation, le réseau de neurones apprend à faire de meilleures prédictions en ajustant ses pondérations et ses biais en fonction des données de formation fournies.

Les réseaux de neurones utilisent plusieurs couches et des fonctions d'activation non linéaires pour effectuer des calculs complexes et faire des prédictions. En utilisant l'algorithme de rétropropagation et la descente de gradient, les réseaux de neurones peuvent apprendre des données et optimiser leurs paramètres pour améliorer leurs capacités prédictives.

Feed-Forward Neural Networks (DL 07)
Feed-Forward Neural Networks (DL 07)
  • 2022.09.16
  • www.youtube.com
Davidson CSC 381: Deep Learning, Fall 2022