Que mettre à l'entrée du réseau neuronal ? Vos idées... - page 58

 
Forester #:

La généralisation s'apparente davantage à un sous-apprentissage. C'est-à-dire qu'ils s'en sont souvenus, mais pas avec une précision absolue (ils ont aussi impliqué les voisins...). Presque comme un écolier avec un "C"))

Mais si nous mémorisons quelque chose défini par une loi (par exemple la loi d'Ohm), il n'y aura pas de sur-apprentissage, il est plus facile d'obtenir un sous-apprentissage s'il y a peu d'exemples et un nombre infini d'entre eux.

Dans le cas du commerce, où les modèles sont pratiquement inexistants et bruyants, une mémorisation absolument précise associée à du bruit entraînera une perte.
Pour une raison ou une autre, ce phénomène a été appelé sur-apprentissage. La mémorisation précise n'est pas nuisible en soi, comme dans le cas de l'apprentissage de modèles. En revanche, la mémorisation de bruits et de déchets n'est pas bénéfique.
La généralisation est un équilibre entre le moins et le plus :) Exemple concret tiré de la vie : vous avez bien appris la formule de Maxwell, mais vous n'avez pas réussi à l'appliquer dans la réalité, c'est du sur-apprentissage. Je savais que la formule de Maxwell existait, mais je ne me souvenais pas de la façon dont elle était écrite, mais en pratique, je m'en suis souvenu, je l'ai relue et je l'ai appliquée. Il s'agit là de généralisation (apprentissage) et non d'années perdues à l'université.
 
Qu'y a-t-il de mal à la définition habituelle de l'apprentissage, qui consiste à attribuer des valeurs spécifiques aux paramètres du modèle ?
 
Aleksey Nikolayev #:
Quel est le problème avec la définition habituelle de l'apprentissage, qui consiste à attribuer des valeurs spécifiques aux paramètres du modèle ?
Vous pouvez le demander au modèle lui-même :)

La définition habituelle de l'apprentissage, qui consiste à attribuer des valeurs spécifiques aux paramètres du modèle, peut s'avérer insuffisante pour plusieurs raisons :

  1. Incomplétude de la description du processus: l'apprentissage d'un modèle implique non seulement l'attribution de valeurs aux paramètres, mais aussi le processus d'optimisation de ces paramètres sur la base des données. Ce processus peut inclure la sélection d'un algorithme d'optimisation, le réglage des hyperparamètres, la sélection d'une fonction de perte et d'autres aspects qui ne sont pas couverts par une simple attribution de valeurs.

  2. Ignorer la dynamique de l'apprentissage: l'apprentissage d'un modèle est un processus dynamique qui peut comporter de nombreuses itérations et étapes. Une simple attribution de valeur ne rend pas compte de cette nature itérative, où les paramètres sont progressivement ajustés pour minimiser l'erreur.

  3. Absence de contexte des données: l'apprentissage d'un modèle repose sur des données et le processus d'apprentissage implique l'analyse et l'interprétation de ces données. La simple attribution de valeurs ne tient pas compte de la manière dont les données sont utilisées pour former le modèle et de la façon dont elles affectent les paramètres finaux.

  4. Absence de prise en compte de la généralisation: l'objectif de l'apprentissage d'un modèle n'est pas seulement de minimiser l'erreur sur les données d'apprentissage, mais aussi la capacité du modèle à généraliser ses connaissances à de nouvelles données inédites. La simple attribution de valeurs ne rend pas compte de cet aspect de la généralisation.

  5. Ignorer la validation et le test: le processus de formation implique également la validation et le test du modèle afin d'évaluer ses performances et d'éviter le surentraînement. La simple attribution de valeurs ne tient pas compte de ces étapes importantes.

Ainsi, une définition plus complète de l'apprentissage d'un modèle devrait inclure un processus d'optimisation des paramètres basé sur les données, prenant en compte la dynamique d'apprentissage, le contexte des données, la capacité de généralisation et les étapes de validation et de test.

 
En général, je me demande pourquoi des experts de valeur commencent à discuter d'un sujet complexe et intéressant sans être orientés dans ce domaine :)
 
Forester #:

A propos de la formation...


Il y a quelques années, j'ai rencontré cette expression sur un site commun (non technique) : bases de données basées sur des réseaux neuronaux. En général, j'étais d'accord avec ce terme.



Je fais moi-même des arbres - une base de données basée sur des arbres est également applicable. 1 feuille dans un arbre = 1 ligne dans une base de données. Différences :



1 ligne dans la base de données contient seulement 1 exemple des données stockées dans la base de données. 1 feuille contient :



1) 1 exemple et tous les exemples exactement identiques (en divisant l'arbre autant que possible jusqu'à la dernière différence) ou

2) 1 exemple et exactement les mêmes exemples + les exemples les plus similaires si la division s'arrête plus tôt.
Les exemples similaires sont définis différemment par les différents algorithmes lors de la sélection des divisions de l'arbre.

Avantages des arbres par rapport aux bases de données : généralisation et recherche rapide de la feuille requise - il n'est pas nécessaire de parcourir un million de lignes, la feuille peut être atteinte par plusieurs divisions.

Le regroupement est également généralisé. Kmeans - en fonction de la proximité des exemples par rapport au centre de la grappe, d'autres méthodes diffèrent.

Vous pouvez également diviser par le nombre maximal de grappes = nombre d'exemples et vous obtiendrez un analogue de base de données/feuilles sans généralisation. Les réseaux neuronaux sont plus difficiles à comprendre, mais ils constituent également une base de données, bien qu'ils ne soient pas aussi évidents que les feuilles et les grappes.

En résumé : l 'apprentissage par arbre = il s'agit de mémoriser/enregistrer des exemples, tout comme une base de données. Si vous arrêtez la division/l'apprentissage avant la mémorisation la plus précise possible, vousmémorisez avec la généralisation.

Andrew veut bien sûr soulever le fait que l'apprentissage est une optimisation. Non, c'est de la mémorisation. Mais l'optimisation est également présente. Vous pouvez optimiser les variations avec la profondeur d'apprentissage, les méthodes fractionnées, etc. Chaque étape de l'optimisation entraînera un modèle différent. Mais l'apprentissage n'est pas une optimisation. C'est de la mémorisation.
Si vous saviez à quel point vous avez dit des bêtises avec un air intelligent.

Mais je n'ai ni le temps ni l'envie de l'expliquer.
 
Forester #:

A propos de la formation...


Il y a quelques années, j'ai rencontré cette expression sur un site commun (non technique) : bases de données basées sur des réseaux neuronaux. En général, j'étais d'accord avec ce terme.



Je fais moi-même des arbres - une base de données basée sur des arbres est également applicable. 1 feuille dans un arbre = 1 ligne dans une base de données. Différences :



1 ligne dans la base de données contient seulement 1 exemple des données stockées dans la base de données. 1 feuille contient :



1) 1 exemple et tous les exemples exactement identiques (en divisant l'arbre autant que possible jusqu'à la dernière différence) ou

2) 1 exemple et exactement les mêmes exemples + les exemples les plus similaires si la division s'arrête plus tôt.
Les exemples similaires sont définis différemment par les différents algorithmes lors de la sélection des divisions de l'arbre.

Avantages des arbres par rapport aux bases de données : généralisation et recherche rapide de la feuille requise - il n'est pas nécessaire de parcourir un million de lignes, la feuille peut être atteinte par plusieurs divisions.

Le regroupement est également généralisé. Kmeans - en fonction de la proximité des exemples par rapport au centre de la grappe, d'autres méthodes diffèrent.

Vous pouvez également diviser par le nombre maximal de grappes = nombre d'exemples et vous obtiendrez un analogue de base de données/feuilles sans généralisation. Les réseaux neuronaux sont plus difficiles à comprendre, mais ils constituent également une base de données, bien qu'ils ne soient pas aussi évidents que les feuilles et les grappes.

En résumé : l 'apprentissage par arbre = il s'agit de mémoriser/enregistrer des exemples, tout comme une base de données. Si vous arrêtez la division/l'apprentissage avant la mémorisation la plus précise possible, vousmémorisez avec la généralisation.

Andrew veut bien sûr soulever le fait que l'apprentissage est une optimisation. Non, c'est de la mémorisation. Mais l'optimisation est également présente. Vous pouvez optimiser les variations avec la profondeur d'apprentissage, les méthodes fractionnées, etc. Chaque étape de l'optimisation entraînera un modèle différent. Mais l'apprentissage n'est pas une optimisation. C'est de la mémorisation.

et comment la qualité de l'apprentissage est-elle déterminée ?
 
Andrey Dik #:

et comment la qualité de l'enseignement est-elle déterminée ?

La qualité d'apprentissage sera maximale si la mémorisation est absolument précise, c'est-à-dire si l'on dispose d'un enregistrement complet de toutes les données dans la base de données, ou si l'on forme un arbre jusqu'à la dernière division possible, ou encore si l'on procède à un regroupement dont le nombre de grappes = le nombre d'exemples.

Les arbres qui cessent de se diviser plus tôt ou qui se regroupent avec moins de grappes généraliseront et fusionneront les données dans les feuilles/grappes. Il s'agit de modèles sous-entraînés, mais en présence de bruit, ils peuvent donner de meilleurs résultats que les modèles avec rappel exact.

Au début de la branche MO, il y a eu un exemple d'enseignement de la table de multiplication à un échafaudage. Comme il n'a pas reçu un nombre infini de choix possibles pour l'entraînement, la forêt produit parfois des réponses exactes, mais surtout des réponses approximatives. Il est clair qu'elle est sous-entraînée. Mais elle est capable de généraliser - en trouvant et en calculant la moyenne des réponses les plus proches des réponses correctes des arbres individuels.

Avec l'apprentissage dans le bruit, il est difficile d'évaluer la qualité. Surtout si le bruit est beaucoup plus fort que les modèles, comme c'est le cas dans le commerce.

À cette fin, on a inventé l'évaluation sur des échantillons de validation et de test, la validation croisée, le jacking forward, etc.
 
Forester #:

La qualité maximale de l'apprentissage sera atteinte lors d'une mémorisation absolument précise, c'est-à-dire lorsque toutes les données sont entièrement enregistrées dans la base de données, ou lors de l'apprentissage d'un arbre jusqu'à la toute dernière division possible ou d'un regroupement avec un nombre de regroupements = nombre d'exemples.

Les arbres qui cessent de se diviser plus tôt ou qui se regroupent avec moins de grappes généraliseront et fusionneront les données dans les feuilles/grappes. Il s'agit de modèles sous-entraînés, mais en présence de bruit, ils peuvent donner de meilleurs résultats que les modèles avec rappel exact.

Au début de la branche MO, il y a eu un exemple d'enseignement de la table de multiplication à un échafaudage. Comme il n'a pas reçu un nombre infini de choix possibles pour l'entraînement, la forêt produit parfois des réponses exactes, mais surtout des réponses approximatives. Il est évident qu'elle est sous-entraînée. Mais elle est capable de généraliser - en trouvant et en calculant la moyenne des réponses les plus proches des réponses correctes des arbres individuels.

L'apprentissage dans le bruit est difficile à évaluer. Surtout si le bruit est beaucoup plus fort que les modèles, comme c'est le cas dans le commerce.

Maximiser la qualité de l'apprentissage, c'est maximiser la qualité des prédictions sur de nouvelles données. Les prévisions sur l'échantillon d'entraînement n'intéressent personne, car elles sont déjà connues. Il ne s'agit plus d'apprentissage, mais d'approximation. On ne parle pas d'apprentissage par approximation.

Par exemple, un MLP à deux couches est un approximateur universel qui peut approximer n'importe quelle fonction arbitraire avec n'importe quelle précision. Cela signifie-t-il qu'il est formé à la qualité maximale ? Bien sûr que non. Sinon, on ne serait pas en train d'inventer d'autres architectures de réseaux neuronaux qui sont meilleures pour l'apprentissage exact, et non pour l'adaptation, à des tâches spécifiques.

Faible, bien que vous sembliez être sur le sujet depuis longtemps.
 
Aleksey Nikolayev #:
Quel est le problème avec la définition habituelle de l'apprentissage, qui consiste à attribuer des valeurs spécifiques aux paramètres du modèle ?

Elle n'en saisit pas l'essence.



Vous pouvez attribuer n'importe quel type de charabia et de non-sens. Si nous partons de l'opposé (mémorisation/souvenir), alors l'apprentissage est l'identification de certains modèles grâce auxquels vous pouvez créer ou identifier de nouvelles connaissances. Par exemple : Chat écrit des poèmes sur un sujet arbitraire.

 
Maxim Dmitrievsky #:
Maximiser la qualité de la formation, c'est maximiser la qualité des prédictions sur les nouvelles données. Personne ne s'intéresse aux prédictions sur l'échantillon d'entraînement, car elles sont déjà connues. Ce n'est pas de l'apprentissage, c'est de l'approximation. On ne parle pas d'apprentissage par approximation.

Par exemple, un MLP à deux couches est un approximateur universel qui peut approximer n'importe quelle fonction arbitraire avec n'importe quelle précision. Cela signifie-t-il qu'il est formé à la qualité maximale ? Bien sûr que non. Sinon, nous n'inventerions pas d'autres architectures de réseaux neuronaux qui sont meilleures pour l'apprentissage, et non pour l'adaptation, à des tâches spécifiques.
Il faut donc se faire une raison.

L'approximation n'est pas de l'apprentissage, mais la neuronique est une approximation...

La neuronique ne forme pas ?


L'un pense que la base de données est un classificateur, l'autre est confondu avec l'approximation.....

Qu'est-ce que vous êtes, vous les experts ? 😀