L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 3311

 
Aleksey Vyazmikin #:

Qui a essayé la méthode du"profil de compacité" ?

L'objectif de cette méthode est d'éliminer les exemples incohérents de l'échantillon, ce qui devrait améliorer l'apprentissage et réduire la taille du modèle si les méthodes d'apprentissage par K plus proche voisin sont utilisées.

Je n'ai pas trouvé d'implémentation en python.....

Le même lien parle de lier le "profil" à la validation croisée, pour laquelle il pourrait être plus facile de trouver des packages.
 
Aleksey Vyazmikin #:

Qui a essayé la méthode du"profil de compacité" ?

L'objectif de cette méthode est d'éliminer les exemples incohérents de l'échantillon, ce qui devrait améliorer l'apprentissage et réduire la taille du modèle si les méthodes d'apprentissage par K plus proche voisin sont utilisées.

Je n'ai pas trouvé d'implémentation en python.....

Le travail est expérimental. Voici une citation de http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Le travail a été réalisé dans le cadre des projets RFBR 05-01-00877, 05-07-90410 et du programme OMN RAS.

Il est peu probable que chaque expérience ait été créée dans le cadre d'un paquet.

Oui, et l'expérience est artificielle. Du bruit a été ajouté à l'ensemble des données clairement séparées par classes. Et la séparation claire n'est faite que par une seule caractéristique - l'axe des Y. Si nous supprimons le bruit (toutes les données de 0,2 à 0,8), il s'avère que nous ne conservons que les exemples dont la distance avec une autre classe n'est pas inférieure à 0,6. Je parle ici de la troisième option la plus difficile de l'image :


Passer à la vie réelle et ajouter vos 5000 prédicteurs qui seront du bruit à cette unique fiche de travail. Dans le clustering, vous calculez la distance totale entre les points dans cet espace de 5001 dimensions. Une distance de 0,6 ne sera jamais trouvée dans ce chaos.

Je pense que n'importe quel classificateur fera mieux, le même arbre trouvera cette caractéristique unique et la divisera, d'abord par 0,5, puis il atteindra des divisions de 0,2 et 0,8 suivies par des feuilles avec une pureté de 100 %.

 
Aleksey Vyazmikin #:

Qui a essayé la méthode du"profil de compacité" ?

L'objectif de cette méthode est d'éliminer les exemples incohérents de l'échantillon, ce qui devrait améliorer l'apprentissage et réduire la taille du modèle si les méthodes d'apprentissage par K plus proche voisin sont utilisées.

Je n'ai pas trouvé d'implémentation en python....

L'un des articles de Vladimir Perervenko décrit une telle méthode et contient un exemple avec du code, bien sûr.
 
Forester #:

Le travail est expérimental. Voici une citation de http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Il est peu probable que chaque expérience ait été créée sous forme de paquet.

Oh, et l'expérience est artificielle. Du bruit a été ajouté à l'ensemble des données clairement séparées par classes. Et la séparation claire ne concerne qu'une seule caractéristique - l'axe des Y. Si nous supprimons le bruit (toutes les données de 0,2 à 0,8), il s'avère que nous ne conservons que les exemples dont la distance avec une autre classe n'est pas inférieure à 0,6. Il s'agit de la troisième variante la plus compliquée de l'image :


Passez à la vie réelle et ajoutez vos 5000 prédicteurs qui seront du bruit à cette fiche de travail unique. Dans le clustering, vous calculez la distance totale entre les points dans cet espace de 5001 dimensions. Une distance de 0,6 ne sera jamais trouvée dans ce chaos.

Je pense que n'importe quel classificateur fera mieux, le même arbre trouvera cette caractéristique unique et la divisera, d'abord par 0,5, puis il atteindra des divisions de 0,2 et 0,8 suivies de feuilles avec une pureté de 100 %.

Il ne le fera jamais. N'importe quel MO ne le trouvera pas. Il faut se débarrasser des déchets AVANT d'entraîner le modèle. "Garbage in - rubbish out" est la loi de la statistique.

 
СанСаныч Фоменко #:

Il n'y en aura jamais. N'importe quel OI ne le trouvera pas. Il faut se débarrasser des déchets AVANT d'entraîner le modèle. La loi de la statistique dit : "Les déchets entrent, les déchets sortent".

Je parle d'un exemple artificiel spécifique sur lequel des expériences ont été menées. Il ne s'agit pas d'une entrée et d'une sortie de déchets. Ce qui jonche cet exemple est facile à éliminer.

 
C'est exactement ce que les optimisateurs ne peuvent pas comprendre. C'est par la simplification que l'on peut améliorer la stabilité, et non par la recherche d'un maximum global.
L'exemple le plus simple est le SVM, avec une distance donnée entre les vecteurs de support. Le cross shaft est encore plus flexible. Et là, vous verrez, et vous pourrez ensuite entrer dans matstat pour une demi-feuille.
Si vous ne pouvez pas entrer dans kozul dès le début, vous pouvez réfléchir à ce niveau pour commencer.

Hors sujet : avez-vous joué à starfield ? Besdazd sait faire de l'atmosphérique. C'est immersif.
 
Forester #:

Je parle de l'exemple artificiel spécifique sur lequel les expériences ont été menées. Il ne s'agit pas d'une entrée et d'une sortie de déchets. Ce qui est connu dans cet exemple est facile à couper.

Pour clarifier mon propos.

Tout algorithme de MO tente de réduire l'erreur. La réduction de l'erreur est plus efficace sur les déchets, parce qu'ils sont beaucoup plus susceptibles d'avoir des valeurs "pratiques" pour la réduction de l'erreur. Par conséquent, il est certain que l'"importance" des prédicteurs pour les déchets sera plus élevée que pour les NON déchets. C'est la raison pour laquelle il existe un prétraitement, qui demande beaucoup plus de travail que l'ajustement du modèle lui-même.

 
СанСаныч Фоменко #:

Permettez-moi de clarifier mon propos.

Tout algorithme de MO tente de réduire l'erreur. La réduction de l'erreur est plus efficace sur les déchets, car les valeurs "pratiques" pour la réduction de l'erreur sont beaucoup plus courantes dans les déchets. Par conséquent, il est certain que l'"importance" des prédicteurs pour les déchets sera plus élevée que pour les NON-déchets. C'est la raison pour laquelle il existe un prétraitement, qui demande beaucoup plus de travail que l'ajustement du modèle lui-même.

Dites-moi, s'il vous plaît, qu'est-ce qui n'est pas un déchet ? Je n'ai jamais vu personne parler de données d'entrée pures. Mais j'entends constamment parler de déchets sur le forum.

De quoi s'agit-il ? Si vous parlez de déchets, c'est que vous n'en avez pas eu, sinon il n'y a rien à quoi les comparer.

 
СанСаныч Фоменко #:

Permettez-moi de clarifier mon propos.

Tout algorithme de MO tente de réduire l'erreur. La réduction de l'erreur est plus efficace sur les déchets, car les valeurs "pratiques" pour la réduction de l'erreur sont beaucoup plus courantes dans les déchets. Par conséquent, il est certain que l'"importance" des prédicteurs pour les déchets sera plus élevée que pour les NON-déchets. C'est la raison pour laquelle il existe un prétraitement, qui demande beaucoup plus de travail que l'ajustement du modèle proprement dit.

Le prétraitement concerne la normalisation, pas les déchets.
Les déchets sont la sélection des caractéristiques et en partie l'ingénierie des caractéristiques.

Sanych, arrêtez d'introduire des déchets dans les données d'entrée des personnes immatures.
 
Ivan Butko #:

Pouvez-vous m'expliquer ce qui n'est pas de l'ordure ? Je n'ai jamais vu personne parler de données d'entrée propres. Mais j'entends constamment parler de déchets sur le forum.

De quoi s'agit-il ? Si vous parlez de déchets, c'est que vous n'en avez pas eu, sinon il n'y a rien à quoi les comparer.

Personne ne sait ce qui est un déchet et ce qui ne l'est pas, ce sont des concepts hypothétiques.

S'ils savaient exactement ce qui est quoi, il n'y aurait pas un fil de discussion de 3 000 pages.)))

On fait simplement l'hypothèse que dépasser telle ou telle limite est "déchet", ces limites sont également hypothétiques. C'est pourquoi l'expression "rubbish in - rubbish out" n'est rien d'autre qu'une belle phrase, ce qui est rubbish pour un chercheur n'est pas rubbish pour un autre chercheur. C'est comme les vagues d'Eliot.