L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo

Aleksey Nikolayev 2023.10.23 08:59 #33101

Aleksey Vyazmikin #:

Qui a essayé la méthode du"profil de compacité" ?

L'objectif de cette méthode est d'éliminer les exemples incohérents de l'échantillon, ce qui devrait améliorer l'apprentissage et réduire la taille du modèle si les méthodes d'apprentissage par K plus proche voisin sont utilisées.

Je n'ai pas trouvé d'implémentation en python.....

Le même lien parle de lier le "profil" à la validation croisée, pour laquelle il pourrait être plus facile de trouver des packages.

Forester 2023.10.23 09:41 #33102

Aleksey Vyazmikin #:

Qui a essayé la méthode du"profil de compacité" ?

L'objectif de cette méthode est d'éliminer les exemples incohérents de l'échantillon, ce qui devrait améliorer l'apprentissage et réduire la taille du modèle si les méthodes d'apprentissage par K plus proche voisin sont utilisées.

Je n'ai pas trouvé d'implémentation en python.....

Le travail est expérimental. Voici une citation de http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Le travail a été réalisé dans le cadre des projets RFBR 05-01-00877, 05-07-90410 et du programme OMN RAS.

Il est peu probable que chaque expérience ait été créée dans le cadre d'un paquet.

Oui, et l'expérience est artificielle. Du bruit a été ajouté à l'ensemble des données clairement séparées par classes. Et la séparation claire n'est faite que par une seule caractéristique - l'axe des Y. Si nous supprimons le bruit (toutes les données de 0,2 à 0,8), il s'avère que nous ne conservons que les exemples dont la distance avec une autre classe n'est pas inférieure à 0,6. Je parle ici de la troisième option la plus difficile de l'image :

Passer à la vie réelle et ajouter vos 5000 prédicteurs qui seront du bruit à cette unique fiche de travail. Dans le clustering, vous calculez la distance totale entre les points dans cet espace de 5001 dimensions. Une distance de 0,6 ne sera jamais trouvée dans ce chaos.

Je pense que n'importe quel classificateur fera mieux, le même arbre trouvera cette caractéristique unique et la divisera, d'abord par 0,5, puis il atteindra des divisions de 0,2 et 0,8 suivies par des feuilles avec une pureté de 100 %.

Calcul de l'angle de Qui croit encore que Interpolation, approximation et autres

mytarmailS 2023.10.23 10:06 #33103

Aleksey Vyazmikin #:

Qui a essayé la méthode du"profil de compacité" ?

L'objectif de cette méthode est d'éliminer les exemples incohérents de l'échantillon, ce qui devrait améliorer l'apprentissage et réduire la taille du modèle si les méthodes d'apprentissage par K plus proche voisin sont utilisées.

Je n'ai pas trouvé d'implémentation en python....

L'un des articles de Vladimir Perervenko décrit une telle méthode et contient un exemple avec du code, bien sûr.

СанСаныч Фоменко 2023.10.23 11:37 #33104

Forester #:

Le travail est expérimental. Voici une citation de http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Il est peu probable que chaque expérience ait été créée sous forme de paquet.

Oh, et l'expérience est artificielle. Du bruit a été ajouté à l'ensemble des données clairement séparées par classes. Et la séparation claire ne concerne qu'une seule caractéristique - l'axe des Y. Si nous supprimons le bruit (toutes les données de 0,2 à 0,8), il s'avère que nous ne conservons que les exemples dont la distance avec une autre classe n'est pas inférieure à 0,6. Il s'agit de la troisième variante la plus compliquée de l'image :

Passez à la vie réelle et ajoutez vos 5000 prédicteurs qui seront du bruit à cette fiche de travail unique. Dans le clustering, vous calculez la distance totale entre les points dans cet espace de 5001 dimensions. Une distance de 0,6 ne sera jamais trouvée dans ce chaos.

Je pense que n'importe quel classificateur fera mieux, le même arbre trouvera cette caractéristique unique et la divisera, d'abord par 0,5, puis il atteindra des divisions de 0,2 et 0,8 suivies de feuilles avec une pureté de 100 %.

Il ne le fera jamais. N'importe quel MO ne le trouvera pas. Il faut se débarrasser des déchets AVANT d'entraîner le modèle. "Garbage in - rubbish out" est la loi de la statistique.

Forester 2023.10.23 11:43 #33105

СанСаныч Фоменко #:

Il n'y en aura jamais. N'importe quel OI ne le trouvera pas. Il faut se débarrasser des déchets AVANT d'entraîner le modèle. La loi de la statistique dit : "Les déchets entrent, les déchets sortent".

Je parle d'un exemple artificiel spécifique sur lequel des expériences ont été menées. Il ne s'agit pas d'une entrée et d'une sortie de déchets. Ce qui jonche cet exemple est facile à éliminer.

Détecter le déclenchement du Les résultats du test Indicateurs multitemporels

Maxim Dmitrievsky 2023.10.24 14:20 #33106

C'est exactement ce que les optimisateurs ne peuvent pas comprendre. C'est par la simplification que l'on peut améliorer la stabilité, et non par la recherche d'un maximum global.

L'exemple le plus simple est le SVM, avec une distance donnée entre les vecteurs de support. Le cross shaft est encore plus flexible. Et là, vous verrez, et vous pourrez ensuite entrer dans matstat pour une demi-feuille.

Si vous ne pouvez pas entrer dans kozul dès le début, vous pouvez réfléchir à ce niveau pour commencer.

Hors sujet : avez-vous joué à starfield ? Besdazd sait faire de l'atmosphérique. C'est immersif.

Bill Williams et ses Sur l'inégale probabilité d'un Mythes sur les conseillers

СанСаныч Фоменко 2023.10.25 09:27 #33107

Forester #:

Je parle de l'exemple artificiel spécifique sur lequel les expériences ont été menées. Il ne s'agit pas d'une entrée et d'une sortie de déchets. Ce qui est connu dans cet exemple est facile à couper.

Pour clarifier mon propos.

Tout algorithme de MO tente de réduire l'erreur. La réduction de l'erreur est plus efficace sur les déchets, parce qu'ils sont beaucoup plus susceptibles d'avoir des valeurs "pratiques" pour la réduction de l'erreur. Par conséquent, il est certain que l'"importance" des prédicteurs pour les déchets sera plus élevée que pour les NON déchets. C'est la raison pour laquelle il existe un prétraitement, qui demande beaucoup plus de travail que l'ajustement du modèle lui-même.

Marché et produits (experts) Erreurs, bugs, questions [ARCHIVE !] Toute question

Ivan Butko 2023.10.25 09:36 #33108

СанСаныч Фоменко #:

Permettez-moi de clarifier mon propos.

Tout algorithme de MO tente de réduire l'erreur. La réduction de l'erreur est plus efficace sur les déchets, car les valeurs "pratiques" pour la réduction de l'erreur sont beaucoup plus courantes dans les déchets. Par conséquent, il est certain que l'"importance" des prédicteurs pour les déchets sera plus élevée que pour les NON-déchets. C'est la raison pour laquelle il existe un prétraitement, qui demande beaucoup plus de travail que l'ajustement du modèle lui-même.

Dites-moi, s'il vous plaît, qu'est-ce qui n'est pas un déchet ? Je n'ai jamais vu personne parler de données d'entrée pures. Mais j'entends constamment parler de déchets sur le forum.

De quoi s'agit-il ? Si vous parlez de déchets, c'est que vous n'en avez pas eu, sinon il n'y a rien à quoi les comparer.

FOREX - Tendances, prévisions EURUSD - Tendances, prévisions Comment évaluer concrètement la

mytarmailS 2023.10.25 09:42 #33109

СанСаныч Фоменко #:

Permettez-moi de clarifier mon propos.

Tout algorithme de MO tente de réduire l'erreur. La réduction de l'erreur est plus efficace sur les déchets, car les valeurs "pratiques" pour la réduction de l'erreur sont beaucoup plus courantes dans les déchets. Par conséquent, il est certain que l'"importance" des prédicteurs pour les déchets sera plus élevée que pour les NON-déchets. C'est la raison pour laquelle il existe un prétraitement, qui demande beaucoup plus de travail que l'ajustement du modèle proprement dit.

Le prétraitement concerne la normalisation, pas les déchets.

Les déchets sont la sélection des caractéristiques et en partie l'ingénierie des caractéristiques.

Sanych, arrêtez d'introduire des déchets dans les données d'entrée des personnes immatures.

Andrey Dik 2023.10.25 09:51 #33110

Ivan Butko #:

Pouvez-vous m'expliquer ce qui n'est pas de l'ordure ? Je n'ai jamais vu personne parler de données d'entrée propres. Mais j'entends constamment parler de déchets sur le forum.

De quoi s'agit-il ? Si vous parlez de déchets, c'est que vous n'en avez pas eu, sinon il n'y a rien à quoi les comparer.

Personne ne sait ce qui est un déchet et ce qui ne l'est pas, ce sont des concepts hypothétiques.

S'ils savaient exactement ce qui est quoi, il n'y aurait pas un fil de discussion de 3 000 pages.)))

On fait simplement l'hypothèse que dépasser telle ou telle limite est "déchet", ces limites sont également hypothétiques. C'est pourquoi l'expression "rubbish in - rubbish out" n'est rien d'autre qu'une belle phrase, ce qui est rubbish pour un chercheur n'est pas rubbish pour un autre chercheur. C'est comme les vagues d'Eliot.

Questions d'un "mannequin Tampons indicateurs artificiels Économétrie : une prévision

L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 3311