L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 3312

 
Ivan Butko #:

Pouvez-vous m'expliquer ce qui n'est pas de l'ordure? Je n'ai jamais vu personne parler de données d'entrée propres. Mais j'entends constamment parler de déchets sur le forum.

De quoi s'agit-il ? Si vous parlez de déchets, c'est que vous n'en avez pas eu, sinon il n'y a rien à quoi les comparer.

C'est un mouvement directionnel, un vecteur.

Mais le faire sortir des déchets est un défi.

Par exemple, j'essaierais de charger mon indicateur dans les neurones en tant que prédicteurs et j'essaierais d'identifier les signes des déchets et du collecteur de déchets.

 
СанСаныч Фоменко #:

Permettez-moi de clarifier mon propos.

Tout algorithme de MO tente de réduire l'erreur. La réduction de l'erreur est plus efficace sur les déchets, car les valeurs "pratiques" pour la réduction de l'erreur sont beaucoup plus courantes dans les déchets. Par conséquent, il est certain que l'"importance" des prédicteurs pour les déchets sera plus élevée que pour les NON-déchets. C'est la raison pour laquelle il existe un prétraitement, qui demande beaucoup plus de travail que l'ajustement du modèle proprement dit.

Dans l'exemple artificiel que nous examinons (il ne s'agit pas de données de marché),
, la puce de l'axe U n'est pas nulle et est très efficace pour définir les classes. La fiche de l'axe des X est mauvaise car les deux classes sont mélangées de manière à peu près égale.

L'arbre divisera facilement les données en 1 et 2 exemples de l'image par une seule division sur Y=0,5 avec une pureté absolue des classes, c'est-à-dire une probabilité de classe =100%. En testant la division sur l'axe X, la pureté sera d'environ 50 %, l'algorithme sélectionnera la division la plus propre, sur Y. En d'autres termes, votre affirmation selon laquelle une mauvaise division sur X sera sélectionnée est incorrecte dans ces exemples.

Le troisième exemple est plus compliqué. La feuille avec U<0,2 sera sélectionnée par l'algorithme, puisque la pureté de la classe = 100%, la feuille U>0,8 sera également sélectionnée.
La feuille de 0,2 à 0,8 a une pureté d'environ 50%, c'est-à-dire qu'elle est à peu près aussi nulle que n'importe quelle division sur l'axe X. Un découpage plus poussé n'a pas de sens, car la pureté de la classe est plus élevée que celle de la classe.
Un fractionnement plus poussé n'a pas de sens, car vous n'utiliserez pas les feuilles dont la probabilité de classe est de 50 %.
Si l'on fait quelque chose de stupide et que l'on divise cette partie nulle en un seul exemple dans une feuille, on utilisera les divisions sur Y et X. Si l'on a un seul exemple dans une feuille, alors sa pureté est bien sûr de 100 %. Mais il ne s'agit pas de feuilles représentatives. Seuls les débutants feront cela.

Les 3 premières feuilles suffisent, ou vous pouvez arrêter de diviser les feuilles au moins par 1-5-10% du nombre total d'exemples dans la feuille. Dans cet exemple, on utilise des feuilles dont la pureté est par exemple >90%, et ce seront les 2 premières feuilles : U<0,2 et U>0,8. Le reste des feuilles sera de 50% +-10% en raison d'un mélange inégal.


 
Renat Akhtyamov #:

... J'essaierais de charger mon indicateur de neurones en tant que prédicteurs et d'essayer d'identifier les signes de déchets et de charognards.

Qu'est-ce qui vous empêche d'essayer ?

 
Andrey Dik #:

Personne ne sait ce qui est déchet et ce qui ne l'est pas, il s'agit d'hypothèses.

Si nous savions exactement ce qui est quoi, il n'y aurait pas un fil de discussion de 3 000 pages)).

On fait simplement l'hypothèse que dépasser telle ou telle limite est "déchet", ces limites sont également hypothétiques. C'est pourquoi l'expression "rubbish in - rubbish out" n'est rien d'autre qu'une belle phrase, ce qui est rubbish pour un chercheur n'est pas rubbish pour un autre chercheur. C'est comme les vagues d'Eliot.

Il n'est pas nécessaire de signer pour tout le monde.

Il est fort probable que vous ne sachiez pas quels sont les exemples "inutiles" et ceux qui ne le sont pas. Pour vous, il s'agit d'un concept hypothétique. Si vous saviez ce qu'il en est, vous ne seriez pas assis dans ce fil de discussion et n'écririez pas des généralisations à l'emporte-pièce pour tout le monde.

Quand allez-vous apprendre les bases du ministère de la défense ? C'est une question rhétorique.

 
Vladimir Perervenko #:

Il n'est pas nécessaire de signer pour tout le monde.

Il est fort probable que vous ne sachiez pas quels sont les exemples "inutiles" et ceux qui ne le sont pas. Pour vous, il s'agit d'un concept hypothétique. Si vous saviez ce qu'il en est, vous ne seriez pas assis dans ce fil de discussion et n'écririez pas de profondes généralisations pour tout le monde.

Quand allez-vous apprendre les bases du ministère de la défense ? C'est une question rhétorique.


Votre message ne montre pas que vous savez ce qui est stupide et ce qui ne l'est pas.
D'ailleurs, c'est ce qui est amusant, si vous savez ce qui n'est pas de la foutaise, alors il n'y a pas besoin de MO.

C'est le but et l'objectif de l'OI - séparer les mouches des côtelettes.

Si vous savez, que faites-vous ici ?

 

En physique, les signaux qui affectent le signal dont nous avons besoin sont généralement considérés comme des déchets. Tout signal, toute action est causée par quelque chose, qui est appelé déchet parce qu'il n'est pas nécessaire et ne donne pas une évaluation correcte du signal dont le chercheur a besoin. Ainsi, dans la nature, il n'y a pas de déchets))))))))))

Ici, lorsque l'on recherche des modèles de prix, d'inefficacité ou autre, le signal à évaluer est l'impact de certains événements réels ou de leur totalité sur le prix. Toutes les autres influences ne sont que du vent.

Sans prétendre à la véracité du jugement bien sûr))))

 
Valeriy Yastremskiy #:

En physique, les signaux qui affectent le signal dont nous avons besoin sont généralement considérés comme des déchets. Tout signal, toute action est causée par quelque chose, qui est appelé déchet parce qu'il n'est pas nécessaire et ne donne pas une évaluation correcte du signal dont le chercheur a besoin. Ainsi, dans la nature, il n'y a pas de déchets))))))

Ici, lorsque l'on recherche des modèles de prix, d'inefficacité ou autre, le signal à évaluer est l'impact de certains événements réels ou de leur totalité sur le prix. Mais toutes les autres influences seront des déchets.

Ne pas prétendre à la véracité du jugement bien sûr))))

Si nous nous plongeons dans la théorie DSP, voici ce qu'il en est :

un signal utile sans déchets est initialement connu (par exemple, une ligne de tendance ou une courbe quelconque)

puis, au prochain tick, le signal utile est soustrait de la masse totale des signaux, et les signaux inutiles, c'est-à-dire les déchets, sont identifiés.

 
Le littering des caractéristiques est évalué par rapport à des caractéristiques cibles spécifiques et vice versa. S'il n'y a pas de relation de cause à effet, l'ensemble de données est un déchet dans sa totalité ou l'un de ses composants. Souvent, il ne s'agit pas de caractéristiques, mais d'un balisage incorrect.

En effet, même les déchets peuvent être divisés d'une manière utile. Par exemple, trier par type ou par taille.
 
Ivan Butko #:

Pouvez-vous m'expliquer ce qui n'est pas de l'ordure ? Je n'ai jamais vu personne parler de données d'entrée propres. Mais j'entends constamment parler de déchets sur le forum.

De quoi s'agit-il ? Si vous parlez de déchets, c'est que vous n'en avez pas eu, sinon il n'y a rien à quoi les comparer.

PAS de déchets est un prédicteur lié à un enseignant ou influencé par lui. Voici un ensemble d'algorithmes permettant de distinguer les déchets des NON déchets. D'ailleurs, c'est loin d'être le seul dans R.

Par exemple, mashka pour l'augmentation du prix de l'enseignant est nul, tout comme les algorithmes de lissage.

proxy: Distance and Similarity Measures
proxy: Distance and Similarity Measures
  • cran.r-project.org
Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
 
mytarmailS #:
Le prétraitement a pour but de normaliser les données, et non de les rendre inutiles.
Les déchets sont la sélection des caractéristiques et en partie l'ingénierie des caractéristiques

Sanych, arrêtez d'alimenter en déchets des personnes immatures.

Si vous voulez parler de la sélection des caractéristiques dans le cadre des modèles, je ne suis pas du tout d'accord, car la sélection des caractéristiques dans le cadre des modèles permet de classer n'importe quel déchet.