L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 555

 
Maxim Dmitrievsky:

donc je ne sais pas quoi croire dans cette vie... tout doit être revérifié.


Les benchmarks sont le salut))))

Diverses conversions et coupes. Celle du haut est la donnée brute.

train = échantillonnage rms avec sql léger. test = OOS. time = temps rms en sec.


 
En ce qui concerne les émissions dans les ensembles de données, le marché pourrait utiliser cette méthode.
 

Je m'interroge parfois sur ce forum. Tout est calme et ennuyeux. Et soudain, des gens comme Vladimir ou Vizard_ ou le plus suspect des podotr apparaissent et commencent à montrer des cours de maître. Qui sont-ils ? Tout le monde, s'il vous plaît, montrez vos passeports et vos diplômes d'éducation ! :))))

 
SanSanych Fomenko:

Seuls les prédicteurs qui ont une RELATION avec la variable cible doivent être utilisés. Le fait que "linéairement" ou "non linéairement" n'a rien à voir avec la formulation très précise "avoir une relation".

ce point et tout le reste du texte sont clairs, mais qu'est-ce que la corrélation de l'attribut avec la cible dans un modèle intrinsèquement non linéaire a à voir avec cela ?

J'ai écrit pourquoi il est nécessaire dans le modèle de régression, mais pas dans la classification, parce que ce n'est pas la cible mais les classes... approfondissez ce que j'écris :)

 
Maxim Dmitrievsky:

ce point et tout le reste du texte sont clairs, mais qu'est-ce que la corrélation de l'attribut avec la cible dans un modèle intrinsèquement non linéaire a à voir avec cela ?

et j'ai écrit pourquoi il est nécessaire dans le modèle de régression, mais pas dans la classification, parce que ce n'est pas la cible mais les classes... lisez plus profondément ce que j'écris :)


Je n'ai pas besoin de lire plus profondément - je vous comprends parfaitement, mais vous ne me comprenez pas du tout.

J'écris sur le surentraînement (overfitting) - c'est le principal ennemi de tous les modèles de classification. Le comportement des modèles surajoutés n'est PAS déterminé dans le futur.

Pour combattre ce mal absolu, je vois deux outils :

1. se débarrasser de l'ensemble des prédicteurs d'entrée du bruit

2. des tests minutieux.

Tout ceci, je l'écris sur la base de mes propres calculs, je vous assure d'un très grand volume, ce que je fais depuis plus d'un an.

Je suis trop paresseux pour chercher et ensuite former un psot lisible, car je n'ai pas l'intention de convaincre qui que ce soit de quoi que ce soit.


PS.

Vous ne cessez d'insister sur l'innocuité et même l'utilité des prédicteurs de bruit - vous n'êtes pas le premier, ces personnes sont légion, on les appelle les astrologues.

 
SanSanych Fomenko:

Vous continuez à insister sur le fait que les prédicteurs de bruit sont inoffensifs et même utiles - vous n'êtes pas le premier, il y a plein de gens comme ça, on les appelle des astrologues.


Où ai-je écrit une telle chose ?

 
Maxim Dmitrievsky:

Où ai-je écrit ça ?

Relisez votre message.

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она (корреляция) нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы



Il s'avère que j'ai spéculé et je pense que notre désaccord est basé sur ce qui suit :

Vous êtes contre la corrélation et je n'ai jamais parlé de corrélation entre le prédicteur et la variable cible.

Ça s'appelle parler.

J'ai toujours écrit : le prédicteur doit être lié à la variable cible. Je n'ai jamais parlé de corrélation, de régression linéaire ou non linéaire au sens du mot"relation". De plus, tous les algorithmes d'"importance" des prédicteurs que donnent les algorithmes de classification ne me satisfont pas non plus.


Regardez mon exemple : cible : sexe avec les classes homme/femme et prédicteur : vêtements avec la valeur de jupes/pantalons.

 
SanSanych Fomenko:

Relisez votre message.



Il s'avère que j'ai spéculé et je pense que notre désaccord est basé sur ce qui suit :

Vous êtes contre la corrélation et je n'ai jamais parlé de corrélation entre le prédicteur et la variable cible.

Ça s'appelle parler.

J'ai toujours écrit : le prédicteur doit être lié à la variable cible. Je n'ai jamais parlé de corrélation, de régression linéaire ou non linéaire au sens du mot"relation". De plus, tous les algorithmes d'"importance" des prédicteurs que donnent les algorithmes de classification ne me satisfont pas non plus.


Regardez mon exemple : cible : sexe avec les classes homme/femme, et prédicteur : vêtements avec la valeur de jupes/pantalons.


oui, c'est juste que parfois il est écrit que les traits avec la cible doivent être exactement corrélés, c'est à dire qu'il doit y avoir une dépendance linéaire.

et j'ai écrit que pour les modèles de régression, il peut être raisonnable qu'au moins un trait soit linéairement lié à la cible.

à propos de la "relation", je suis bien sûr d'accord :)

 
Vizard_:

Le salut par l'évaluation comparative)))

Diverses conversions et coupes. Le premier est constitué de données brutes.

train = r.sampling with light sq. test = OOS. time = r.time in sec.



même un bon résultat sur un avant n'est pas toujours un précurseur de la production ultérieure d'un bénéfice sur la carte :)

La validation croisée a déjà été mentionnée plus haut. Je pense que c'est la meilleure façon de procéder.

 
Sur-apprentissage - Se produit en présence de poids importants (~10^18), une conséquence de la multicollinéarité, conduisant à un modèle A(x, w) instable.


Le sur-apprentissage est traité par : l'arrêt précoce de l'apprentissage du modèle, la restriction de la croissance des poids (régularisation L1(Lasso) et L2), la restriction des connexions dans le réseau (Dropout), également l'application possible de fonctions de pénalité (ElacticNet, Lasso).

Et la régularisation L1 conduit à la sélection des caractéristiques, car elle se concentre sur leurs coefficients de poids.

L'élimination des caractéristiques "bruyantes" correspond à la sélection des caractéristiques. Il existe des méthodes pour cela. Cela ne profite pas toujours au modèle, c'est pourquoi on utilise parfois la régularisation L2 (qui aide à résoudre le problème de la multicollinéarité).


SanSanych Fomenko, votre déclaration sur la relation entre les caractéristiques et les cibles est un peu présomptueuse. Car comment affirmer quelque chose qui n'a pas encore été prouvé ; c'est pour cela que le modèle MO est construit. Un modèle construit et fonctionnel permet d'estimer qu'il existe une relation avec une précision "d'un tel et d'un tel".

Et l'exemple des pantalons et des jupes montre le manque de connaissances du chercheur sur la zone étudiée, car dans un tel modèle, vous éliminez des caractéristiques précieuses sur le lieu, la période de l'année, la latitude et la longitude de la région de résidence, etc.


Avant de construire un modèle, vous devez comprendre la zone étudiée, car le diable, comme le génie, se cache dans les détails.


PS. Avoir des arguments est une bonne chose. Ils permettent de polir les points de vue, vous apprennent à fournir de bons arguments aux thèses, et conduisent à une vérité commune.