L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 448

 
mytarmailS:
quelle est la fonction cible de votre classificateur ?
Il n'y a pas de fonction cible, il fonctionne selon le principe que plus les prédicteurs de la population sont éloignés de la moyenne, plus ils devraient converger rapidement vers cette moyenne, c'est-à-dire qu'il fonctionne selon le principe du classificateur bayésien, il trouve les poids qui, dans la population, donneraient la plus grande déviation de la moyenne dans chaque cas, et à la fin ils devraient converger vers la moyenne. Puisque nous prenons les prédicteurs comme stationnaires, il est clair que la moyenne est 0. Si la sortie est >0, nous vendons ; si <, nous achetons.
 
Maxim Dmitrievsky:

J'en suis venu à la conclusion que MLP est un monstre laid, laid et retardé et peu prometteur pour le commerce, en particulier parce qu'il copie le mécanisme de fonctionnement des vrais neurones de façon très primitive et non pas de la façon dont cela se passe réellement dans le cerveau :). La seule NS normale et perspective est la convolution ns pour la reconnaissance des formes, alors qu'ils ne sont pas capables de prédire, et si tel est le cas un ensemble de classificateurs simples et rapides est suffisant.

Le classificateur bayésien est meilleur, mais moins bon que le RF.

Il est intéressant de noter que je suis arrivé à la conclusion exactement inverse concernant les "béhémoths moches").

La RF nécessite la sélection de prédicteurs, ce qui est une tâche non triviale étant donné l'exigence qu'ils soient au moins linéairement indépendants. MLP Je modifie simplement les séries temporelles, et l'exigence d'indépendance linéaire est résolue par un comité de plusieurs NS dont les entrées sont des séries temporelles déchargées (analogue à plusieurs TF). Les délais de NS, pour le commerce réel, je suppose, sont insignifiants.

Je ne sais pas encore ce qu'il adviendra du TS réel, mais le NS semble pouvoir être formé. Voir un extrait de la sortie graphique de la NS formée. Je ne peux pas encore dire avec certitude s'il est bien formé). Mais elle est entraînable)).


 
Yuriy Asaulenko:

Il est intéressant de noter que je suis arrivé à la conclusion exactement inverse concernant les "béhémoths moches").

La RF nécessite la sélection de prédicteurs, ce qui est une tâche non triviale étant donné l'exigence de leur indépendance au moins linéaire. MLP Je modifie simplement les séries temporelles, et l'exigence d'indépendance linéaire est résolue par un comité de plusieurs NS dont les entrées sont des séries temporelles déchargées (analogue à plusieurs TF). Les délais de NS, pour le commerce réel, je suppose, sont insignifiants.

Je ne sais pas encore ce qu'il adviendra du TS réel, mais le NS semble pouvoir être formé. Voir un extrait de la sortie graphique de la NS formée.


Il suffit de jeter des prédicteurs sous forme d'oscillateurs sur le graphique et vous verrez s'ils sont linéairement dépendants ou non). Aucun numéro n'est nécessaire. Le SN peut se recycler, il ne peut pas créer de super corrélations non linéaires si elles n'existent pas dès le départ ou si elles sont incohérentes.

Ou bien il faut utiliser une machine nucléaire avant le NS, comme dans Jpredictor qui augmente la dimension des entrées par des polynômes et ensuite laisse les plus informatives par SVM et d'autres conneries, mais d'un autre côté, à cause de ces polynômes, il peut se surentraîner comme un fou.

 
Maxim Dmitrievsky:

Pourquoi, il suffit de jeter les prédicteurs comme des oscillateurs sur un graphique et vous pouvez voir s'ils sont linéairement ou non linéairement dépendants). Aucun numéro n'est nécessaire. La NS peut également se recycler, elle ne peut pas inventer de super corrélations non linéaires à partir de rien, si elles n'existent pas dès le départ ou si elles sont incohérentes.

Tout n'est pas aussi simple qu'il y paraît. Il me semble que SanSanych tripote les prédicteurs depuis un an déjà, passant d'une forêt à une autre (d'un paquet à un autre).

Maxim Dmitrievsky:

Ou peut-être qu'il est nécessaire d'utiliser un noyau avant le NS, comme dans Jpredictor qui augmente la dimensionnalité des entrées en utilisant des polynômes et ensuite laisse les plus informatives par SVM et d'autres conneries.

L'indépendance linéaire et la non-linéarité n'ont rien à voir l'une avec l'autre. Ce sont des concepts différents.Indépendance linéaire
Линейная независимость — Википедия
Линейная независимость — Википедия
  • ru.wikipedia.org
имеет только одно — тривиальное — решение. − 5 ⋅ ( 1 , 0 , 0 ) + 1 ⋅ ( 5 , 0 , 0 ) = ( 0 , 0 , 0 ) . {\displaystyle -5\cdot (1,0,0)+1\cdot (5,0,0)=(0,0,0).} Пусть будет линейное пространство над полем и . называется линейно независимым множеством, если любое его конечное подмножество является линейно независимым. Конечное множество M ′...
 
Maxim Dmitrievsky:

Pourquoi, il suffit de jeter des prédicteurs sous forme d'oscillateurs sur le graphique et là, vous pouvez voir s'ils sont linéairement dépendants ou non linéaires)

PS Au fait, les MLP, contrairement aux P. monocouches, sont par nature non linéaires, et tout à fait capables de généraliser des signes non linéaires.
 
Yuriy Asaulenko:
PS Au fait, les MLP, contrairement aux P à simple couche, sont par nature non linéaires et tout à fait capables de généraliser des caractéristiques non linéaires.

Ils peuvent, RF peut aussi, mais ils ne sont pas moins sur-appris.
 
Maxim Dmitrievsky:
Il n'y a pas de cible, il fonctionne sur le principe que plus les prédicteurs sont éloignés de la moyenne dans l'agrégat, plus ils devraient converger rapidement vers cette moyenne, c'est-à-dire qu'il fonctionne sur le principe du classificateur bayésien, trouve les poids qui, dans l'agrégat des prédicteurs, donneraient la plus grande déviation de la moyenne dans chaque cas, et par conséquent ils devraient converger en arrière. Puisque nous prenons les prédicteurs sous la forme stationnaire, il est clair que la moyenne est 0. Si la sortie est >0, nous vendons ; si <, nous achetons.
Je ne comprends pas bien si l'entraînement se fait avec ou sans formateur ? Si oui, quel est le signal d'achat pour le classificateur ?
 
mytarmailS:
pas tout à fait clair, formation avec un professeur ou sans ? si avec un professeur, quel est le signal d'achat pour le classificateur ?
Sans un professeur dans l'optimiseur les poids sont ramassés, article déjà discuté et exemple, regardez dans le sujet RNN Reshetov
 
Maxim Dmitrievsky:
En général, NS n'a pas d'avantages par rapport à RF, il faut beaucoup de temps pour le lire, les erreurs sont plus nombreuses... si vous voulez une formation rapide, il faut absolument utiliser RF+optimizer.

A propos de la vitesse de la NS.

J'ai fait une expérience de vitesse spécialement dans ce but. Pour cela, j'ai pris un MLP avec une structure de couches [15,15,15,8,2]. La taille de l'échantillon d'apprentissage est la suivante : entrée - 15 x 10378, sortie - 2 x 10378.

L'entraînement du MLP sur ces données de 10 époques dure environ 10 minutes.

En travaillant directement avec les données - l'entrée 15 x 10378 est calculée en moins de 3 secondes. C'est-à-dire ~0,0003 c/échantillon.

Plus qu'assez pour la construction de TC).

 
Yuriy Asaulenko:

A propos de la vitesse de la NS.

Spécialement pour cela, j'ai fait une expérience sur la vitesse. Pour cela, j'ai pris un MLP avec une structure de couches [15,15.15,8,2]. La taille de l'échantillon d'apprentissage est la suivante : entrée - 15 x 10378, sortie - 2 x 10378.

L'entraînement du MLP sur ces données de 10 époques dure environ 10 minutes.

En travaillant directement avec les données - l'entrée 15 x 10378 est calculée en moins de 3 secondes. C'est-à-dire ~0,0003 c/échantillon.

Plus qu'assez de temps pour construire un TS).

Quelque chose de trop rapide, tel devrait être formé mb une heure ou plusieurs heures, par quel algorithme L-BFGS ? J'ai aussi fait 15 entrées mais une seule couche cachée de 15-20 neurones, j'ai entraîné un TS Alglibien... donc je n'ai pas attendu et réduit la taille des vecteurs d'entrée) J'ai entraîné 3 entrées avec 10k vecteurs en 5-10 minutes avec une couche cachée. Et ce n'est pas une rétro-propagation lente mais rapide avec 1-3 époques. CPU i5

Imaginez que même avec 10 minutes vous n'ayez pas de stratégie toute faite et que vous deviez chercher à travers N nombre de prédicteurs, longueurs de vecteurs, nombre de couches cachées, etc... dans votre optimiseur pour trouver une stratégie...