L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2739

 
mytarmailS #:
Alexei, c'est une tâche de recherche normale, comme vous le souhaitez, quel est le problème ?

Le script le fait-il ou non ?

Je me demande simplement combien de personnes ici perdent facilement le fil de la conversation.

 

Je peux poster un échantillon avec un grand nombre de prédicteurs, quiconque peut sélectionner les meilleurs - bien joué - organisons un concours.

Les meilleurs seront déterminés sur un échantillon indépendant, après avoir entraîné le modèle sur les prédicteurs sélectionnés.

Est-ce que quelqu'un veut participer, ou est-ce qu'ils sont tous si capables par le bouche à oreille ?

 

Sujet trop général. Il se désintègre souvent en ses composantes. Il y a longtemps qu'il aurait dû être divisé en plusieurs fils de discussion. Par exemple : 1. MO : prétraitement des données. 2. MO : sélection du modèle. 3. MO : entraînement et optimisation du modèle. 4. MO.Mise en œuvre des modèles. 5.MO. Automatisation des OI.

La division est très large et approximative, mais il sera clair de quoi il s'agit. Et donc de tout et de rien.

Et bien sûr, ilest nécessaire de donner des exemples de code reproductibles, sinon il n'y a pas d'utilisation pratique des conférences .

Bonne chance à tous

 
Aleksey Vyazmikin #:

Le script le fait-il ou non ?

Je m'étonne simplement de la facilité avec laquelle de nombreuses personnes perdent le fil de la conversation.

Alexey, vous m'avez demandé un exemple de la façon dont on peut examiner l'importance des signes avec une fenêtre coulissante.

J'ai écrit un script pour vous.

Ensuite, vous voulez chercher dans différentes échelles ou ce que vous voulez, pourquoi diable un script du passé serait-il capable de répondre à vos souhaits à l'avenir ?

Je suis donc surpris de voir combien de personnes ici perdent facilement le fil de la conversation. C'est vous.

 
Vladimir Perervenko #:

Sujet trop général. Il se désintègre souvent en ses composantes. Il y a longtemps qu'il aurait dû être divisé en plusieurs fils de discussion. Par exemple : 1. MO : prétraitement des données. 2. MO : sélection du modèle. 3. MO : entraînement et optimisation du modèle. 4. MO.Mise en œuvre des modèles. 5.MO. Automatisation des ME.

La division est très large et approximative, mais on verra clairement ce que la branche concerne. Et donc de tout et de rien.

Et bien sûr,il est nécessaire de donner des exemples de code reproductibles, sinon les exposés n'ont aucune utilité pratique.

Bonne chance à tous

Il faudrait plutôt diviser par les tâches que l'on résout, mais c'est trop individuel...

Par exemple, dans un fil de discussion sur le prétraitement, deux personnes ne trouveront pas de terrain d'entente si l'une prédit ZZ sur l'ensemble de l'échantillon et que l'autre utilise MO pour sélectionner 10-20 clusters à partir de toutes les données pour certains besoins..... Etc...

La même merde sera présente, mais elle sera plus étalée sur les sujets.
 
Valeriy Yastremskiy #:

SSF n'a pas dit grand-chose de nouveau, bien sûr, l'objectif de trouver une corrélation entre les prédicteurs et les résultats est un objectif évident. La seule nouveauté que j'ai relevée est qu'il a trouvé environ 200 caractéristiques significatives pour l'ensemble de la formation, mais que pour des données spécifiques, il n'utilise que 5 % d'entre elles.

J'en déduis qu'il existe des moyens de déterminer rapidement l'état/les propriétés d'une série afin de sélectionner des prédicteurs plus significatifs pour les données les plus récentes. La question du volume ou de la longueur se pose bien sûr pour une sélection appropriée. Mais apparemment, cela fonctionne même avec seulement 200 prédicteurs trouvés et sélectionnés dans l'ensemble de la formation.

Jevois les choses de la manière suivante. Une série a des propriétés qui sont stables dans certains indices, mais ces indices et leur nombre sont différents dans différentes sections. MO trouve différents états d'une durée suffisante de stabilité de la série, qui peuvent être décrits par différents modèles et par les paramètres de modèle correspondants - les prédicteurs. Le nombre total de prédicteurs est le nombre total de paramètres pour les différents modèles et, par conséquent, en définissant un modèle, on peut rapidement trouver des paramètres précédemment trouvés pour celui-ci.


J'ai déjà publié un tableau dans ce fil de discussion, mais comme je ne l'ai pas sous la main, je vais clarifier mon idée avec des mots.

Je m'appuie sur la notion de corrélation prédicteur-enseignant. Le "lien" n'est PAS la corrélation ou l'"importance" des prédicteurs dans l'ajustement de presque n'importe quel modèle de ME. Cette dernière reflète la fréquence d'utilisation d'un prédicteur dans un algorithme, de sorte qu'une grande valeur d'"importance" peut être accordée aux anneaux de Saturne ou au marc de café. Il existe des logiciels qui permettent de calculer le "lien" entre le prédicteur et l'enseignant, par exemple, sur la base de la théorie de l'information.

Un mot donc sur le tableau que j'ai affiché ici.

Le tableau contient une estimation numérique du "lien" entre chaque prédicteur et l'enseignant. Plusieurs centaines de valeurs de "connectivité" ont été obtenues au fur et à mesure que la fenêtre se déplaçait. Ces valeurs varient pour un prédicteur particulier. J'ai calculé la moyenne et l'écart-type pour chaque "connexion", ce qui m'a permis d'isoler les prédicteurs qui ont un "lien" avec l'enseignant :

- d'isoler les prédicteurs qui ont une valeur de "couplage" trop faible - bruit ;

- d'isoler les variables prédicteurs dont la valeur de "couplage" est trop variable. Il a été possible de trouver des prédicteurs ayant une valeur de "couplage" suffisamment grande et un écart-type inférieur à 10 %.


Une fois de plus, le problème de la construction d'un CT basé sur la MO est de trouver des prédicteurs qui ont une grande valeur de "couplage" et une petite valeur de sd lorsque la fenêtre se déplace. À mon avis, de tels prédicteurs garantiront la stabilité de l'erreur de prédiction à l'avenir.


Ce n'est pas la première fois que je dis cela. Malheureusement, la discussion tourne constamment autour du bruit et du narcissisme.

 
mytarmailS #:

Alexei, vous m'avez demandé un exemple de la manière d'examiner l'importance d'une caractéristique à l'aide d'une fenêtre coulissante.

J'ai écrit un script pour vous...

Ensuite, vous voulez faire des recherches à différentes échelles ou ce que vous voulez, pourquoi diable un script du passé serait-il capable de répondre à vos souhaits à l'avenir ?

Je suis donc surpris de voir combien de personnes ici perdent facilement le fil de la conversation. C'est vous.

En effet, j'ai demandé un script - oui, je cite " Pouvez-vous faire un script en R pour les calculs de mon échantillon - je l'exécuterai pour le bien de l'expérience. L'expérience devrait révéler la taille optimale de l'échantillon. "Mais il s'agit d'une réponse à quelque chose qui a déjà été fait.

Plus tôt, j'ai écrit "... Et comment proposez-vous d'observer la dynamique, comment la réaliser ? "Je posais ici la question de la mise en œuvre de l'estimation du prédicteur dans la dynamique, c'est-à-dire l'estimation régulière par une fenêtre quelconque, et il n'est pas clair s'il s'agit d'une fenêtre à chaque nouvel échantillon ou après chaque n échantillons. Si c'est ce que vous avez fait, je ne comprends pas.

Le code que vous avez posté est excellent, mais il m'est difficile de comprendre ce qu'il fait exactement ou ce qu'il prouve en substance, c'est pourquoi j'ai commencé à poser des questions supplémentaires. Que signifient les deux images avec les graphiques ?

 
СанСаныч Фоменко #:

J'ai déjà publié un tableau dans ce fil de discussion, mais je ne l'ai pas sous la main en ce moment, alors je vais clarifier ma pensée avec des mots.

Je m'appuie sur le concept de corrélation prédicteur-enseignant. Le "lien" n'est PAS la corrélation ou l'"importance" des prédicteurs dans l'ajustement de presque n'importe quel modèle MOE. Cette dernière reflète la fréquence d'utilisation d'un prédicteur dans un algorithme, de sorte qu'une grande valeur d'"importance" peut être accordée aux anneaux de Saturne ou au marc de café. Il existe des logiciels qui permettent de calculer le "lien" entre le prédicteur et l'enseignant, par exemple sur la base de la théorie de l'information.

Un mot donc sur le tableau que j'ai affiché ici.

Le tableau contient une estimation numérique du "lien" entre chaque prédicteur et l'enseignant. Plusieurs centaines de valeurs de "connectivité" ont été obtenues au fur et à mesure que la fenêtre se déplaçait. Ces valeurs varient pour un prédicteur particulier. J'ai calculé la moyenne et l'écart-type pour chaque "lien", ce qui a permis d'obtenir une estimation numérique du lien entre l'enseignant et le prédicteur :

- d'isoler les prédicteurs dont le "couplage" est trop faible - du bruit ;

- d'isoler les variables prédicteurs dont la valeur de "couplage" est trop variable. Il a été possible de trouver des prédicteurs ayant une valeur de "lien" suffisamment grande et un écart-type inférieur à 10 %.


Une fois de plus, le problème de la construction d'un CT basé sur la MO est de trouver des prédicteurs qui ont une grande valeur de "link" et une petite valeur de sd lorsque la fenêtre se déplace. À mon avis, de tels prédicteurs garantiront la stabilité de l'erreur de prédiction à l'avenir.


Ce n'est pas la première fois que je dis cela. Malheureusement, la discussion tourne constamment autour du bruit et du narcissisme.

Vous avez donc essentiellement la même approche que moi, c'est curieux ! Seulement, nous cherchons peut-être la "connexion" différemment. En tant que fenêtre, je prends 10 échantillons de parcelles et j'y cherche une "connexion", comment procédez-vous ?

Quel est votre algorithme pour trouver une connexion, pouvez-vous le décrire ?

 
СанСаныч Фоменко #:


Ce n'est pas la première fois que je dis cela. Malheureusement, la discussion dérive constamment vers le bruit et le narcissisme.

oui, la vraie discussion va à la présentation du dartagnan le plus dartagnan sur le fond (mot modéré) :-)

tout cela à cause de l'absence de résultats. On peut améliorer et changer la méthode, mais le résultat est comme un rocher 50/50.

 
Aleksey Vyazmikin #:

Vous avez donc essentiellement la même approche que moi, c'est curieux ! Seulement, nous ne cherchons peut-être pas la "connexion" de la même manière. En tant que fenêtres, je prends 10 échantillons de parcelles et j'y cherche des "connexions", comment procédez-vous ?

Quel est votre algorithme pour trouver une connexion, pouvez-vous le décrire ?

J'utilise mon propre algorithme - il fonctionne beaucoup plus rapidement que de nombreuses bibliothèques R. Par exemple,

library("entropy")

Vous pouvez simplement utiliser des graphiques :



Tout a été posté sur ce fil de discussion. Tout est systématiquement décrit et décortiqué au niveau du code dans les articles de Vladimir Perervenko