L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2757

 
Aleksey Nikolayev #:

La première idée pour surcharger est d'écrire une autre fonction avec le même nom mais avec des arguments différents. Je n'ai jamais fait cela en Rcpp, donc je ne sais pas si cela fonctionnera. Je vais probablement devoir faire le code C dans un fichier séparé et utiliser sourceCpp() au lieu de cppFunction().

Merci de votre compréhension.

 
Maxim Dmitrievsky #:
C'est exact. En l'absence d'hypothèses a priori, c'est le deuxième type qui est utilisé.
Aleksey Nikolayev #:

Selon moi, il existe deux types de connexion.

Le premier est le lien de causalité, qui est déterminé par des informations a priori sur l'objet de la recherche à partir des connaissances dans le domaine concerné, plutôt que par des calculs.

Le second type est la dépendance probabiliste, qui peut être calculée a posteriori à partir de certaines données obtenues en observant le comportement de l'objet. Le deuxième type comprend la corrélation, la dépendance déterministe (comme cas extrême) et ainsi de suite, y compris celle décrite par les copules et d'autres méthodes. L'étude de ce type de dépendance repose sur l'hypothèse qu'il existe une distribution conjointe pour les prédicteurs et la cible.

En l'absence d'expériences , c'est le deuxième type qui est utilisé (par ex. US Food & Drugs Association - ne testera pas un échantillon normal représentatif pour ses conclusions, et s'appuie donc sur des approches bayésiennes)... et sans information a priori, il n'y a rien à modéliser du tout.

 
JeeyCi #:

En l'absence d'expériences , c'est le deuxième type qui est utilisé (par ex. US Food & Drugs Association - ne testera pas un échantillon représentatif normal pour ses conclusions, et s'appuie donc sur des approches bayésiennes)... et sans information a priori, il n'y a rien à modéliser du tout.

Avez-vous regardé la librairie elle-même ? Y a-t-il quelque chose avec quoi jouer ? J'y jetterai un coup d'œil quand j'aurai fini.

Il y a beaucoup de librairies de ce type, elles sont donc très demandées.
 

Quelqu'un a-t-il participé au concours Numerai ? Que faut-il faire pour y gagner de l'argent ?

Faut-il investir son propre argent ? Je ne comprends pas leur modèle de rémunération.

 
Evgeni Gavrilovi #:

Quelqu'un a-t-il participé au concours Numerai ? Que faut-il faire pour y gagner de l'argent ?

Faut-il investir son propre argent ? Je ne comprends pas leur modèle de rémunération.

Peut-être que ceci vous aidera.
 

Je n'ai pas consulté la bibliothèque, mais l'article est dégoûtant - il contredit le bon sens des statuts ....

en anglais standard sources - le sens de l'analyse des séries temporelles est réduit au changement de politique au moment du traitement/de l'intervention et à l'analyse du changement de pente de la tendance globale (qui, je suppose, peut être interprétée comme un acteur - subissant l'influence de la politique et modifiant son processus de prise de décision au moment du traitement - ce qui est l'objectif de la recherche en marketing lorsqu'elle évalue l'effet des réductions, des ventes, etc. des promotions afin de déterminer si le prix ne convient pas aux clients, ou le produit en principe, ou l'emplacement du centre commercial, etc.)....д.)...

mais le même problème que toujours dans la modélisation - pour évaluer le post-traitement, bien sûr, vous avez besoin d'un échantillon ( !) pour approximer les conclusions "aidé-non aidé-indifférent" (en termes d'intervention)...

et en termes de contrefactuel - il est important de poser la bonne question pour évaluer la dynamique des changements causés par un changement de politique (ou une intervention) - pour choisir la métrique, la cible et les paramètres (pour le réglage) - parce que des questions différentes peuvent donner des résultats différents (et des changements de pente différents) - donc des conclusions différentes.

Le problème du déséquilibre dans les données réelles de ML (qui biaise les estimations) me laisse perplexe - est-ce que quelqu'un ici le résout avec le sur-échantillonnage ou le sous-échantillonnage ? -- Je ne vois pas l'intérêt de déformer les données réelles d'une telle manière....

mais il est nécessaire d'obtenir un échantillon représentatif au stade du prétraitement (distribution de probabilité a priori), et la distribution a posteriori est obtenue au stade du post-traitement (par exemple, changement de politique)... c'est là qu'il est important de décider de sa règle d'arrêt - c'est-à-dire s'il faut augmenter l'échantillon pour affiner les résultats ou se contenter de la limite d'échantillon choisie pour tirer une conclusion, qui sera probablement moins statistiquement significative que si l'on augmente l'échantillon.... mais il n'est pas certain que l'augmentation de l'échantillon augmente la signification statistique de la moyenne ou de la variance.

= il s'agit d'un problème de taille... généralement, si l'effet de l'intervention est important, il peut être observé dans un petit échantillon....

le problème des facteurs (FS) demeure également - en augmentant le nombre de facteurs pris en compte, nous réduisons le biais des estimations, mais nous augmentons la variance ... tâche : trouver des facteurs significatifs (comme d'habitude dans l'analyse exploratoire des données - c'est pourquoi on l'appelleData_Science, et non une approximation stupide du hasard par un programmeur) pour obtenir des estimations non biaisées avec une faible variance (l'équilibre entre ces deux objectifs est laissé à la discrétion du développeur).

Vladimir a déjà beaucoup parlé du problème de la sélection des facteurs - si nous modélisons des probabilités pour sélectionner une transaction à forte probabilité.

P.S..

la vitesse et l'accélération (le cas échéant) sont toujours importantes dans l'analyse des séries temporelles, leur comparaison sur la période pré-traitement et post-traitement permet de tirer des conclusions (sur le changement de direction notamment)...

la divergence/convergence et les extrema des cibles correctement sélectionnées restent également valables... tout est comme d'habitude - c'est une question de conception/architecture du réseau neuronal... et seules les tendances et les probabilités de leur développement sont prédites - rien de plus... et sur le marché des day traders, tout change plus rapidement que dans une tendance à long terme (si elle est analysée par D1) - le facteur temps doit donc également être pris en compte dans le modèle du robot pour le day trading.... en général, formalisez votre style de trading, de sorte que vous n'ayez pas à rester assis devant l'écran tout le temps. et, si vous le souhaitez, cherchez des raisons statistiques pour les entrées et les sorties ou pour rester en dehors du marché (même pour des raisons de gestion des risques - lorsque le marché n'est pas clair).

p.p.s

le sujet peut être développé à l'infini en termes d'étude des modèles de causalité structurelle (ce qui dépend de quoi, comme je l'ai noté précédemment) - y compris la prise en compte des facteurs exogènes (influence de l'extérieur) et endogènes (par exemple, les matières premières ou les devises financières, et même le changement de parti au pouvoir, je suppose)..... en général, comme d'habitude, vous pouvez examiner les données pour n'importe quelle hypothèse et étudier l'acceptation ou le rejet de l'hypothèse nulle pour un niveau de signification particulier (en augmentant la taille de l'échantillon pour son [niveau de signification] amélioration possible).

p.p.p.s

bien que certaines personnes n'aiment pas le terme de distribution probabiliste - mais l'essence de ce terme ne change pas - les distributions sont toujours probabilistes, même si elles sont conditionnelles (la condition donne une raison pour la classification) ... et Avant_traitement et Après_traitement (dans un test A/B) peuvent être considérés comme un changement de conditions (politique), mais il est possible d'estimer la régression ou de comparer la variance (pour savoir si elle a changé), même si la pente est la même.

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
  • www.mql5.com
Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.
 
J'ai l'impression que tout cela est très loin de la négociation
 
c'est pourquoi je dis que vous devriez d'abord décider de l'algorithme (y compris les déséquilibres - je ne sais pas ce que vous vouliez en faire ? ??)... et ensuite chercher une bibliothèque qui vous permette de charger le code avec les entités/classes nécessaires... - (je ne sais pas ce que vous vouliez faire avec eux ? ??)... et ensuite chercher une librairie qui vous permette d'ajouter les entités/classes nécessaires au code... ou coder votre propre librairie avec les classes nécessaires... ou de coder votre propre bibliothèque avec les classes dont vous avez besoin.
 
JeeyCi #:
c'est pourquoi je dis que vous devriez d'abord décider de l'algorithme (y compris les déséquilibres - je ne sais pas ce que vous vouliez en faire ? ??)... et ensuite chercher une bibliothèque qui vous permette de charger le code avec les entités/classes nécessaires... - (je ne sais pas ce que vous vouliez faire avec eux ? ??)... et ensuite chercher une librairie qui vous permette d'ajouter les entités/classes nécessaires au code... ou coder votre propre librairie avec les classes nécessaires... ou de coder votre propre bibliothèque avec les classes dont vous avez besoin.
Le rééchantillonnage est effectué pour supprimer les valeurs aberrantes et gaussianiser l'échantillon.

Je suggérais généralement un échantillonnage significatif par entropie ou corrélation. Pour rendre les puces plus informatives. En outre, on prend les incréments et on leur ajoute un maximum d'informations à partir de la série originale par toutes sortes de transformations. Plus une fenêtre de bégaiement non fixe. C'est une approche novatrice et personne ne l'a encore fait. Mais j'ai attrapé une saloperie de coronavirus et je me repose ☺️

Les infernaux occasionnels auraient dû aider à choisir des fiches informatives comme option, mais il s'est avéré qu'il ne s'agissait pas de cela ici
 
JeeyCi #:
c'est pourquoi je dis que vous devriez d'abord décider de l'algorithme (y compris les déséquilibres - je ne sais pas ce que vous vouliez en faire ? ??)... et ensuite chercher une bibliothèque qui vous permette de charger le code avec les entités/classes nécessaires... - (je ne sais pas ce que vous vouliez faire avec eux ? ??)... et ensuite chercher une librairie qui vous permette d'ajouter les entités/classes nécessaires au code... ou coder votre propre librairie avec les classes nécessaires... ou de coder votre propre bibliothèque avec les classes dont vous avez besoin.

Tout ce dont vous avez besoin a été codé avant vous.

Le shell caret de R contient jusqu'à 200( !) modèles, dans votre terminologie (bibliothèques) + tout le pipelining nécessaire pour l'exploration de données et la sélection de modèles.

Le problème réside dans la sélection des prédicteurs et leur sélection, il n'y a pas de problèmes dans les modèles depuis longtemps.