Recherche dans les paquets matriciels - page 7

 
http://quantquant.com/viewtopic.php?f=7&t=1236
 
zaskok3:
http://quantquant.com/viewtopic.php?f=7&t=1236

A quoi sert ce lien ? Un bref commentaire serait utile.

Par exemple : un ensemble de liens vers des didacticiels R et Python.

Quant au contenu des liens : avez-vous tout récupéré sur la toile ? Ou y a-t-il des préférences ? Parmi les Python, pyBrain est le plus intéressant et le plus digne d'être étudié et appliqué. Il met en œuvre des réseaux qui ne sont pas présents dans les paquets R. Ce n'est pas une discussion, ni une critique, juste une remarque en passant.

Bonne chance

 
Vladimir Perervenko:

1. Oui.

2. Pourquoi ? J'ai besoin d'une seule MT4R.dll qui est la passerelle pour envoyer des données à R et recevoir les résultats en retour.

3. A toutes les bases de données existantes. De plus, Microsoft et Oracle ont tous deux intégré R dans leurs bases de données.

4. R met en œuvre diverses options d'interaction avec Matlab, du simple échange de fichiers Matlab à l'exécution de fonctions Matlab depuis R. Si vous avez de l'expérience et des compétences dans ce domaine, vous pouvez mettre en œuvre un excellent couplage Matlab-MTterminal avec R.

5. Dans R, les paquets pour toutes les directions d'une science et d'une technique et prenant en compte les dernières réalisations sont réalisés. Vous pouvez commencer par là.

6. Il y en a plus d'un. Le plus courant est le ff.

En général, je suis surpris. Vous êtes au milieu de nulle part. Consultez les articles 1 et 2 de ce site. Vous ne comprendrez pas grand-chose mais vous aurez une idée du fonctionnement de la langue.

Je suis en train de terminer le deuxième article sur l'apprentissage profond que j'espère vous envoyer demain pour révision. Les exemples seront joints aux experts... S'il y a un intérêt, je pense que j'écrirai plusieurs articles sur le niveau initial (filtrage, décomposition, prédiction etc.). Et bien sûr, continuez à creuser sur l'apprentissage profond, d'autant que Google a ouvert sa bibliothèque TensorFlow à tous. Et il en existe d'autres non moins intéressants et prometteurs (mxnet, pyBrain).

Si un groupe de passionnés se réunit, nous pouvons organiser une branche d'utilisateurs du langage R.

Bonne chance

De bons articles ! Merci. Je vais devoir y réfléchir. Mais je prévois d'essayer SVM, GBM, xGBoost au lieu de NS.
 
Alexey Burnakov:
De bons articles ! Merci. Je dois m'occuper d'y réfléchir. Mais je prévois d'essayer SVM, GBM, xGBoost au lieu de NS.
SVM, ada, randomforest. Tout cela après avoir fait de l'exercice avec ces paquets en hochet. Et après cela, les paquets de sélection des prédicteurs
 
Alexey Burnakov:
De bons articles ! Merci. Je vais devoir y réfléchir. Mais je prévois d'essayer SVM, GBM, xGBoost au lieu de NS.

Essayez-les tous.

Mon préféré est randomForest, avec diverses modifications (le principal avantage est qu'il ne nécessite pas de prétraitement des données d'entrée). Et aussi ada - score de qualité très élevé. Les deux ont deux inconvénients : une courbe d'apprentissage très longue et une forte propension au surentraînement.

Cela ne signifie pas que vous ne devez pas les utiliser, mais simplement que vous devez faire attention à ces nuisances.

Bonne chance

 
СанСаныч Фоменко:
SVM, ada, randomforest. Tout cela après l'exercice avec ces paquets en hochet. Et après les paquets pour la sélection des prédicteurs
Sam Sanych, j'ai déjà bien pratiqué ces paquets au travail aussi. ))) Seul xGBoost ne l'a pas encore touché.
 
Vladimir Perervenko:

Essayez-les tous.

Mon favori est randomForest avec diverses modifications (le principal avantage est qu'il ne nécessite pas de prétraitement des données d'entrée. Ada également - score de qualité très élevé. Ces deux méthodes présentent deux inconvénients : elles sont très longues à apprendre et sont très sujettes au sur-apprentissage.

Cela ne signifie pas que vous ne devez pas les utiliser, mais simplement que vous devez faire attention à ces nuisances.

Bonne chance

J'ai une question à vous poser sur l'article 1. Je vois sur le graphique d'émulation de trading que l'algorithme effectue des transactions sur chaque barre, n'est-ce pas ?

Et une dernière question. Lors de la formation, avez-vous également transmis les données de la machine pour chaque barre ?

Le point central qui différencie les problèmes de séries temporelles de la plupart des autres problèmes statistiques est que dans une série temporelle, les observations ne sont pas mutuellement indépendantes. Au contraire, un seul événement fortuit peut affecter tous les points de données ultérieurs. Cela rend l'analyse des séries chronologiques très différente de la plupart des autres domaines de la statistique.

En raison de cette non-indépendance, les véritables modèles sous-jacents aux données de séries chronologiques peuvent être extrêmement difficiles à voir par inspection visuelle. Quiconque a regardé un graphique typique des moyennes boursières dans un journal voit des tendances qui semblent durer des semaines ou des mois. Mais les statisticiens qui ont étudié le sujet s'accordent à dire que ces tendances se produisent essentiellement à la même fréquence que celle à laquelle on pourrait s'attendre par hasard, et qu'il n'y a pratiquement aucune corrélation entre l'évolution boursière d'un jour et celle du lendemain. Si cette corrélation existait, n'importe qui pourrait gagner de l'argent sur le marché boursier en pariant simplement que la tendance d'aujourd'hui se poursuivra demain, mais ce n'est tout simplement pas aussi facile. En fait, en cumulant presque toutes les séries de nombres aléatoires, on obtient un modèle qui ne semble pas aléatoire.

De: http://node101.psych.cornell.edu/Darlington/series/series1.htm

Le point, comme je suppose que vous le comprenez, est qu'une approche directe dans laquelle tous les points de la série temporelle sont impliqués dans la formation (et le test) crée des observations mutuellement dépendantes, ce qui d'un seul coup annule la validité des conclusions sur les "modèles" trouvés. En d'autres termes, les résultats ne sont pas fiables, même si tout le reste est fait correctement. La création d'un échantillon d'observations d'une série chronologique qui ne viole pas les hypothèses statistiques est donc archivistique. Très souvent, cette étape est tout simplement ignorée dans les sources populaires, et les conséquences sont des plus déplorables. La machine n'apprendra pas les motifs.

 
Alexey Burnakov:

J'ai une question à vous poser sur l'article 1. Je vois sur le graphique d'émulation de trading que l'algorithme effectue des transactions sur chaque barre, n'est-ce pas ?

Et une dernière question. Lors de la formation, avez-vous alimenté la machine avec les données de chaque barre également ?

De: http://node101.psych.cornell.edu/Darlington/series/series1.htm

Le point, comme je suppose que vous le comprenez, est qu'une approche directe dans laquelle tous les points de la série temporelle sont impliqués dans la formation (et le test) crée des observations mutuellement dépendantes, ce qui, d'un seul coup, porte atteinte à la validité des conclusions sur les "modèles" trouvés. En d'autres termes, les résultats ne sont pas fiables, même si tout le reste est fait correctement. La création d'un échantillon d'observations d'une série chronologique qui ne viole pas les hypothèses statistiques est donc archivistique. Très souvent, cette étape est tout simplement ignorée dans les sources populaires, et les conséquences sont des plus déplorables. La machine n'apprendra pas les motifs.

Après-midi.

que l'algorithme fait des affaires sur chaque bar ?

Non. L'algorithme effectue des transactions sur les signaux reçus sur la dernière barre formée. Peut-être que je ne comprends pas la question ?

Une dernière question. Avez-vous alimenté le conseiller expert avec les données de chaque barre pendant la formation ?

Je ne le comprends pas. Voulez-vous expliquer ? Je vais essayer d'y répondre.

Bonne chance

 
Alexey Burnakov:

J'ai une question à vous poser sur l'article 1. Je vois sur le graphique d'émulation de trading que l'algorithme effectue des transactions sur chaque barre, n'est-ce pas ?

Et une dernière question. Lors de la formation, avez-vous alimenté la machine avec les données de chaque barre également ?

De: http://node101.psych.cornell.edu/Darlington/series/series1.htm

Le point, comme je suppose que vous le comprenez, est qu'une approche directe dans laquelle tous les points de la série temporelle sont impliqués dans la formation (et le test) crée des observations mutuellement dépendantes, ce qui, d'un seul coup, porte atteinte à la validité des conclusions sur les "modèles" trouvés. En d'autres termes, les résultats ne sont pas fiables, même si tout le reste est fait correctement. La création d'un échantillon d'observations d'une série chronologique qui ne viole pas les hypothèses statistiques est donc archivistique. Très souvent, cette étape est tout simplement ignorée dans les sources populaires, et les conséquences sont des plus déplorables. La machine n'apprendra pas les motifs.

L'article auquel vous faites référence concerne la régression. Il s'agit d'une classification. Ce sont deux grandes différences...

Je ne comprends toujours pas votre question.

Bonne chance

 
Vladimir Perervenko:

L'article auquel vous faites référence concerne la régression. Il s'agit d'une classification. Ce sont deux grandes différences...

Je ne comprends toujours pas votre question.

Bonne chance

Une question en passant à tous ceux qui participent à la discussion. Travaillez-vous avec des données de type tick? Je me suis éloigné de l'analyse des barres il y a longtemps, je travaille uniquement sur des méthodes de DSP