L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 1308
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Les ISO ne sont pas publiées pour tout). Dans ce cas, vous pourriez être guidé par ce que les pactes du ministère de la Défense appellent la 2e section.
Dans le catbust que vous utilisez, même s'il est indiqué test, il est écrit dans l'explication qu'il est utilisé pour la validation. Dans d'autres paquets XGBoost, Darch - ils écrivent la validation.
Au départ, il y avait un ensemble de test et d'apprentissage, la méthode de validation croisée est apparue et un tel échantillon a été appelé échantillon de validation (il est en fait utilisé pour la formation croisée et le test). Il existe maintenant un boosting, qui a besoin d'un échantillon pour arrêter la formation - on l'appelle un échantillon de test, et c'est une validation en raison de son utilisation pour tester les résultats de la formation, mais il n'y a pas de formation sur lui, contrairement à la validation croisée.
Ce que je veux dire, c'est que l'échantillonnage peut être utilisé différemment selon les méthodes de formation. La validation est plus une action qu'un type d'échantillonnage...
L'ensemble de validation est impliqué dans la formation. Il est utilisé pour définir les paramètres du modèle pendant la formation. Certains paquets ne nécessitent pas d'ensemble de validation, dans ce cas l'ensemble d'apprentissage est divisé en train/valide dans une certaine proportion dans la fonction fit(). Mais il est préférable de le spécifier vous-même.
La suite de tests est utilisée pour vérifier la qualité du modèle formé et ces données ne devraient pas être vues par le modèle pendant la formation.
Il s'agit donc de choses différentes, mais il ne faut pas se tromper.
Bonne chance
Ok, ainsi soit-il. Je n'ai pas de statistiques sur les déclarations de cent personnes participant à la création de différentes méthodes de RI, il n'y a pas de désir de contestation, car initialement j'ai parlé de la façon dont il est pratique pour moi de diviser les concepts dans mon esprit, et si ce n'est pas pratique pour les autres, alors laissez-moi rester seul avec mes concepts.
OK, ainsi soit-il. Je n'ai aucune statistique sur les déclarations de centaines de personnes impliquées dans la création de différentes méthodes de MO, aucun désir d'argumenter, puisque j'ai parlé à l'origine du fait que je suis à l'aise pour diviser les concepts dans mon esprit, et si d'autres ne sont pas à l'aise avec cela, alors laissez-moi être seul avec mes concepts.
Oui, le sujet est déjà assez spammé, et maintenant chacun doit inventer sa propre terminologie :)
Bien que spécifiquement sur le nom des échantillons de données, je pense qu'il n'y a pas lieu de discuter car il existe toutes sortes de méthodes pour leur formation et leur utilisation, et l'essentiel, IMHO, reste un seul fait - que ces données aient participé (In-Sample) ou non (Out-Of-Sample), au processus d'apprentissage.
Parce que tous les échantillons IS sont utilisés d'une manière ou d'une autre pour ajuster le modèle, et OOS uniquement pour évaluer sa qualité.
Et pour être sans ambiguïté, je pense qu'il serait logique de présenter les résultats sous la forme habituelle du testeur, où tous les échantillons qui ont été utilisés dans la formation - IS à représenter comme un backtest, et OOS comme un forward.
Forum sur le trading, les systèmes de trading automatisés et les tests de stratégies de trading
Théories et pratiques de l'apprentissage automatique dans le domaine du commerce (trading et pas seulement)
Ivan Negreshniy, 2019.02.06 08:31
Si vous le vérifiez dans le testeur, c'est à peu près la même chose (100% sur SELL :)
Oui, le sujet est déjà assez encombré, et maintenant chacun doit inventer sa propre terminologie :)
Bien que spécifiquement sur le nom des échantillons de données, je pense qu'il n'y a pas lieu de polémiquer car il existe toutes sortes de méthodes pour leur formation et leur utilisation, et l'essentiel, IMHO, reste un seul fait - que ces données aient ou non participé (In-Sample), au processus d'apprentissage (Out-Of-Sample).
Parce que tous les échantillons IS sont utilisés d'une manière ou d'une autre pour ajuster le modèle, et OOS uniquement pour évaluer sa qualité.
Et pour une bonne compréhension, je pense qu'il serait logique de présenter les résultats sous une forme familière pour le testeur, où tous les échantillons qui ont été utilisés dans la formation - IS devraient être présentés comme un backtest, et OOS comme un forward.
Il est préférable de montrer des graphiques séparés, parce que l'échantillon qui n'a pas participé à la formation est généralement beaucoup plus petit que celui qui a participé et visuellement rien n'est clair sur un graphique aussi brisé, c'est pour moi personnellement.
Au fait, Catbust dispose d'une validation croisée - il n'a donc pas besoin de la clé "test", mais utilise un seul échantillon qui est décomposé de différentes manières.
Les scientifiques travaillent avec de telles choses, mais ils ne comprennent pas ce qui se passe dans les réseaux neuronaux, et encore moins dans les forêts, comment et pourquoi les choses sont exactement comme elles sont, où les choses changent à quel moment et pourquoi, nous ne pouvons que faire confiance à leur autorité et appliquer leurs modèles, en faisant confiance à une puissance supérieure.
Les scientifiques travaillent avec de telles choses, mais ils ne comprennent pas ce qui se passe dans les réseaux neuronaux, sans parler des forêts, comment et pourquoi les choses sont comme elles sont, où les choses changent à quel moment et pourquoi, nous devons seulement faire confiance à leur autorité et appliquer leurs modèles, en faisant confiance à une puissance supérieure.
OK, ainsi soit-il. Je n'ai aucune statistique sur les déclarations de centaines d'individus impliqués dans la création de différentes méthodes de MdD, aucune envie d'argumenter, car j'ai parlé à l'origine du fait que je suis à l'aise pour séparer les concepts dans mon esprit, et si d'autres ne sont pas à l'aise, alors laissez-moi être seul avec mes concepts.
L'entêtement a une signification proche de l'obstination. J'espère qu'ils vous aideront à réussir la mise en œuvre de vos idées dans le MO. Ce sont des qualités utiles pour les chercheurs. ;-)
PS J'ai pensé à un nom pour votre système de sélection des feuilles : "Herbarium" - ajoutez à votre collection des méthodes provenant d'arbres, de forêts, de souches, de jungles.PS : J'ai pensé à un nom pour votre système de sélection des feuilles : "Herbarium" - ajoutez à votre collection des méthodes provenant des arbres, des forêts, des souches, des jungles.
))) Je l'appellerais Lumberjack ou Sawmill.
Les scientifiques travaillent avec de telles choses, mais ils ne comprennent pas ce qui se passe dans les réseaux neuronaux, et encore moins dans les forêts, comment et pour quelle raison tout est exactement comme il est, où ce qui change à quel moment et pourquoi, nous ne pouvons que faire confiance à leur autorité et appliquer leurs modèles, en faisant confiance à une puissance supérieure.
Je suis en partie d'accord, nous sommes à l'ère de l'informatique rapide, et si les gens avaient l'habitude de faire des calculs sur papier avant d'avoir accès à un ordinateur, aujourd'hui le volume d'informations et les méthodes de traitement sont si importants qu'il est souvent plus approprié de se concentrer sur le résultat plutôt que sur le processus.