Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
J'ai préparé un échantillonnage de 11 colonnes + 1 colonne de sortie. Question : lors du démarrage du Predictor, quel est le nombre de colonnes à spécifier ? Seulement la quantité de données (11) ou ensemble avec la sortie (12) ? ???
Autrement dit, si dans la feuille de calcul initiale (fichier csv) le nombre de colonnes N > 46, et le nombre de lignes M, alors le coût du temps de calcul est proportionnel à : 2 * (N - 2) + M - 2
Si le nombre de colonnes de la feuille de calcul N < 13, le temps consacré aux calculs est proportionnel à 2 * (N - 2)2 + M - 2
Autrement dit, si le nombre de colonnes de la feuille de calcul est N = 12 (10 entrées), le temps de calcul sur le même ordinateur sera le même que pour N = 1025 (1023 entrées). Parce que pour le nombre d'entrées inférieur à 11, les transformations du noyau MSUA sont activées.
OK, on a réglé la question du timing. Mais voici une autre chose que j'ai remarquée. Si vous optimisez un seul et même fichier, vous obtenez des résultats complètement différents... Comme complètement.... Ils diffèrent, bien sûr, parfois même beaucoup. Qu'est-ce que ça a à voir avec, Yuri ? Je pensais que lors de l'optimisation dans ce cas, nous devions arriver au même résultat. Mais ici, il s'avère que le résultat est différent..... :-( Qu'est-ce que ça a à voir ?
Cela a à voir avec le hasard. L'échantillon général est divisé en deux sous-échantillons, un échantillon de formation et un échantillon de contrôle, en utilisant jPrediction. jPrediction fait 100 tentatives pour diviser l'échantillon général en deux parties.
A chaque tentative, un modèle est construit sur le sous-échantillon de formation. Sur l'échantillon de contrôle, le modèle est vérifié "pour la lousitude". Les résultats obtenus sur le contrôle (généralisabilité) sont affichés. Mais les résultats de la capacité de formation ne sont pas nécessaires dans l'enfer, car ils sont un ajustement et ne sont donc affichés nulle part.
Si les meilleurs résultats en matière de généralisation sont très différents sur le même échantillon avec différentes séries, cela signifie que l'échantillon n'est pas représentatif - trop de déchets sur les entrées. C'est-à-dire que les prédicteurs ont une faible signification.
Si l'échantillon est représentatif, le même meilleur modèle peut être construit plus d'une fois en 100 passages, c'est-à-dire qu'il ne dépend pas tellement des exemples inclus dans l'échantillon d'entraînement et dans l'échantillon de contrôle.
Lorsqu'il s'agit de prédire des séries chronologiques NS, un partitionnement de l'échantillon à l'aide d'un PRNG n'est d'aucune utilité pratique - une absurdité totale qui ne montre rien.
Uniquement un partitionnement artificiel avec un échantillon de contrôle à la fin de la série temporelle