L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1911

 
Maxim Dmitrievsky:
Vous l'inventez au fur et à mesure). 24 colonnes, pas 100. Vous avez demandé le dossier vous-même. Il n'y a pas d'erreurs (je l'ai expliqué). 300 et beaucoup de lignes car je t'ai donné une année, donc ton 'générateur' n'a pas fait caca pour compter)))) Mais continuez. Je n'ai pas eu le temps de finir de le regarder, mais le début est prometteur. Je laisserai une critique complète plus tard. On dirait que je vais devoir répondre en format vidéo.
Oui Maxim désolé, ce n'était pas votre fichier de formation, mais le sens du message je pense est clair. Eh bien, 24 colonnes ne peuvent pas expliquer 2000 vecteurs sans répétition. Ce n'est tout simplement pas possible physiquement. ....
 
Mihail Marchukajtes:

J'ai un fichier sale de 7700 colonnes où je prends 24 ligues, alors ne continuez pas, mais regardez plutôt ici. Voici votre dossier.

Et voici le mien.

Quelle est la différence ? ? ??? Je ne vais pas vous tenir en haleine. Dans l'analyse en composantes principales, lorsque chaque colonne a son propre système de coordonnées, il est important qu'elles puissent être regroupées afin que les points de différentes colonnes puissent être reportés sur le même système de coordonnées. L'interprétation est simple. Plus il y a de vecteurs verticaux et horizontaux, plus c'est cool. Ce que vous avez, c'est une tache uniforme.

J'ai compris un peu, essentiellement les angles entre les vecteurs montrent une corrélation (90g = 0 corrélation). Je nourris les décalages incrémentiels, il n'y aura pas de corrélation, c'est comme un bruit blanc.

Le fait que vous puissiez vous contenter de 50 exemples de formation (50 lignes) est surprenant, car la grille doit être très peu profonde. Vous avez besoin de beaucoup d'exemples pour éliminer les fonctions inutiles (idéalement jusqu'à une) qui peuvent décrire les données.

 
Mihail Marchukajtes:
Oui Maxim désolé, ce n'était pas votre fichier de formation, mais je pense que le message est clair. Eh bien, 24 colonnes ne peuvent pas expliquer 2000 vecteurs sans répétitions. C'est juste physiquement impossible....


Je ferai une danse la prochaine fois.

 
Maxim Dmitrievsky:

la prochaine fois, je danserai.

vtreet n'utilise pas de rsa, il ne s'agit pas du tout de ça. Je ne comprends pas moi-même ce qu'ils font,

ils pré-traitent les caractères manquants et ainsi de suite + ils créent de nouvelles fonctionnalités mais ne le positionnent pas comme une induction de fonctionnalité ainsi qu'ils comptent comme une fonctionnalité mais ne le positionnent pas comme une sélection de fonctionnalité, donc je ne sais pas ce que c'est ou comment cela fonctionne.



En ce qui concerne "l'ACP est linéaire et ce que vous avez ptsashil là vous pouvez juste le jeter à la poubelle.

Je parie que je peux obtenir un prix à partir d'une décomposition PCA sur de nouvelles données avec une précision de +-98%.

Je peux le prouver, donc vous avez tort ici, peut-être même cool que ce soit linéaire, sinon je ne l'aurais pas collecté.

 
Maxim Dmitrievsky:


la prochaine fois, je danserai

En général, je suis d'accord avec la terminologie selon laquelle les colonnes sont des entrées (variables explicatives), les lignes sont des vecteurs de formation ou des exemples. Il est possible que pour certains algorithmes d'apprentissage, ce point soit critique lorsqu'il y a moins de lignes que de colonnes, mais lorsqu'il y a plus de lignes que de colonnes, on se rapproche d'exemples identiques qui entraînent le modèle dans la zone de sur-apprentissage. Il n'est pas possible de décrire 350 exemples (lignes) avec 24 variables explicatives (colonnes) et d'éviter les répétitions.

Je n'utilise pas l'ACP en général de quelque manière que ce soit, c'était juste un exemple pour un autre utilisateur. Vous pouvez l'utiliser pour évaluer l'ensemble résultant dans la mesure où il est capable d'être divisé.


P.S. Le pod...fuck de la chanson est crédité. Bien joué !

 
Donc, théoriquement, la matrice la plus cool à apprendre est une matrice carrée lorsque le nombre de colonnes et de rangées est le même..... HMM... Au fait, cela m'a donné l'idée de prendre autant d'exemples pour l'entraînement où il reste le même nombre de colonnes après le prétraitement..... C'est une idée... donc c'est.... La matrice carrée n'a 100% de répétitions....
 
Mihail Marchukajtes:

En général, je suis d'accord avec la terminologie : les colonnes sont les entrées (variables explicatives), les lignes sont les vecteurs de formation ou les exemples. Il est possible que pour certains algorithmes d'apprentissage, ce point soit critique lorsqu'il y a moins de lignes que de colonnes, mais lorsqu'il y a plus de lignes que de colonnes, on obtient des exemples presque identiques qui entraînent le modèle dans la zone de surentraînement. Il n'est pas possible de décrire 350 exemples (lignes) avec 24 variables explicatives (colonnes) et d'éviter les répétitions.

Je n'utilise pas l'ACP en général de quelque manière que ce soit, c'était juste un exemple pour un autre utilisateur. Vous pouvez l'utiliser pour évaluer l'ensemble résultant dans la mesure où il est capable d'être divisé.


P.S. Le pod...fuck de la chanson est crédité. Bien joué !

Seulement si les étiquettes des classes sont très différentes (les classes ne sont pas équilibrées).

Je te torturais pour rien. le plus célèbre des magiciens et sorciers ))))

 
Mihail Marchukajtes:

On se rapproche d'exemples identiques, ce qui entraîne le modèle dans la zone de sur-apprentissage.

ces "exemples similaires" sont ce qui crée des structures statistiquement significatives - qu'est-ce que les statistiques ? c'est lorsque quelque chose se répète et que vous pouvez en tirer des conclusions.

Mihail Marchukajtes:

Il n'est pas possible de décrire 350 exemples (lignes) avec 24 variables explicatives (colonnes) et d'éviter les répétitions.

Quel est le problème de la répétition ? ? ???

 
mytarmailS:

ces "mêmes exemples" sont exactement ce qui crée des structures statistiquement significatives - qu'est-ce que les statistiques ? c'est lorsque quelque chose est répété et que vous pouvez en tirer des conclusions.

ce qui ne va pas avec la répétition ????

Il existe trois types de mensonges : les mensonges, les mensonges flagrants et les statistiques. - Mark Twain.

La répétition mène à l'apprentissage par cœur, nous devons généraliser le réseau. En d'autres termes, nous devons alimenter un vecteur unique de sorte que lorsqu'un nouveau vecteur apparaît, le réseau réagit comme prévu. Si un ensemble contient un groupe de vecteurs proches, le réseau ne les mémorisera pas.....

En d'autres termes, l'algorithme attribuera un facteur de pondération déraisonnablement élevé à ces deux vecteurs proches.....

 
Maxim Dmitrievsky:

seulement si les étiquettes de classe ont un nombre très différent (les classes ne sont pas équilibrées)

Je me suis battu avec toi pour rien... le plus célèbre des magiciens et sorciers ))))

Je parle au départ de deux classes et pas plus. S'il y a trois classes ou plus, il est permis de créer un tableau de vecteurs uniques où les lignes sont plus nombreuses que les colonnes, mais leur unicité sera définie par la cible exclusivement.