Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2478

 
Maxim Dmitrievsky #:
En mi opinión, hay más un efecto de normalización que de equilibrio. Además, el muestreo de las distribuciones ayuda a evitar el sobreentrenamiento

¿He entendido bien, cuantas más muestras, más cerca de la estandarización?

 
iwelimorn #:

¿He entendido bien, cuantas más muestras, más se acercan los signos a la normalización?

Es difícil decir cuál es el tamaño óptimo de la muestra, probablemente depende del número de componentes de las mezclas gaussianas. Un muestreo demasiado grande, con un conjunto de datos ruidosos, conduce a la generación de muestras muy similares, es decir, la probabilidad de que se produzcan muestras que se repiten con frecuencia aumenta, porque se utilizan gaussianos para la estimación y generación de la densidad. Por lo tanto, es más probable que no que sí.
He leído en alguna parte que GMM no funciona bien con conjuntos de datos grandes.
 
Maxim Dmitrievsky #:
Es difícil decir cuál es el tamaño óptimo de la muestra, probablemente depende del número de componentes de la mezcla gaussiana. Una muestra demasiado grande, con un conjunto de datos ruidosos, conduce a la generación de muestras muy similares, es decir, la probabilidad de que se produzcan muestras que se repiten con frecuencia aumenta, porque se utilizan gaussianos para la estimación y generación de la densidad. Así que es más probable que no que sí.

Gracias. Probablemente no he formulado la pregunta correctamente, me refería a si es posible que un mayor número de muestras generadas den una muestra más estandarizada.

 
iwelimorn #:

Gracias. Probablemente no he formulado la pregunta correctamente, me refería a si es posible que un mayor número de muestras generadas den una muestra más estandarizada.

Sí, por supuesto.
 
iwelimorn #:

Gracias. Probablemente no he formulado la pregunta correctamente, me refería a si es posible que un mayor número de muestras generadas den una muestra más estandarizada.

Lo importante es tener el menor número posible de incoherencias al generar la muestra, de lo contrario el entrenamiento será inútil. Imagina que en un caso con el mismo valor del vector de entrada el objetivo tiene valor 1, y en el siguiente caso con un vector de entrada idéntico el objetivo tiene valor 0. ¿Qué debe hacer entonces el algoritmo? ¿Cómo reaccionar? Así que aumentar las muestras de entrenamiento sólo es relevante si no conduce a un aumento de la contradicción. Es una cuestión filosófica. Por ejemplo, cubro 3 meses del mercado en M5 en 100 muestras de entrenamiento. Como ejemplo...
 
Y por cierto, hay una dama en nuestras filas, según tengo entendido. Es un caso realmente raro, se podría decir que una excepción a la regla... :-)
 
Mihail Marchukajtes #:
Es importante tener el menor número posible de contradicciones, de lo contrario la formación será inútil . Imagina que en un caso con el mismo valor del vector de entrada el objetivo tiene valor 1, y en el siguiente caso con un vector de entrada idéntico el objetivo tiene valor 0. Entonces, ¿qué debe hacer el algoritmo? ¿Cómo reaccionar? Así que aumentar las muestras de entrenamiento sólo es relevante si no conduce a un aumento de la contradicción. Es una cuestión filosófica. Por ejemplo, cubro 3 meses del mercado en M5 en 100 muestras de entrenamiento. Como ejemplo...

¿has entendido siquiera lo que has escrito?

 

Mihail Marchukajtes #:
Es importante tener el menor número posible de contradicciones al formar la muestra, de lo contrario el entrenamiento será inútil. Imagina que en un caso con el mismo valor del vector de entrada el objetivo tiene valor 1, y en el siguiente caso con un vector de entrada idéntico el objetivo tiene valor 0. Entonces, ¿qué debe hacer el algoritmo? ¿Cómo reaccionar? Así que aumentar las muestras de entrenamiento sólo es relevante si no conduce a un aumento de la contradicción. Es una cuestión filosófica. Por ejemplo, cubro 3 meses del mercado en M5 en 100 muestras de entrenamiento. Como ejemplo...

Estoy de acuerdo contigo, si un mismo ejemplo describe varios estados, entonces al clasificar por cualquier algoritmo disponible obtendremos una probabilidad cercana a 1/n donde n es el número de estados.

Pero no hay ejemplos absolutamente similares, son similares hasta cierto punto. La cuestión es cómo detectar esta "similitud".


100 ejemplares en tres meses en la M5... Me pregunto... ¿Seleccionas muestras de la muestra original según las reglas , que luego utilizas en el comercio?

 
iwelimorn #:

Estoy de acuerdo contigo, si el mismo ejemplo describe varios estados, entonces obtendremos una probabilidad cercana a 1/n donde n es el número de estados al clasificar por cualquier algoritmo disponible.

Pero no hay ejemplos absolutamente similares, son similares hasta cierto punto. La cuestión es cómo detectar esta "similitud".


100 ejemplares en tres meses en la M5... Me pregunto... ¿Seleccionas muestras de la muestra original según las reglas , que luego utilizas en el comercio?

Si el mismo conjunto de variables independientes en la muestra de entrenamiento corresponde a una sola variable dependiente, entonces se trata de una serie determinista.

Ahí no hay nada que clasificar: el error de predicción es 0.

Sí, ya es una agonía.

 
Dmytryi Nazarchuk #:

Si el mismo conjunto de variables independientes en la muestra de entrenamiento corresponde a una sola variable dependiente, se trata de una serie determinista.

Ahí no hay nada que clasificar: el error de predicción es 0.

Sí, esto es una agonía.

Gracias, tal vez no sea la agonía sino mi falta de conocimientos fundamentales.

¿También es cierto si varios conjuntos de variables independientes corresponden a la misma variable?