Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 56

 
Alexey Burnakov:
Unos cuantos años. Aquí en el hilo está su resultado.
Por favor, dame el enlace.
 
Vadim Shishkin:
¿Puede darme un enlace, por favor?
Todo el tema es el resultado.
 
Yury Reshetov:

Al menos con una separación estricta en una muestra de entrenamiento y una muestra de prueba por fechas, en lugar de barajar las muestras con una distribución uniforme en la muestra general y luego dividirla en partes. Puede ocurrir que una parte de la muestra contenga mayoritariamente tendencias verticales, mientras que la otra parte contiene tendencias laterales. Si aplicamos la mezcla aleatoria, la probabilidad de reunir patrones similares en diferentes partes de la muestra disminuye.

Por cierto, esta desventaja también está presente en el probador de estrategias incorporado de MetaTrader, es decir, divide la muestra de entrenamiento y la prueba de avance estrictamente por fechas. Por ello, el cambio de tendencia del mercado cerca de la línea divisoria puede llevar a un sobreentrenamiento deliberado.

Este es el punto clave en la planificación del experimento. En realidad, existe una estricta separación temporal. Así es como el modelo se pone a prueba en el futuro en el pleno sentido de la palabra.

Yo también tengo esto: en la validación el mercado era predominantemente bajista y hay un exceso de cortos. Bueno, podría aumentar predominantemente en el futuro. Puede pasar cualquier cosa.
 
Vadim Shishkin:
Así que usted, como cualquier comerciante respetable, pronunció la respuesta.
La respuesta del universo, si quieres.
 
Alexey Burnakov:
Este es el punto clave de la planificación del experimento. En realidad, hay una estricta separación en el tiempo. Así es como se prueba el modelo para el futuro en todo el sentido de la palabra.

Yo también tengo esto: en la validación el mercado era predominantemente bajista y hay un exceso de cortos. Bueno, es posible que en el futuro aumente predominantemente. Puede pasar cualquier cosa.

Se denomina muestra desequilibrada y es un problema de aprendizaje automático.

Para que quede más claro, le daré un ejemplo. Supongamos que tenemos una muestra de entrenamiento en la que predominan las tendencias alcistas y, por tanto, las tendencias bajistas están menos presentes en la muestra que las alcistas, es decir, tenemos un desequilibrio.

Supongamos que tenemos 1.000 movimientos a la baja en la muestra y 10.000 movimientos al alza. Y supongamos que el error de clasificación de los movimientos ascendentes es del 10%. Pero ese diez por ciento para 10.000 ejemplos equivale a 1.000 señales falsas clasificadas como predicción de movimientos a la baja y sólo tenemos 1.000 ejemplos con movimientos a la baja en la muestra. Esto significa que, por muy precisa que sea la clasificación de un movimiento descendente, para cualquier respuesta de un clasificador que prediga un movimiento futuro como potencialmente descendente, su error será de al menos el 50%. Es decir, cuantos más ejemplos de la muestra de entrenamiento para una clase estén desequilibrados, mayor será el impacto de la clasificación errónea para esa clase en la calidad de las respuestas del clasificador para otra clase.

Por eso es muy difícil predecir fenómenos raros: terremotos, erupciones volcánicas, crisis económicas, etc. Porque si el fenómeno es muy raro y poco representativo en la muestra, cualquier error para los ejemplos de clases opuestas se vuelve excesivo para los fenómenos raros.

Por lo tanto, una muestra de entrenamiento debe ser pre-equilibrada para que contenga el mismo número de ejemplos para todas las clases. De lo contrario, es más probable que las clases poco representativas no superen las pruebas fuera del conjunto de entrenamiento. Además, al dividir la muestra general en partes de entrenamiento y de prueba, es necesario mezclar los ejemplos utilizando PRGPs con una distribución de probabilidad uniforme para evitar la aglomeración de ejemplos con predictores similares en una parte y diferentes predictores en la otra. Es decir, para evitar un desequilibrio en los predictores y no sólo en las variables dependientes.

 
Yury Reshetov:

Esto se llama muestreo desequilibrado y es un problema de aprendizaje automático.

Para que quede más claro, le pongo un ejemplo. Supongamos que tenemos una muestra de entrenamiento en la que predominan las tendencias alcistas, lo que significa que hay menos tendencias bajistas que alcistas, es decir, tenemos un desequilibrio.

Supongamos que tenemos 1.000 movimientos a la baja en la muestra y 10.000 movimientos al alza. Y supongamos que el error de clasificación de los movimientos ascendentes es del 10%. Pero ese diez por ciento para 10.000 ejemplos equivale a 1.000 señales falsas clasificadas como predicción de movimientos a la baja y sólo tenemos 1.000 ejemplos con movimientos a la baja en la muestra. Esto significa que, por muy precisa que sea la clasificación de un movimiento descendente, para cualquier respuesta de un clasificador que prediga que un movimiento futuro es potencialmente descendente, su error será de al menos el 50%. Es decir, cuantos más ejemplos de la muestra de entrenamiento para una clase cualquiera sean un desequilibrio, mayor será el impacto de la clasificación errónea para esa clase en la calidad de las respuestas del clasificador para otra clase.

Por eso es muy difícil predecir fenómenos raros: terremotos, erupciones volcánicas, crisis económicas, etc. Al fin y al cabo, si el fenómeno es muy raro y está escasamente representado en la muestra, cualquier error para los ejemplos de clases opuestas resulta excesivo para los fenómenos raros.

Por lo tanto, la muestra de entrenamiento tiene que estar equilibrada de antemano para que tenga el mismo número de ejemplos para todas las clases. De lo contrario, es más probable que las clases poco representativas no superen las pruebas fuera del conjunto de entrenamiento. Además, al dividir la muestra general en porciones de entrenamiento y de prueba, es necesario mezclar los ejemplos utilizando PRNG con una distribución de probabilidad uniforme para evitar la aglomeración de ejemplos con predictores similares en una porción y diferentes predictores en la otra. Es decir, evitar el desequilibrio en los predictores y no sólo en las variables dependientes.

Yury, entiendo el punto. En efecto, el muestreo puede estar desequilibrado tanto en la formación como en la validación. Pero en realidad se está negociando el futuro donde el sesgo puede ser muy fuerte. Y la estrategia tiene que ser resistente a ese resultado.
 
Yury Reshetov:


Por lo tanto, la muestra de entrenamiento debe ser equilibrada previamente para que contenga ejemplos de todas las clases en igual número. De lo contrario, es más probable que las clases poco representativas no superen las pruebas fuera del conjunto de entrenamiento. Además, al dividir la muestra general en porciones de entrenamiento y de prueba, es necesario mezclar los ejemplos utilizando PRNG con una distribución de probabilidad uniforme para evitar la aglomeración de ejemplos con predictores similares en una porción y diferentes predictores en la otra. Es decir, evitar el desequilibrio en los predictores y no sólo en las variables dependientes.

paquete de caretas

Un par de funciones: downSample/upSample - disminuye/incrementa el número de observaciones, obteniendo clases totalmente equilibradas. La muestra descendente y ascendente se basa en un algoritmo de muestreo aleatorio simple.

PS.

¡Reshetov!

Empieza a estudiar R. Cada vez más a menudo te deslizas hacia las trivialidades.

 
SanSanych Fomenko:

¡Reshetov!

Empieza a estudiar R. Cada vez te deslizas más hacia los tópicos.

Voy a dejarlo todo y convertirme en un adepto a la R para poder jugar con los números con una cara seria.
 
Alexey Burnakov:
Yuri, entiendo la idea. En efecto, la muestra puede estar desequilibrada tanto en el entrenamiento como en la validación. Pero en realidad se está negociando el futuro donde el sesgo puede ser muy fuerte. Y la estrategia debe ser resistente a ese resultado.
Hay que evitar el posible sobreaprendizaje, porque es la única manera de lograr la estabilidad. Y una muestra de entrenamiento desequilibrada es una causa potencial de sobreentrenamiento para clases no representativas. Al fin y al cabo, el algoritmo de aprendizaje trata de actuar como le parece, no como necesita para aumentar la generalizabilidad. Si la muestra está desequilibrada, se minimizarán los errores de aprendizaje en las clases menos representativas, porque los ejemplos de estas clases son pocos y es más fácil memorizarlos en lugar de generalizar. Después de un aprendizaje tan memorístico, no es de extrañar que, fuera de la muestra de entrenamiento, los errores del algoritmo sean más probables en las clases menos representativas.
 

separar los datos exactamente por fecha (antes de X día - formación, después - validación)

La cuestión es simple. En el mundo real nadie le permitirá tomar una muestra mixta que contenga observaciones del futuro y del pasado para evaluar la calidad del comercio real. Todas las observaciones irán después del día x.

Por lo tanto, al tomar una muestra mixta en la validación (sin separación de fechas), se está sobreestimando la métrica de calidad en la validación. Eso es todo. Entonces habrá sorpresas desagradables.