Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 655

 
Dr. Trader:

Yo también he pensado mucho en esto.

Si el modelo de regresión predice las ganancias de los precios por barra y la puntuación R2 es superior a cero en los fronttests y backtests, eso ya es un buen comienzo. El problema es que el resultado, aunque estable, es pequeño, el diferencial no se puede superar.

Desde el punto de vista analítico, el problema es que R2 penaliza más el modelo por los errores grandes e ignora los errores pequeños y las direcciones comerciales erróneas. Si se observa la distribución de las ganancias, la mayoría de los movimientos de precios son de sólo un par de pips. Y el modelo, en lugar de predecir la dirección correcta de esos pequeños movimientos, aprende a predecir las colas largas de la distribución para las que obtendrá un R2 mayor. Como resultado, el modelo puede predecir de alguna manera los grandes movimientos, pero en los pequeños siempre se equivoca en la dirección y pierde el diferencial.

Conclusión: las estimaciones de regresión estándar para las divisas son malas. Es necesario crear una función de aptitud de algún tipo, de modo que se tengan en cuenta las direcciones de reparto, la dispersión y la precisión. Entonces, incluso con una precisión de poco más del 50% hay posibilidades de obtener beneficios.
La precisión, la relación de afilado, el factor de recuperación y otras funciones que analizan los gráficos comerciales son demasiado discretas, las neuronas con un backprop estándar no saldrán del mínimo local y no podrán aprender correctamente.

Una conclusión alternativa es ignorar por completo las señales débiles de la neurona. Comercie sólo con los fuertes. El problema es que siempre podemos definir el umbral que da buenos resultados en el backtest, pero no dará buenos resultados en el fronttest. Aquí también hay que pensar en algo.

Sin embargo, la propia idea de utilizar modelos de regresión para el aprendizaje automático parece muy cuestionable. Y especialmente para la predicción incremental. Y doblemente para las NS, que son en el sentido una caja negra con algunas capas y perseptrones. ¿Qué significado económico o estadístico tienen estas palabras?

Al fin y al cabo, no en vano los modelos GARCH se utilizan para los incrementos. y son los más comunes en la actualidad. La idea básica de superar la no estacionariedad descomponiendo las series no estacionarias en componentes, que tienen un sentido económico y estadístico bastante significativo, es muy atractiva.


En GARCH el modelo consta de los siguientes pasos:

  • La serie original se detrae mediante el logaritmo (disminuyendo la influencia de los valores atípicos) de la relación de las barras vecinas.
  • ya que normalmente no se puede eliminar por completo la no estacionariedad, entonces
  • modelar la tendencia restante (ARIMA)
  • matices del modelo ARCH
  • modelar la distribución de los incrementos.

Todo un trabajo significativo y con sentido.

Si añadimos la posibilidad de añadir regresores externos, obtenemos una herramienta bastante rica, desgraciadamente muy variada y, por tanto, muy laboriosa.

 
ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
  • www.quantstart.com
In this article I want to show you how to apply all of the knowledge gained in the previous time series analysis posts to a trading strategy on the S&P500 US stock market index. We will see that by combining the ARIMA and GARCH models we can significantly outperform a "Buy-and-Hold" approach over the long term. Strategy Overview The idea of the...
 
SanSanych Fomenko:

  • la serie original se detrae mediante el logaritmo(disminuyendo la influencia de las emisiones) de la relación de las barras vecinas.

¿en qué se basa?

 
SanSanych Fomenko:

Sin embargo, la idea misma de utilizar modelos de regresión para el aprendizaje automático parece muy cuestionable. Y esto es especialmente cierto en el caso de la predicción incremental. Y doblemente para las NS, que son en el sentido de una caja negra con algunas capas y perseptrones. ¿Qué significado económico o estadístico tienen estas palabras?

Al fin y al cabo, no en vano los modelos GARCH se utilizan para los incrementos. y son los más comunes en la actualidad. La idea básica de vencer la no estacionariedad descomponiendo una serie no estacionaria en componentes que tienen un significado económico y estadístico bastante significativo es muy atractiva.

Te equivocas SanSanych. La NS es una especie de equivalente a la lógica difusa. Se puede aprender. Personalmente, no le veo ningún misterio. Puedes utilizar otras analogías.

Bueno, y la no estacionalidad. Cualquier proceso, si se descompone en trozos será no estacionario, y si no lo es, no será aleatorio.

Por cierto, por el aspecto de las distribuciones en diferentes tramos largos (varios de más de 3 meses) no he notado ninguna diferencia significativa entre ambos.

En cuanto al sentido económico, no lo sé. Asumo que el mercado es aleatorio para el observador. Que sea realmente aleatorio o no, no importa. La palabra clave aquí es para el observador.

 

¡Eres un hombre interesante! ¡Resulta que lo sabes todo!

 
Maxim Dmitrievsky:

¿en qué se basa?

Tengo registro, ¿qué diferencia hay?

 
SanSanych Fomenko:

Tengo registro, ¿qué diferencia hay?

Porque el logaritmo en este caso no se deshace de los valores atípicos: el cálculo de los incrementos con n-lag se deshace de los valores atípicos.

El logaritmo simplemente centra el gráfico con respecto a 0

y para eliminar los valores atípicos por logaritmo, hay que introducir una escala logarítmica.

incrementos simples

logaritmo de los incrementos (natural)


 
Maxim Dmitrievsky:

porque el logaritmo en este caso no evita los valores atípicos: el cálculo de los incrementos con n-lag sí evita los valores atípicos

El logaritmo simplemente centra la gráfica con respecto a 0.

y para eliminar los valores atípicos por logaritmo, hay que introducir una escala logarítmica.

incrementos simples

logaritmo de los incrementos (natural).


Las emisiones son algo complicado. Las emisiones excesivamente grandes serían mejor sustituidas por un máximo más aceptable.

No es posible deshacerse de las emisiones por completo. Pero para minimizar su impacto en la distribución no sólo se puede y se debe hacer por logaritmo.

> summary(diff(eur))
     Index                       diff(eur)         
 Min.   :2016-01-04 00:00:00   Min.   :-0.0230100  
 1 st Qu.:2016-04-14 19:00:00   1 st Qu.:-0.0005300  
 Median :2016-07-27 12:00:00   Median : 0.0000100  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000036  
 3 rd Qu.:2016-11-08 06:00:00   3 rd Qu.: 0.0005200  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0143400  


> summary((diff(eur, log=T)))
     Index                     (diff(eur, log = T))
 Min.   :2016-01-04 00:00:00   Min.   :-0.0206443  
 1st Qu.:2016-04-14 19:00:00   1st Qu.:-0.0004810  
 Median :2016-07-27 12:00:00   Median : 0.0000090  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000034  
 3rd Qu.:2016-11-08 06:00:00   3rd Qu.: 0.0004755  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0127862  
                               NA's   :1


Si tomamos un caso hipotético con citas adyacentes 10 y 2

10/2 = 5

log (10/2) = 0,69

 
Maxim Dmitrievsky:

Porque el logaritmo en este caso no evita los valores atípicos: el cálculo de los incrementos con n-lag sí evita los valores atípicos.



n-lag es un incremento de la TF, y cuanto mayor sea la TF, mayor será el incremento.

Su lag 50 es n8, sólo que más preciso en el sentido de que su TF=8 horas comienza cada minuto a diferencia del gráfico regular.

 
SanSanych Fomenko:

Las emisiones son algo complicado. Es mejor sustituir las emisiones demasiado altas por un máximo más aceptable.

No es posible deshacerse de las emisiones por completo. Pero no sólo es posible sino necesario reducir su influencia en la distribución y se hace mediante el logaritmo.



Si tomamos un caso hipotético con citas adyacentes 10 y 2

10/2 = 5

log (10/2) = 0,69

Bueno, está bien, has encontrado la potencia de e para obtener el valor del incremento original

pero no te has librado de los valores atípicos.

He citado 2 fotos arriba