Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1237

 
Dmitry:

Hace dos años escribí aquí Maximka que el NS es un juguete como una bomba nuclear. Que si CUALQUIER otro modelo da resultados al menos satisfactorios, no es recomendable usar NS - encuentran algo que no existe y no se puede hacer nada al respecto.

Por los árboles es algo bueno, pero es mejor usar andamios.

Pienso experimentar con xgboost vía R, todo lo que necesito parece estar ahí. Y parece ser muy rápido y utiliza la memoria de manera óptima.
¿Puede manejar 100.000 muestras con, por ejemplo, 100 predictores?
 
elibrarius:
Pienso experimentar con xgboost a través de R, creo que tiene todo lo que necesito. Y parece ser muy rápido y utiliza la memoria de manera óptima.
¿Puede manejar 100.000 muestras con, por ejemplo, 100 predictores?

) No sé, eso es para Fa, supongo.

He jugado con modelos sencillos, he jugado con el binario.

 
elibrarius:
Pienso experimentar con xgboost a través de R, creo que todo lo que necesito está ahí. Y parece ser muy rápido y utiliza la memoria de manera óptima.
¿Puede manejar 100.000 muestras con, por ejemplo, 100 predictores?

realmente rápido

lo probaré con mis datos en cuanto aprenda a guardar las matrices en mql en un archivo normal (eso es un coñazo))

no tengo ninguna diferencia de calidad entre mqlp y logs... casi no hay diferencia entre nada y nada de los modelos normales, pero me gustaría probar boisting yo mismo, tal vez es realmente 40 veces mejor... pero de hecho puede ser un poco mejor.

con respecto al libro anterior - cuando veo demasiadas palabras e interjecciones innecesarias en el texto, inmediatamente me doy cuenta de que el autor está loco y lo cierro ))

 
Maxim Dmitrievsky:

realmente rápido

Lo probaré con mis datos en cuanto aprenda a guardar las matrices en mql en un archivo normal (eso es un coñazo))

no tengo ninguna diferencia de calidad entre mqlp y logs... casi no hay diferencia entre nada y nada de los modelos normales, pero me gustaría probar boisting yo mismo, tal vez es realmente 40 veces mejor... pero de hecho puede ser un poco mejor.

En cuanto al libro, cuando veo que el texto está lleno de demasiadas palabras e interjecciones superfluas, me doy cuenta inmediatamente de que el autor está loco y lo cierro ))

El NS debido al BackProp cuando hay mucho ruido no puede encontrar datos importantes (y tenemos todas las barras lejanas son casi ruidosas, es esencialmente importante si vinieron de arriba o de abajo).

En el caso de los bosques, aún no he entendido cómo tratan el ruido (aparte de que es un voto de muchos árboles diferentes).


¿Puede el propio árbol suprimir el ruido? (Recuerdo por lo que leí hace un año que puede memorizar completamente la muestra junto con el ruido)

 
elibrarius:
NS no puede encontrar datos importantes con mucho ruido (y todas las barras largas son casi ruidosas, es importante si vienen de arriba o de abajo).

Con los bosques, todavía no he entendido cómo tratan el ruido (aparte de que es una votación de muchos árboles diferentes).


¿Puede el propio árbol suprimir el ruido? (Por lo que leí hace un año, recuerdo que puede memorizar completamente la muestra junto con el ruido)

de la misma manera que los conjuntos de redes neuronales se construyen sobre bagging y se obtiene lo mismo que un bosque

hay que entender que un bosque es sólo un caso especial de embolsamiento, en lugar de árboles se puede meter lo que se quiera, cualquier modelo débil. Un solo árbol es un modelo elemental que no puede suprimir nada

el bosque "más o menos" no se reconduce debido al muestreo aleatorio, pero de hecho se reconduce muy fácilmente y sin pretensiones

ambos necesitan ser regularizados, ya sea a través de Decay (paso de gradiente), parada temprana, o a través del parámetro r del bosque, o preprocesamiento, pero todas estas mejoras suelen estar dentro del 5-10%. Con datos malos, ambos modelos funcionarán igual de mal

sobre la potenciación (extrema, no GBM) dicen que no es reentrenar mucho, deberías mirarlo, no puedo decir nada

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

 
Vizard_:

Mi estimado Inocente. No me asusta esa palabra, Maestro, ¡gracias por esos momentos de alegría!
La vida brilló con nuevos colores (azul, rojo, gris, verde))))
Si pudiera responder a algunas preguntas. ¿Por qué te refieres tan asiduamente a Vorontsov como Voronov
y por qué nos hablas de las condiciones del mercado sin MO, y por qué intentas darnos algún tipo de objetivo de mierda.
Y lo más importante - ¿dónde está la tendencia-plana?))

Escribí sobre Vorontsov y mi desesperación por su burla, pero mis posts fueron borrados, no sean como los nazis de la gramática, mi objetivo no es un gris (plano) y el color (tendencia) difieren con una precisión del 90%, azul y rojo para mayor claridad, no uso la dirección, tomo el indicador verde como un valor absoluto.

 
Maxim Dmitrievsky:

Lo probaré con mis datos en cuanto aprenda a guardar las matrices en mql de forma normal en un archivo (eso es un coñazo))

crear una matriz de estructuras, escribir una matriz en cada estructura y restablecerla de una vez utilizandoFileWriteArray()

Документация по MQL5: Файловые операции / FileWriteArray
Документация по MQL5: Файловые операции / FileWriteArray
  • www.mql5.com
//|                                          Demo_FileWriteArray.mq5 | //|                        Copyright 2013, MetaQuotes Software Corp. | //|                                              https://www.mql5.com | //| Структура для хранения данных о ценах                            |...
 
elibrarius:
No es grande, explicó en números pequeños por 10: 8:2 vs 6:4. Pero tenemos muchos datos.


¿Cuántas muestras pueden considerarse representativas de BP? Normalmente no uso menos de 10000, la clase pequeña debe tener al menos 1000

En el caso de los árboles, existe un maravilloso gráfico del error en función del número de árboles.

Por lo tanto, para los centinelas, el número de árboles superior a 100 no reduce el error.

El gráfico tiene este aspecto:



Puede tomar diferentes tamaños de archivo y obtener la respuesta a su pregunta.

Pero esto no es todo.

Para rf hay otro parámetro "Tamaño de la muestra". Con él se puede nivelar la diferencia de clase. De todos modos, este parámetro influye mucho en el tamaño del error.

Por ejemplo.

Para un tamaño de muestra = 1000, 500 con un tamaño de archivo de 7500 líneas parece deprimente. Pero es a primera vista y no necesariamente deprimente. Supongamos que la clase "0" es larga y la clase "1" está "fuera de mercado" . El error de "fuera de mercado" es superior a 0,5, lo que significa que la compra se hace desde cero. Si cambiamos de lugar, significaría que "fuera de mercado" es gratis, pero el error "largo" es muy pequeño.



Y el mismo archivo con Tamaño de muestra = 1000, 1000 se ve muy decente.

 
Igor Makanu:

crear una matriz de estructuras y escribir una matriz en cada estructura, si es necesario, y restablecerla de una vez utilizando FileWriteArray()

No sé el número de columnas de antemano... y ¿las matrices de estructuras con matrices dinámicas dentro no se escriben en archivos? ) Esto es una especie de lío...

Sólo necesito guardar un array 2-d, cuyo número de columnas se desconoce de antemano

 
Maxim Dmitrievsky:

de la misma manera que los conjuntos de redes neuronales se construyen en base al bagging y se obtiene lo mismo que un bosque

hay que entender que un bosque es sólo un caso especial de backgammon, en lugar de árboles se puede poner cualquier cosa, cualquier modelo débil. Un solo árbol es un modelo elemental que no puede suprimir nada

el bosque "más o menos" no se reconduce debido al muestreo aleatorio, pero de hecho se reconduce muy fácilmente y sin pretensiones

ambos necesitan ser regularizados, ya sea a través de Decay (paso de gradiente), parada temprana, o a través del parámetro r del bosque, o preprocesamiento, pero todas estas mejoras suelen estar dentro del 5-10%. Con datos malos, ambos modelos funcionarán igual de mal

sobre la potenciación (extrema, no GBM) dicen que no es reentrenar mucho, deberías mirarlo, no puedo decir nada

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Todo es más o menos lo mismo: rf, xgboost, SVM, GLM, nnet.

En algunos sitios un modelo es mejor que otro, en otros peor - todas las unidades de porcentaje.

La impresión es que el error del modelo es, en realidad, el error de la pareja de variables predictoras y objetivo. Hay un cierto límite más allá del cual no se puede ir con ningún truco sino que se puede destruir fácilmente, se puede perder un par prometedor.