Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 188
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Se ha publicado la nueva versión de jPrediction 11
Se ha corregido un pequeño fallo (la coma en el CSV no se sustituía por un punto para los números). Algoritmo mejorado de selección de predictores significativos para los modelos.
Puedes descargarlo de mi sitio web (indicado en mi perfil), primer puesto de la página principal.
Y también quería escribir sobre la selección de predictores...
Aparte del experimento principal, también estoy haciendo un poco de análisis sobre un activo bursátil.
Hay volúmenes normales allí, que también he añadido a las características.
A continuación, apliqué el modelo lineal habitual (regresión OLS) [Objetivo ~ Predictor] a cada predictor por separado para los diferentes resultados (de los cuales hay 11).
Modelos f-stat calculados. Tengo una imagen como esta:
Y aquí hay una sorpresa: todos los bloques de predictores relacionados con los volúmenes resultaron ser innecesarios. Y tampoco necesitábamos predictores basados en la autocorrelación de los incrementos de precios.
También está claro que cuanto mayor es el retraso de la variable de salida, peor es la significación.
A continuación, he eliminado todo el ruido mediante F crítico (al nivel 0,01).
Resultó así:
Esto es sin tener en cuenta las posibles interacciones, por desgracia...
Pero para algunos insumos la importancia del modelo lineal no es mala.
Intento no analizar la importancia de los predictores uno por uno. Había un buen ejemplo en este hilo:
Hay dos predictores, con losque es muy fácil trabajar visualmente analizando dos a la vez, se puede ver que el segundo objetivo forma clusters claros que pueden ser encontrados por los modelos. Si se utilizan estos predictores uno por uno, cada uno de ellos será inútil en la predicción.
La imagen es puramente hipotética. Pero en lo que respecta a Forex puedo juzgar por una serie de señales que los buenos predictores de alguna manera forman grupos similares allí, sólo que necesito 30 predictores en lugar de 2....
Anteriormente, en la versión 10 ocurría que jPrediction usando más entradas no aumentaba la capacidad de generalización, y tenía que volver a entrenar, pero ahora, con más predictores en el modelo, la capacidad de generalización del modelo en general aumenta, y el trabajo de dichos modelos dura más y mejor...
Gracias por los comentarios.
Probando la versión 11 en las muestras que tengo, llegué a una conclusión similar. Era necesario confirmar esta hipotética conclusión con una investigación independiente (reproducción del experimento). Al fin y al cabo, cada uno tiene objetivos diferentes. Por lo tanto, existía el riesgo potencial de que para algunos problemas el clasificador diera resultados opuestos. Además, el tiempo de selección de los predictores significativos en la nueva versión aumentó considerablemente y no todo el mundo estaba contento con ello.
En cuanto al tiempo de entrenamiento del modelo, se puede reducir potencialmente sin empeorar la calidad (generalizabilidad), ya es una cuestión de técnica. Lo principal es recibir comentarios constructivos a tiempo para entender: ¿vale la pena mejorar jPrediction en esta dirección, o la dirección era errónea y debería retroceder? De lo contrario, habríamos tenido que perder tiempo y esfuerzo en características inútiles.
...
Obtengo un 92,3%(oos) en los datos que utilizo.
...
Mi más sincera enhorabuena. (Si no está mintiendo).
Y lamenta que esté por ahí y no sea de dominio público.
Discutir lo que es de dominio público no tiene sentido, ya que es imposible probar o refutar sus "afirmaciones" sobre jPrediction.
Acabo de encontrar un artículo sobre un tema que me parece especialmente interesante para los amantes de la NS.
Lo que me pareció interesante fue el final del artículo, que compara el error de prediccióndentro de la muestra y el error de predicciónfuera de la muestra: lo hace a través de la correlación de estos errores. En mi terminología esto significa que si la correlación es alta (en el artículo 0,8), entonces el modelo no está sobreentrenado.
Intento no analizar la importancia de los predictores uno por uno. Había un buen ejemplo en este hilo:
Hay dos predictores, con losque es muy fácil trabajar visualmente analizando dos a la vez, se puede ver que el segundo objetivo forma claros clusters que pueden ser encontrados por los modelos. Si se utilizan estos predictores uno por uno, cada uno de ellos será inútil en la predicción.
La imagen es puramente hipotética. Pero en lo que respecta a Forex, puedo juzgar por una serie de señales que los buenos predictores allí de alguna manera forman grupos similares, sólo que no necesito 2, sino 30 predictores.En general, todo esto es cierto. Existe una información adicional sobre las interacciones que supera la suma de la información de los insumos marginales.
Árboles de decisión, mendicidad y refuerzo de las interacciones del modelo fácilmente. Es decir, sin ningún esfuerzo adicional por parte del usuario. Los modelos lineales presentan muchos problemas. La regresión OLS tiene en cuenta el orden de aparición de los predictores... La adición alternante de predictores funciona en principio, pero la avaricia hace que el modelo sea desigual. Lo mismo ocurre con los bosques y los árboles.
Pero yo sería cauteloso a la hora de incluir docenas de predictores. ¿Te imaginas interactuando con 30 variables? Para un árbol sería una profundidad de al menos 30. Se necesita una gran cantidad de datos para simularlo sin un reentrenamiento salvaje...
En la práctica, la profundidad de la interacción de 3-5 ya es suficiente.
En general, todo esto es cierto. En las interacciones hay una informatividad adicional que supera la suma de la información de los insumos marginales.
Árboles de decisión, mendicidad y refuerzo de las interacciones del modelo fácilmente. Es decir, sin ningún esfuerzo adicional por parte del usuario. Los modelos lineales presentan muchos problemas. La regresión OLS tiene en cuenta el orden de aparición de los predictores... La adición alternante de predictores funciona en principio, pero la avaricia hace que el modelo sea desigual. Lo mismo ocurre con los bosques y los árboles.
Pero yo sería cauteloso a la hora de incluir docenas de predictores. ¿Te imaginas interactuando con 30 variables? Para un árbol sería una profundidad de al menos 30. Se necesita una gran cantidad de datos para simularlo sin un reentrenamiento salvaje...
En la práctica, la profundidad de la interacción de 3-5 ya es suficiente.
Para mí, la interacción de los predictores es algo muy dudoso. Hay muchos problemas allí.....
Y si también hay interacción en OLS, es simplemente impensable. Si coges y en un papel escribes cuidadosamente todas las condiciones en las que se puede aplicar la MCO. Y luego comparar todo lo que está escrito en el papel con la realidad en las series temporales financieras.
PS.
Si se toma casi cualquier libro sobre minería de datos, se describen necesariamente los procedimientos para eliminar los predictores correlacionados.
Si se toma casi cualquier libro sobre minería de datos, se describen necesariamente los procedimientos para eliminar los predictores correlacionados.