Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2037

 
Rorschach:

La última columna es el objetivo, el resto es la entrada

En general, corté la muestra en 3 partes 60% - entrenamiento y 20 control de entrenamiento y muestra no involucrada en el entrenamiento.

La memoria come mucho - 18 gigabytes - estoy sorprendido. ¿Cuánta memoria tienes?

Comencé el proceso de aprendizaje con la configuración casi por defecto, pero veo que la muestra de entrenamiento está mejorando rápidamente, mientras que la muestra de control no muestra ninguna mejora después del primer árbol.

Así que la pregunta es: ¿estás seguro de que el patrón está ahí?

Hay una sugerencia de que las clases no están bien equilibradas en absoluto, parece ser un porcentaje de unidades alrededor del 10%?

 
Igor Makanu:

¿Entonces no podemos formalizar el concepto de CT?

¿Parece que TC es inspiración? ¿O que toca un instrumento musical?

En cuanto consigamos formalizarlo y escribirlo en un lenguaje, algún listo inventará un compilador para ese lenguaje, y los comerciantes desaparecerán en el olvido)

Igor Makanu:

O volvamos a nuestro ... - Resulta que la ST es principalmente el análisis de la información del mercado y la toma de decisiones

Si no entiendes lo que significan las palabras anteriores y comprendes que por esta razón los resultados del análisis de la misma información pueden no ser los mismos para diferentes personas y que sólo el futuro puede mostrar quién tiene razón)

 
dr.mr.mom:

¿Por qué este pesimismo global? ))) He estado "observando" cómo se entrenan incluso antes de todos los paquetes modernos de NeuroShell Day Pro. Y aún así obtuve resultados robustos que no sé cómo funciona internamente y fue difícil, casi imposible de agregar a MT4.

Estoy de acuerdo en que sería deseable atornillar la GPU.

La cuestión es qué tipo de NS son y en qué paradigma se han construido/aprendido, las mías están evolucionando.

Sí, la primera variante robusta se puede entrenar incluso durante un día (aunque en la práctica en un antiguo portátil doméstico se tarda 8 horas). Pero volver a la necesidad de una mayor evolución de la primera variante a costa de su robustez será necesario dentro de un mes. Es decir, incluso con diez herramientas de trabajo en la vida real de antemano habrá una nueva variante.

En cuanto a la arquitectura, tomamos el algoritmo NEAT como base y añadimos nuestras propias características. A la salida, la arquitectura evolucionará, incluida la arquitectura.

Así que es así.

Y al mismo tiempo recomiendo leer libros/conferencias sobre microbiología, etc.

Y en las disputas desgraciadamente uno es un tonto (argumentando sin conocimiento), el otro es un cabrón (argumentando con conocimiento), prefiero un intercambio de opiniones con argumentos/razonamientos.

Al fin y al cabo, lo principal es impactar, al diablo, vamos))

Nada que discutir, porque en cualquier marco normal hizo y mostró, con un mínimo de código

aquí no se discuten especialmente los homebrews, sólo los modelos maduros como el catbust o las redes neuronales de hoy en día

Este jaleo de los ratones con las redes neuronales mql ni siquiera es interesante de discutir, porque el mundo va muy por delante, y cada año duplica la distancia.

Supongamos que me dices: "Tengo tal y tal modelo en tensorflow"... Yo digo "bien, puedo hacer el mismo modelo en una Antorcha durante 5 minutos y comprobarlo. Y me dices que has construido algo en mql. ¿Para qué necesito esa información? ¿Cómo puedo recrearla?

 
Aleksey Vyazmikin:

En general, corté la muestra en 3 partes 60% - formación y 20 de control de la formación y una muestra que no participan en la formación.

Come mucha memoria, 18 gigabytes, me sorprende. ¿Cuánta memoria tienes?

Comencé el proceso de aprendizaje con la configuración casi por defecto, pero veo que la muestra de entrenamiento mejora rápidamente, mientras que la muestra de control no mejora después del primer árbol.

Así que la pregunta es: ¿estás seguro de que existe un patrón?

Hay una sugerencia de que las clases no están bien equilibradas en absoluto, parece ser un porcentaje de unidades alrededor del 10%?

Los sistemas arbóreos no necesitan el equilibrio de clases en una muestra grande. Las redes neuronales se atascan por el desequilibrio, y los árboles lo reparten todo claramente en las hojas.
Esa es una de las razones por las que me cambié a los árboles.

https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Aleksey Nikolayev:

Bueno, sí, sólo que dándose cuenta de que es imposible formalizar claramente y sin ambigüedades lo que significan estas palabras) y dándose cuenta de que por esta razón los resultados del análisis de la misma información pueden variar mucho de una persona a otra y que sólo el futuro puede mostrar quién tenía razón)

con el análisis de la información del mercado, en general, no hay problema... excepto por la codicia del investigador que piensa que el mercado le da información sólo a él y necesita procesar todos los datos, es decir, aquí la tarea se formaliza como buscar un patrón que se repite, los demás datos deben ser descartados (no utilizados)

Con la decisión es triste - para generar TS que pasará la prueba y hacia adelante es posible, pero para encontrar vínculos entre las estadísticas de probador de la estrategia y la vida útil de la TS o la posibilidad de determinar el cumplimiento de la TS con el contexto del mercado - ese es el problema

es decir, como usted escribe el problema está en el futuro


Creo que en general hemos avanzado un poco en la formalización del problema,

en principio no es difícil hacer una descarga de estadísticas de prueba e intentar entrenar NS en Python,

La determinación del contexto del mercado, imho, como usted escribió - sólo una decisión del comerciante, es decir, dudo que es posible formalizar o algoritmo o investigar

 
elibrarius:
Los sistemas de árbol no parecen necesitar el equilibrio de clases. Las redes neuronales se atascan por el desequilibrio, mientras que los árboles lo reparten todo claramente entre las hojas.
Esa es una de las razones por las que me cambié a los árboles.

Se requiereCatBoost, pero tiene su propio equilibrador, pero aparentemente no puede hacer frente.

Generalmente si hay un fuerte desequilibrio entonces el aprendizaje irá, pero estadísticamente con más ceros en las hojas sólo habrá ceros, es decir, si hay pocas reglas claras para sacar una clase pequeña entonces podría funcionar, de lo contrario se extenderá por todas las hojas.

 
Aleksey Vyazmikin:

Se requiere CatBoost, pero tiene su propio equilibrador, pero aparentemente falla.

Generalmente si hay un fuerte desequilibrio entonces el aprendizaje irá, pero estadísticamente con más ceros en las hojas sólo habrá ceros, es decir, si hay pocas reglas claras para tirar de una clase pequeña entonces puede funcionar, de lo contrario se extenderá por todas las hojas.

O, como siempre, casi no hay patrones en los datos.

Aleksey Vyazmikin:

Por lo general, si hay un fuerte desequilibrio, el aprendizaje irá, pero estadísticamente con más ceros en las hojas sólo habrá ceros, es decir, si hay pocas reglas claras para sacar una clase pequeña, entonces puede funcionar, de lo contrario se extenderá por todas las hojas.

La regla general es clara: tomar la división que hace las hojas más limpias de las impurezas de la otra clase.

He añadido un enlace a un blog, con una muestra grande habrá algo para formar hojas con clase pequeña, además se puede usar la raíz del índice de Gini (pero no he encontrado su fórmula).

 
Aleksey Vyazmikin:

Creo que para una cantidad tan grande de datos deberías hacer los árboles más profundos, para poder limpiar mejor las hojas.
Si tienes 10 mil ejemplos en una hoja, por supuesto, se manchará, pero si lo divides en 100, creo que será más claro.

El bosque de algas es de hasta 1 ejemplo por hoja, la separación es del 100%. Sólo quedarán 0 o 1 en las hojas.
 
elibrarius:
Aleksey Vyazmikin:

O como siempre no hay casi ningún patrón en los datos.

La regla general es clara: tomar la división que hace que las hojas estén más limpias de impurezas de otra clase.

He añadido un enlace al blog, con una muestra grande habrá algo para formar hojas con una clase pequeña, además se puede usar la raíz del índice de Gini (solo que no he encontrado la fórmula).

Por lo tanto, tiene pocos predictores - pequeña dimensionalidad, por lo que las opciones de combinaciones de árboles también son pequeñas.

Tomé una muestra del 1% - allí en la prueba hay un 100% de aprendizaje - sólo que no creo que haya un patrón pronunciado.

Además, CatBoost toma predictores de forma un tanto aleatoria para construir - por lo que reduce el ajuste, según su comprensión.

elibrarius:

Creo que para una cantidad tan grande de datos hay que hacer los árboles más profundos, para que las hojas se limpien mejor.
Si te quedas con 10k ejemplos en una hoja, por supuesto que se emborronará, pero si llevas la separación a 100, creo que ya estará más claro.

El árbol tiene 6 de profundidad, y creo que necesitamos más profundidad si tenemos más predictores.

He hecho una cuadrícula de 256.

 
Aleksey Vyazmikin:

El árbol tiene 6 de profundidad y creo que se necesita profundidad con más predictores.

La cuadrícula es de 256.

Cuantas más filas, más profundidad se necesita.
Si hay gigabytes, significa millones de filas. Con una profundidad de 6, la hoja final será 1/64 del número total de ejemplos/filas, es decir, decenas de miles si hay millones de entradas.

Pruebe con una profundidad de 15 (esto parece ser un máximo, la hoja de trabajo final contendrá 1/32768ª parte de las líneas).