Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2412
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Alexei, deberías aprender python o r-core, intentar construir algo allí... Créeme, mil preguntas desaparecerían...
Qué buen deseo, y sería útil aprender un par de lenguas extranjeras, y dominar todas las demás competencias, que no dependerían de otras personas. Sin embargo, no tengo talento para todo, y me doy cuenta de que no conseguiré grandes resultados en la codificación, y se gastará demasiado esfuerzo.
¿Qué sentido tiene comprobar la eficacia de los métodos de selección de rasgos si ya están probados y funcionan?
La cuestión aquí era más bien la eficacia del método, es decir, en qué medida puede mejorar finalmente el resultado en comparación con la muestra de alimentación sin excluir los predictores. Es decir, el experimento real.
El problema no está en el rechazo de los rasgos, está en los propios rasgos, si alimentas 10 indicadores, luego seleccionas hasta la saciedad y obtendrás el mismo resultado de CUALQUIER algoritmo de selección...
Ahora mismo tengo unos 5 predictores, por eso es interesante este enfoque.
¿Oíste en el vídeo? Están seleccionando entre decenas de miles de características, e incluso mencionan el MSUA donde hablan de crear y enumerar miles de millones de características
De eso es de lo que deberíamos hablar, de sistemas que generan millones de ideas y las comprueban automáticamente, esa es la esencia, esas son las decisiones individuales, y la selección de rasgos es la pequeña parte final del proceso y no hay nada interesante en ella, coges cualquier algoritmo y adelante, no hay nada que hablar, no es interesante.
Sólo estoy trabajando con un gran número de características, y desarrollando métodos para generarlas a partir de un patrón. El proceso de binarización de los rasgos, posiblemente con el mantenimiento de diferentes indicadores dentro del nuevo predictor, lo que haría 50000 rasgos de 5000, y necesitan ser investigados para las relaciones mutuas para crear nuevos rasgos saturados a partir de los cuales ya se construirá el modelo.
En definitiva, no sé por qué una visión tan primitiva de mi actividad...
De todos modos, no sé por qué tienes una visión tan primitiva de mi actuación...
Alexei, cómo no puedes entender que todos tus 5k atributos binarios pueden ser sustituidos por 2-3 -componentes principales, es decir, 2-3 atributos y todo)) pero tienes que hacerlo para saber...
¿De dónde sacas esas conclusiones sobre mi comprensión o no? El tema de la MGUA no lo he tocado porque no hay experiencia real de su aplicación. ¿Estás listo para reducir mis señales a 2-3? Me interesaría verlo y compararlo con mi enfoque. Como ya tienes todo afilado para ello, no creo que sea un problema, ¿verdad?
Lo he puesto en práctica durante mucho tiempo, sacando hojas de los modelos - son un componente saturado para los modelos más globales.
Mucho de lo que he ideado tiene otros nombres y está implementado para uso general, pero cuando se hace todo desde cero, hay una comprensión subyacente de cómo y por qué funciona, no sólo la teoría.
Tengo que hacer cosas - ya tengo suficientes pensamientos para comprobar, necesito codificar y verificar.
¿Fan de la película Matrix?
He estado pensando en cómo mejorar el método de selección de predictores/atributos/características mediante el análisis del modelo resultante.
Tengo algunas ideas para la implementación del algoritmo, pero decidí compartirlas con la respetada comunidad, tal vez habrá algunas críticas constructivas o adiciones/refinamientos al algoritmo antes de comenzar a trabajar en la implementación de este algoritmo. Es interesante pensar que nada funcionará con la justificación.
Selección de predictores por frecuencia de uso (importancia de las características) al crear un modelo CatBoost
.
La idea es que cada algoritmo tiene sus propias peculiaridades de construcción de árboles y seleccionaremos aquellos predictores que sean más utilizados por el algoritmo, en este caso CatBoost.
Sin embargo, para estimar la uniformidad en la escala temporal, utilizaremos múltiples muestras y agregaremos sus datos en una sola tabla. Este enfoque eliminará los eventos aleatorios que tienen una fuerte influencia en la elección del predictor en uno de los modelos. Las regularidades sobre las que se construye el modelo deben darse en toda la muestra, lo que puede facilitar la clasificación correcta en los nuevos datos. Esta característica es aplicable a los datos del mercado, es decir, a los datos sin integridad, incluida la ciclicidad oculta, es decir, no temporal, sino basada en eventos. Al hacerlo, es conveniente penalizar los predictores que no se encuentren en el 30%-50% superior en uno de los gráficos, lo que permitirá seleccionar los predictores que se demandan con mayor frecuencia en los modelos de los distintos horizontes temporales.
Además, para reducir el factor de aleatoriedad deberíamos utilizar modelos con diferentes valores de Seed, creo que debería haber de 25 a 100 modelos de este tipo. Si el coeficiente debe añadirse en función de la calidad del modelo obtenido o simplemente para promediar todos los resultados por predictores, aún no lo sé, pero creo que deberíamos empezar con la simple, es decir, sólo para promediar.
La cuestión de la utilización de una tabla de cuantificación es importante, puede ser crucial en la selección de los predictores. Si la tabla no es fija, cada modelo creará su propia tabla para la submuestra, lo que imposibilita la comparación de los resultados, por lo que la tabla debe ser común a todas las muestras.
Es posible obtener una tabla de cuantificación:
Puedes conectar los valores de shap a bootstrap y ver la interacción de las características en la salida sobre cualquier dato, es para los que les gusta indagar en la ropa interior, como Alexey :)
La cuestión de las métricas está abierta, hay diferentes variantes - deberíamos probar, cuál es mejor - impacto en el modelo, número de divisiones, número de ejemplos correctos después de la división - las métricas son diferentes. La cuestión está en la corrección de su uso para la tarea en cuestión. Por cierto, que yo recuerdelos valores de shap no se podían utilizar en las primeras construcciones para la línea de comandos, pero de esta manera se puede hacer un script para la visualización.
Por supuesto, si se analizan cientos de signos sin sentido, cualquier esfuerzo de este tipo está condenado. Es una tarea sencilla, y es poco probable que alguien lo haga gratis, ya que es una increíble pérdida de tiempo con un resultado conocido.
Por qué el pesimismo: la cuestión es precisamente generar un conjunto de atributos, en teoría adecuados para cualquier objetivo/estrategia básica y seleccionar el mejor de ellos para un objetivo concreto.
¿Dudas sobre el aumento de la calidad de la clasificación tras la manipulación?Por qué el pesimismo: la cuestión es precisamente generar un conjunto de atributos, en teoría adecuados para cualquier objetivo/estrategia básica y seleccionar el mejor de ellos para un objetivo concreto.
¿Dudas de la ganancia de calidad en la clasificación tras la manipulación?