Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2757

 
JeeyCi #:

A falta de experimentos , se utiliza el 2º tipo (p. ej. US Food & Drugs Association - no probará una muestra representativa normal para sus conclusiones, por lo que se basa en enfoques bayesianos)... y sin información a priori, no hay nada que modelar en absoluto

¿Has mirado la propia lib? ¿Hay algo con lo que jugar? Le echaré un vistazo cuando termine.

Hay muchas librerías de este tipo, así que están muy solicitadas.
 

¿Alguien ha participado en el concurso Numerai? ¿Qué hay que hacer para ganar dinero allí?

¿Tienes que invertir tu propio dinero? No entiendo cuál es su modelo de pago.

 
Evgeni Gavrilovi #:

¿Alguien ha participado en el concurso Numerai? ¿Qué hay que hacer para ganar dinero allí?

¿Tienes que invertir tu propio dinero? No entiendo cuál es su modelo de pago.

Quizá esto te ayude.
 

No he mirado en la biblioteca, el artículo es repugnante - contradice el sentido común de la estadística ....

en inglés estándar fuentes - el significado del análisis de series temporales se reduce al cambio de política en el momento del tratamiento/intervención y al análisis del cambio de pendiente de la tendencia agregada (lo cual, supongo, puede interpretarse como un actor - que experimenta la influencia de la política y modifica su proceso de toma de decisiones en el momento del tratamiento - que es a lo que se dirige la investigación de marketing cuando evalúan el efecto de descuentos, rebajas, etc. promociones para averiguar si el precio no conviene a los clientes, o el producto en principio, o la ubicación del centro comercial, etc.)....д.)...

pero el mismo problema de siempre en la modelización: para evaluar el post-tratamiento, por supuesto, se necesita una muestra (¡!) para aproximar las conclusiones "ayudado-no ayudado-indiferente" (en términos de intervención)...

y en términos de contrafactual - es importante hacer la pregunta correcta para evaluar la dinámica de los cambios causados por un cambio de política (o alguna intervención) - para elegir la métrica, el objetivo y los parámetros (para sintonizar) - porque diferentes cuestionamientos pueden dar diferentes resultados (y diferente cambio de pendiente) - por lo tanto, diferentes conclusiones.

Me confunde el problema del desequilibrio en los datos reales de ML (que sesga las estimaciones) -- ¿alguien aquí lo resuelve con sobremuestreo/ submuestreo? -- No veo el sentido de distorsionar los datos reales de tal manera....

pero es necesario obtener una muestra representativa en la fase previa al tratamiento (distribución de probabilidad a priori), y la distribución posterior se obtiene en la fase posterior al tratamiento (por ejemplo, cambio de política)... aquí es donde es importante decidir su regla de parada, es decir, si aumentar la muestra para afinar los resultados o conformarse con el límite muestral elegido para extraer una conclusión, que probablemente será menos significativa estadísticamente que si aumentamos la muestra.... pero no es seguro que aumentar la muestra aumente la significación estadística de la media o la varianza.

= se trata de un problema de tamaño ... normalmente, si el efecto de la intervención es grande, puede observarse en una muestra pequeña....

el problema de los factores (FS) también persiste: al aumentar el número de factores considerados, reducimos el sesgo de las estimaciones, pero aumentamos la varianza ... tarea: encontrar factores significativos (como es habitual en el Análisis Exploratorio de Datos - por eso se llamaCiencia_de_datos, y no una estúpida aproximación de programador al azar) para obtener estimaciones insesgadas con baja varianza (el equilibrio de estos dos objetivos queda a discreción del desarrollador).

Vladimir ya ha dicho mucho sobre el problema de la selección de factores, si estamos modelando probabilidades para seleccionar una operación de alta probabilidad.

P.D..

la velocidad y la aceleración (si las hay) son siempre importantes en el análisis de series de tiempo, su comparación en el periodo pre-tratamiento y post-tratamiento da conclusiones (sobre el cambio de dirección incluido)...

la divergencia/convergencia y los extremos de los objetivos correctamente seleccionados también siguen siendo válidos... todo es como siempre - se trata del Diseño/Arquitectura de la red neuronal... y sólo se predicen tendencias y probabilidades de su desarrollo - nada más... y en el mercado para day traders todo cambia más rápido que en una tendencia a largo plazo (si se analiza por D1) - por lo que el factor tiempo también debe ser puesto en el modelo del robot para day trading.... en general, formalice su estilo de trading, para que no tenga que sentarse delante del monitor todo el tiempo. y, si lo desea, busque razones estadísticas para las entradas y salidas o para mantenerse fuera del mercado (incluso por la razón de la gestión de riesgos - cuando el mercado no está claro).

p.p.s

el tema se puede desarrollar infinitamente en términos de estudio de Modelos Causales Estructurales (qué depende de qué, como he señalado antes) - incluyendo la consideración de factores exógenos (influencia del exterior) y endógenos (por ejemplo, materias primas o moneda financiera, e incluso cambio de partido gobernante, supongo) .... en general, como de costumbre, se pueden examinar los datos para cualquier hipótesis y observar la aceptación o el rechazo de la hipótesis nula para un nivel de significación concreto de interés (aumentando el tamaño de la muestra para su [nivel de significación] posible mejora).

p.p.p.s

aunque a algunas personas no les gusta la palabra distribución probabilística - pero la esencia de la misma no cambia - las distribuciones siguen siendo probabilísticas, incluso si son condicionales (la condición da una razón para la clasificación) ... y Antes_del_tratamiento y Después_del_tratamiento (en un test A/B) pueden considerarse como un cambio de condiciones (política), pero es posible estimar la regresión o comparar la varianza (si ha cambiado), aunque la pendiente sea la misma.

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
  • www.mql5.com
Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.
 
Tengo la impresión de que todo esto está muy lejos del comercio
 
por eso te digo que primero decidas el algoritmo (incluyendo desequilibrios - no se que querías hacer con ellos ???)... y luego busques una lib que te permita cargar el código con las entidades/clases necesarias.... - cuando antes aconsejabas oversampling)... y luego buscar una lib que te permita cargar el código con las entidades/clases necesarias... o codificar tu propia librería con las clases necesarias... o codifica tu propia librería con las clases necesarias.
 
JeeyCi #:
por eso te digo que primero decidas el algoritmo (incluyendo desequilibrios - no se que querías hacer con ellos ???)... y luego busques una lib que te permita cargar el código con las entidades/clases necesarias.... - cuando antes aconsejabas oversampling)... y luego buscar una lib que te permita cargar el código con las entidades/clases necesarias... o codificar tu propia librería con las clases necesarias... o codifica tu propia librería con las clases necesarias.
El remuestreo se hace para eliminar valores atípicos, gaussianizar la muestra...

En general estaba sugiriendo un muestreo significativo por entropía o correlación. Para hacer las fichas más informativas. Además de tomar los incrementos y añadir el máximo de información a ellos de la serie original por todo tipo de transformaciones. Más una ventana de tartamudeo no fija. Es un enfoque frosh y nadie ha hecho esto. Pero he pillado una mierda de coronavirus y estoy descansando ☺️

Los infernales casuales deberían haber ayudado a elegir fichitas informativas como opción, pero resultó que ahí no se trataba de eso
 
JeeyCi #:
por eso te digo que primero decidas el algoritmo (incluyendo desequilibrios - no se que querías hacer con ellos ???)... y luego busques una lib que te permita cargar el código con las entidades/clases necesarias.... - cuando antes aconsejabas oversampling)... y luego buscar una lib que te permita cargar el código con las entidades/clases necesarias... o codificar tu propia librería con las clases necesarias... o codifica tu propia librería con las clases necesarias.

Todo lo que necesitas ha sido codificado antes que tú.

El caret shell de R contiene hasta 200(!) modelos, en su terminología (librerías) + todo el pipelining necesario para la minería de datos y la selección de modelos.

El problema está en la selección de predictores y su selección, no hay problemas en los modelos durante mucho tiempo.

 
Maxim Dmitrievsky #:
El remuestreo se realiza para eliminar los valores atípicos, suavizar la muestra

En general estaba sugiriendo un muestreo significativo por entropía buscar correlaciones. Para hacer las fichas más informativas. Además de tomar los incrementos y añadir en ellos la máxima información de la serie original por todo tipo de transformaciones. Más una ventana de tartamudeo no fija. Es un enfoque frosh y nadie ha hecho esto. Pero tengo una mierda de coronavirus y estoy descansando ☺️.

1. Remuestrear un valor atípico no lo elimina. Hay programas, y puedes hacerlo a la manera kolkhoz: cambia todo lo que sea mayor que +/- 0,005 del cuantil correspondiente a este valor. La estadística cambia notablemente.

2. Extremadamente interesante, especialmente sobre la entropía. Me gustaría ver el resultado . La correlación es para series estacionarias, podemos olvidarnos de ella.

 
Maxim Dmitrievsky #: Además de una ventana de tartamudeo no comprometida.

¿Qué es la ventana de tartamudeo no fija? ¿Diferente número de características/columnas en cada fila? Pero siempre debe introducir el mismo número de columnas en el modelo.