Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2742

 
Maxim Dmitrievsky #:
Una vez más este bocazas obtuso llama a todo el mundo a la verdad, pero aún no ha decidido cuál

Ya has aburrido tanto al moderador que lo está destrozando todo.

No leas el post provocador del usuario JeeyCi (su post es una provocación y exigencia de "continuar el banquete").
Ayer borré varios posts con palabrotas y groserías con ataques personales, guiado por esto - he borrado los posts
de JeeyCi .

Hice dos advertencias en el hilo, fueron ignoradas, y luego borré varios posts con palabrotas.
El único post literario allí (que era legible en absoluto) fue tu post - este (que comenzó todo ayer):

Foro sobre trading, sistemas automatizados de trading y prueba de estrategias de trading

...

Maxim Dmitrievsky, 2022.09.10 12:15

Hay modelo basado, agnóstico modelo y la selección de características mixtas. Si se toma agnóstica, es la correlación y la información mutua (basada en la entropía). Esta última difiere de la primera en su capacidad para capturar dependencias no lineales, por lo demás es lo mismo. En este caso es difícil hablar de relación entre característica y objetivo, incluso imposible. Es sólo una correlación. Pero es útil para deshacerse de rasgos poco informativos.

Puedes hacerlo en una ventana deslizante, o en una ventana elusiva, o en una ventana deslizante, o en una ventana frotante

Si quieres determinar causalidad específicamente, eso es inferencia causal, incluso usando MO, que no sé cómo aplicar a una serie temporal, no he estudiado el tema.

Y todos los métodos anteriores no sirven para encontrar causalidad, sino sólo para el entrenamiento óptimo de algoritmos.

Así que una vez más los ciudadanos no pueden concentrarse y quitarse las moscas de las chuletas.

Sobre la gran y omnipotente R ya hemos oído hablar muchas veces. Obviamente, si le pones un mono detrás, también puede considerarse estadístico y analista, tan grande es.

Sí, de vez en cuando borro palabrotas, sobre todo si duran medio día y dos páginas de texto por ejemplo (como ayer).

----------------

Este hilo es muy popular (incluso se lee en el foro de habla inglesa y se considera el hilo clave sobre este tema).
Así que, por favor, menos palabrotas.

 
mytarmailS #:

Si analizas la TS de los traders más o menos exitosos, verás que todos ellos operan niveles.

No he visto ni un solo trader de éxito que opere con la ayuda de indicadores.

Un nivel es un punto de entrada claro y comprensible con un stop.... claro.

Si puedes operar con bajo riesgo, no necesitas nada más, ¡bajo riesgo por operación/entrada precisa es lo más importante!

Con la ayuda de MO puedes buscar niveles de PD/SP esas entradas exactas, no es trivial, no es sencillo, no puedes leer sobre ello en blogs sobre MO aquí necesitas usar tu propia cabeza....

También puedes dibujar niveles en el gráfico de sb y también es una serie temporal. Ya esta todo el mundo harto de ti, no te respondemos más. Dices tonterías día sí y día también.
 
mytarmailS #:

He aquí un ejemplo sobre una muestra generada aleatoriamente de 5 rasgos y 1 objetivo binario

selector forrest y fiche

La cola de tareas se ha descargado un poco - se hizo posible ejecutar el script. Lo ejecuto y obtengo un error.

> install.packages("randomForest")
Warning in install.packages :
  unable to access index for repository https://cran.rstudio.com/src/contrib:
  cannot open URL 'https://cran.rstudio.com/src/contrib/PACKAGES'
Installing package into ‘C:/Users/S_V_A/Documents/R/win-library/4.0’
(as ‘lib’ is unspecified)
Warning in install.packages :
  unable to access index for repository https://cran.rstudio.com/src/contrib:
  cannot open URL 'https://cran.rstudio.com/src/contrib/PACKAGES'
Warning in install.packages :
  package ‘randomForest’ is not available (for R version 4.0.5)
Warning in install.packages :
  unable to access index for repository https://cran.rstudio.com/bin/windows/contrib/4.0:
  cannot open URL 'https://cran.rstudio.com/bin/windows/contrib/4.0/PACKAGES'

> library(randomForest)
Error in library(randomForest) : нет пакета под названием ‘randomForest’

¿Entiendo bien que el programa quiere una versión antigua de R 4.0?

Bueno, he buscado una versión antigua y no la he encontrado. Terrible incompatibilidad es repulsivo, por supuesto.

 
Aleksey Vyazmikin #:

La cola de tareas se ha descargado un poco - se hizo posible ejecutar el script. Lo ejecuto y obtengo un error.

¿Entiendo correctamente que el programa quiere la versión antigua R 4.0?

Yo tengo R-3.6.3.

Estoy escribiendo esto en el viejo R-3 .6. 3 por mis propias razones, así que es mi problema...

No podía imaginar que el paquete se eliminaría del tap....

Aleksey Vyazmikin #:

¿Entiendo bien que el programa quiere la versión antigua de R 4.0?

correctamente

Aleksey Vyazmikin #:

Bueno, en general he buscado la versión antigua y no laencontré. Terrible incompatibilidad es repulsivo, por supuesto.

Escucha, tal vez usted no puede entrar en el comercio, con tal smikalka ??? ))

Con la compatibilidad no todo está bien, python, por ejemplo, sólo envidia tal compatibilidad....


Véase también

https://stackoverflow.com/questions/62541885/package-randomforest-is-not-available-for-r-version-4-0-2

Pruébelo en la versión actual

urlPackage <- "https://cran.r-project.org/src/contrib/Archive/randomForest/randomForest_4.6-12.tar.gz"
install.packages(urlPackage, repos=NULL, type="source") 

 
Para resumir la teoría de Sanych (ya que él mismo no la formalizó correctamente ni dio ejemplos):

*su forma de selección de rasgos se basa en la correlación, ya que "relación" y "conexión" son definiciones de correlación.

*de esta manera hacemos un ajuste implícito a la historia, similar en significado a LDA (análisis discriminante lineal) o PCA, simplificamos el proceso de aprendizaje, reducimos el error.

*Ni siquiera existe la teoría de que el modelo entrenado debería funcionar mejor con datos nuevos (no implicados en la estimación de los vínculos entre rasgos y objetivos), porque los rasgos se han ajustado al rasgo o (peor) a la historia disponible.

*La situación mejora algo promediando el CC en una ventana deslizante, como si se pudiera estimar la dispersión y seleccionar los más estables. Al menos tenemos algunas estadísticas en las que basarnos.

*Estaba pensando en causalidad o una relación estadísticamente significativa, pero ese no es el caso en su enfoque.
 
Maxim Dmitrievsky #:
Para resumir la teoría de Sanych (ya que él mismo no la formalizó adecuadamente ni dio ejemplos):

*su forma de selección de rasgos se basa en la correlación, ya que "relación" y "parentesco" son definiciones de correlación.

*De esta manera hacemos un ajuste implícito a la historia, similar en significado a LDA (análisis discriminante lineal) o PCA, simplificamos el proceso de aprendizaje, reducimos el error.

*Ni siquiera existe la teoría de que el modelo entrenado debería funcionar mejor con datos nuevos (no implicados en la estimación de las relaciones rasgo-objetivo) porque los rasgos se ajustaron previamente al rasgo o (peor) a toda la historia disponible.

*Con relación me refería a causalidad o a una relación estadísticamente significativa, pero ese no es el caso en su enfoque.

Con todos mis respetos, pero esto no es un resumen (ni un compendio ni un sumario). Está lleno de actitudes personales y ataques infundados.

uno pensaría que alguien tendría una teoría válida en la que "un modelo entrenado debería funcionar con datos nuevos" :-) y validada..sip.

 
Maxim Kuznetsov #:

Con todos mis respetos, pero esto no es un resumen (ni un compendio ni un sumario). Se trata de una actitud personal y de ataques infundados.

Uno pensaría que alguien tendría una teoría válida en la que "un modelo entrenado debería funcionar con datos nuevos" :-) y validada..sip.

Y si lees con atención, puedes ver la emboscada en el punto 2, es decir, el ajuste inicial a la historia. Por eso tiene una bajada de error de aprendizaje.

El punto 4 es un poco más optimista si no se hace sobre toda la historia disponible. Sólo debería hacerse para el muestreo traine, para la bondad del ajuste. Para obtener una estimación adecuada del modelo sobre nuevos datos.

No conozco a nadie que se dedique a la psicología, por lo que no sale en ningún sitio. Y no conozco a nadie personalmente.
 
СанСаныч Фоменко #:

No hay potencia suficiente para llegar al nivel EA. Pero el resultado del error de ajuste del modelo: del 8% al 22% es un error de ajuste que difiere poco en la sección de ajuste y fuera de la muestra.

Esto parece indicar que el ajuste a todo el historial se realizó antes del entrenamiento. Si no es así, por favor, corríjame. ¿En qué intervalo se estimaron/seleccionaron las características y en qué intervalo se realizó el entrenamiento?

Tengo un método similar, puedo compartir los resultados este fin de semana. Sólo si hay una comunicación sustantiva en lugar de un juego de palabras.
 
Maxim Dmitrievsky #:
se basa en la correlación porque "relación" y "parentesco" son definiciones de correlación.
Relación y parentesco son definiciones de correlación???? ¿En serio?

Los eslabones de una cadena alrededor de tu cuello están conectados, tienen una relación. ¿Eso es correlación?

Tengo una relación con una chica, ¿la relación entre nosotros es correlación?

¡La correlación es ante todo una medida! Estúpido.

 

además de Maxim Dimitrievski .

a eso me refiero:
para hacer clasificación, no hay que hacerlo sólo en dir arriba/abajo, sino primero al menos hacer un análisis de conglomerados para determinar cuántas clases asignar formalmente (cómo llamarlas es cuestión de gusto subjetivo)...
y sólo entonces determinar funciones discriminantes en base a las cuales asignar las muestras a tal o cual clase.... entonces la clasificación será con un porcentaje normal de precisión - cuando sabemos que las clases en las que dividimos realmente existen...
PCA es sólo una variante del análisis factorial para seleccionar características ortogonales, pero explica TODA la varianza, sin seleccionar los factores principales,
porque los componentes principales son sólo los datos brutos transformados en coeficientes de vectores propios ("loadings"), que, cuando se multiplican por los datos brutos, dan pc_scores... (algo así - lo recordaba hace tiempo - los componentes principales son sólo los datos brutos transformados en coeficientes de vectores propios ("loadings"), que, cuando se multiplican por los datos brutos, dan pc_scores... (algo así - hace tiempo que no recuerdo el algoritmo)
- pero al final PCA explica TODA la varianza, sin fs... En cambio, el análisis factorial principal utiliza "sólo la variación de la variable, común también a otras variables".... (no insisto en que este es el mejor fs -- pero hay matices en todas partes)
en general FS nadie puede hacer correctamente, y trata de culpar a la biblioteca...
PCA en combinacion con +/-3sq.cv. off -- puede ayudar a eliminar valores atípicos, pero esto es solo para distribuciones normales, ¡y aun tienes que probar que tu población gen. obedece la ley de distribución normal! - también estadísticamente... de lo contrario PCA mostrará "petróleo en Repin" (y no viceversa)...
== Veo una forma estadísticamente adecuada de construir un modelo aproximadamente como este....

===
y la librería ya es la décima cosa (aunque los moderadores llamen nombres sin entender de qué estamos hablando en DataScience normal - los perdedores siempre sueñan con un banquete y culpan a todo el mundo) -- mientras que los que realmente quieren entender, hace tiempo que se han dado cuenta de que no es el lenguaje del programador lo que importa, sino los algoritmos detrás de ciertas entidades, implementados incluso en una librería alienígena -- la esencia de las relaciones causa-efecto no cambia esto (el nombre de la librería).

p.d..

mientras los moderadores están en el banquete(, otros están trabajando - deberías tomar ejemplo de ellos - no difundas desinformación.