Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3090

 
Andrey Dik #:
Nadie estaba atacando a R. Retrocede unas páginas, refresca tu memoria.
Sanych me llamó agricultor colectivo a mí y a cualquiera que no se golpee la frente contra el altar de R.

Pido disculpas por lo de koljosiano, tal vez no sea del todo exacto.

Una vez más voy a tratar de explicar la diferencia entre el desarrollo profesional y el desarrollo de la aldea en el principio de "el primero en la aldea".

R no es sólo un lenguaje de programación, sino un medio para desarrollar tareas estrechamente especializadas: estadística, que incluye MO y algo más.

Los paquetes en R forman parte del lenguaje. Echemos un vistazo al paquete de distribución del lenguaje - ya hay varios paquetes básicos allí.

El conjunto de paquetes en R, que son más de 10 000 paquetes con más de 100 000 funciones, es un conjunto FUNCIONALMENTE COMPLETO para resolver problemas, por ejemplo, MO.

Permítanme explicar con el ejemplo de MO.

El sitio trata sobre todo de diferentes variantes de algoritmos de clasificación, especialmente variantes de NS. Las metacitas para python son particularmente reveladoras.

Desde el punto de vista de MO, el propio algoritmo de clasificación es una parte del problema, el 30%. Intenta encontrar el otro 70% en un pueblo llamado Python. Y es casi imposible encontrar otras variantes de modelos de clasificación, y hay hasta 200 (1) de ellos.

R tiene un excelente aparato de referencia que le permitirá encontrar lo que falta.

Si no sabes qué buscar, en una primera fase puedes coger Rattle para ver qué es un conjunto de herramientas para MO: análisis de datos primarios, transformación, selección de predictores, preparación de ficheros para pruebas, cálculo por modelo o modelos, evaluación de resultados con representación gráfica adecuada. Este es el nivel básico.

Si se le ha quedado pequeño Rattle, puede tomar el shell Caret, que cubre los problemas de MO al más alto nivel. Caret proporciona acceso a hasta 200 (!) paquetes que darán señales para operar. Estos paquetes pueden ser comparados, seleccionados, conjuntos de modelos se pueden hacer. Caret tiene todo lo que tenía Rattle, pero a un nivel más profesional.

Para todo lo que Caret tiene, R tiene análogos y un gran número de otras herramientas de apoyo. Todo esto representa UN PROPÓSITO.


Todo esto se llama un ENTORNO PROFESIONAL para trabajar en estadística y en IO en particular.

 
😂😂😂😂
 
Respuesta de Prado et al. a Maxim con su preferencia por tomar el OOS en un sitio temprano:
Página 7.

En cuarto lugar, incluso si el investigador trabaja con una muestra grande, el
análisis del OOS tendrá que cubrir una gran parte de la muestra para ser concluyente,
lo cual es perjudicial para el desarrollo de estrategias (véase Hawkins [15]). Si el OOS
se toma del final de la serie temporal, perdemos las observaciones
más recientes, que suelen ser las más representativas del futuro. Si el OOS
se toma del principio de la serie temporal, las pruebas se realizaron sobre
, posiblemente la parte menos representativa de los datos.
 
Forester #:
Hay una descripción de 30 páginas del método aquí https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2326253. Comencé a leer. Aparentemente, se basa en la validación cruzada, pero con sus propias peculiaridades - combinatoria-simétrica

Ya no quiero ni leerlo, estoy quemado.

Pero puedo escribir una síntesis automática de estrategias con comprobación del criterio de no entrenamiento....

Es decir, puedo crear estrategias que maximicen el criterio de no-entrenamiento.


Puedo sintetizar estrategias según este criterio, luego puedo probarlas con nuevos datos, si apestan o si vale la pena prestarles atención....


Lo probé -> obtuve el resultado -> lo deseché/aprendí.

Pero andar durante años con una idea como un "payaso casual" sin hacer nada y tirándosela a todo el mundo es un callejón sin salida.


¿Qué criterio hay para desaprender?

 
Forester #:
Respuesta de Prado et al. a Maxim con su preferencia por tomar el OOS en un sitio temprano:
Página 7.

En cuarto lugar, incluso si el investigador trabaja con una muestra grande, el
análisis del OOS tendrá que cubrir una gran parte de la muestra para ser concluyente,
lo cual es perjudicial para el desarrollo de estrategias (véase Hawkins [15]). Si el OOS
se toma del final de la serie temporal, perdemos las observaciones
más recientes, que suelen ser las más representativas del futuro. Si el OOS
se toma del principio de la serie temporal, las pruebas se hicieron sobre
, posiblemente la parte menos representa
tiva de los datos.
Creo que por eso se utiliza la validación cruzada, para que todas las secciones de los datos estén de una en una en el OOS
 
mytarmailS #:

¿Cuál es el criterio de no capacitado?

En la página 8 hasta ahora. Y esto es todavía una introducción)))
Parece que será una comparación por Sharpe (pero escriben que se puede utilizar cualquier otro indicador) en la validación cruzada.

 

Vaya, están llegando al Prado.

Ninguna de sus técnicas me funcionó).

 
Maxim Dmitrievsky #:

Vaya, están llegando al Prado.

Ninguna de sus técnicas me funcionó).

Tengo una parcela Embargo que trabajó en la validación cruzada. Es perjudicial y siempre debe ser eliminado. De lo contrario habrá un exceso de OOS.
Tal vez algo más ... No puedo recordar todo.
Pero no es un hecho que es su invención. Tal vez él acaba de volver a contar una idea útil
 
 
Forester #:

En la página 8 hasta ahora. Y esto es todavía una introducción)))
Parece que será una comparación por Sharpe (pero escriben que se puede utilizar cualquier otro indicador) en la validación cruzada.

Como yo lo entiendo, 4 parámetros deben ser optimizados allí

summary(my_pbo)
Performance function Omega with threshold 1

      p_bo      slope       ar^2     p_loss 
 0.3714286  1.6891000 -0.0140000  0.3430000 
  • p_bo ( probabilidad de sobreentrenamiento en backtest) debe estar cerca de 0, lo que indica un bajo riesgo de sobreentrenamiento.
  • slope ( coeficiente de pendiente de la regresión lineal) debe ser cercano a 1, lo que indica una fuerte relación lineal entre los valores de la métrica de rendimiento para los subconjuntos de entrenamiento y prueba.
  • ar^2 ( coeficiente de determinación ajustado) debe ser cercano a 1, lo que indica una buena precisión de la regresión lineal.
  • p_loss (la proporción de valores de la métrica de rendimiento para el subconjunto de prueba que están por debajo de un umbral determinado) debe estar cerca de 0, lo que indica que la mayoría de los valores de la métrica de rendimiento para el subconjunto de prueba están por encima de un umbral determinado.

Sin embargo, hay que tener en cuenta que estos valores pueden depender de la métrica de rendimiento seleccionada y del valor del umbral.


Necesidad de optimización multicriterios Pareto front-to-back multicriterios