Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 163

 
SanSanych Fomenko:

1) Si miras las primeras publicaciones del autor de los algoritmos randomforest, el autor era muy serio al afirmar que el rf no es propenso al sobreentrenamiento en absoluto y daba muchos ejemplos. El propio paquete randomforest está construido de manera que excluye la más mínima sospecha de sobreentrenamiento.

Al mismo tiempo, el algoritmo más sobreentrenado es randomforest. Me he quemado personalmente.


2) La gran mayoría de las publicaciones sobre aprendizaje automático no se prueban en ningún segundo archivo análogo. La razón es trivial. Los algoritmos NO se aplican a las series temporales. Y resulta que la división aleatoria del archivo número uno es suficiente. Y este es el caso, por ejemplo, del reconocimiento de textos manuscritos.

1) Tanto Forrest como GBM y cualquier otro método son reentrenados. Imperceptible en datos plegados y muy perceptible en datos con mucho ruido.

2) Hay, hay publicaciones que discuten la introducción de la validación cruzada anidada en muestras adicionales en un rango de tiempo diferente.

 
Alexey Burnakov:

2) Hay, hay publicaciones que discuten la introducción de la validación cruzada anidada en muestras adicionales en un rango de tiempo diferente.

Si no le importa un enlace
 
SanSanych Fomenko:
Si no le importa, enlace


Una de las discusiones: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Hay enlaces a artículos en los debates.

Un artículo interesante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Como se puede ver en el título, se trata del sobreentrenamiento, que ocurre en la fase de evaluación del modelo en las faltas de validación cruzada. Por consiguiente, además de la validación cruzada, también se necesita una muestra para evaluar un modelo ya seleccionado.

Nested cross validation for model selection
Nested cross validation for model selection
  • stats.stackexchange.com
How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...
 

Si krakto (ya se ha escrito sobre ello):

Un modelo seleccionado a través de la validación cruzada debe ser revalidado por otra muestra diferida.

Y la validación cruzada anidada implica construir n k-validaciones cruzadas (sobre datos diferentes) seguidas de la validación sobre n muestras retrasadas (cada vez sobre datos diferentes).

Y eso no es todo. Si se vuelve a seleccionar la capa superior de muestras diferidas, por ejemplo, un comité de modelos basado en los datos de estas muestras diferidas, entonces la validación del comité debe realizarse en una muestra diferida más.

Lo ideal es que este proceso:

k-fold кроссвалидация 

-------------------------------- повторилась n раз

------------------------------------------------------------- на полученных данных сформирован комитет

------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего 

debe repetirse no una, sino m veces, para INVERTIR los resultados en el nivel superior. Esto reduce el sesgo a un mínimo practicable.

Pero al hacerlo, el valor esperado de, por ejemplo, FS puede reducirse muchas veces... Dolor.

 
Alexey Burnakov:

introduciendo la validación cruzada anidada en muestras adicionales en un rango de tiempo diferente.

Yo también hago algo parecido. Digamos que tengo un año de datos para entrenar. Entrenaré 12 modelos: uno con los datos de enero, el segundo con los de febrero, el tercero con los de marzo, etc. Selecciono los predictores y los parámetros del modelo para obtener el buen rendimiento de cualquiera de estos modelos entrenados en una pequeña parte de los datos durante todo el año y me da cierta esperanza de que los predictores utilizados tengan relaciones estables entre ellos. Tomar una decisión sobre los nuevos datos utilizando todo este conjunto de modelos.

De todos los métodos de validación cruzada que he probado, éste fue el que dio los mejores resultados con los nuevos datos. Pero hay muchos problemas sin resolver: cuántos modelos debe haber, es decir, puedo entrenar cien en lugar de 12, pero ¿tiene sentido? La valoración del comercio también es importante, puedo elegir cualquier cosa, incluso rf o sharp, necesito experimentar para encontrar la mejor.

 
¿Quieres una pista, que voy a cubrir en detalle en mi artículo????? ¿Lo quieres o no?
 
Dr.Trader:

Yo también estoy haciendo algo parecido. Digamos que tengo un año de datos de entrenamiento. Voy a entrenar 12 modelos: uno para enero, el segundo para febrero, el tercero para marzo, etc. Selecciono los predictores y los parámetros del modelo para obtener el buen rendimiento de cualquiera de estos modelos entrenados en una pequeña parte de los datos durante todo el año y me da cierta esperanza de que los predictores utilizados tengan relaciones estables entre ellos. Tomar una decisión sobre los nuevos datos utilizando todo este conjunto de modelos.

De todos los métodos de validación cruzada que he probado, éste fue el que dio los mejores resultados con los nuevos datos. Pero hay muchos problemas sin resolver: cuántos modelos debe haber, es decir, puedo entrenar cien en lugar de 12, pero ¿tiene sentido? La evaluación del comercio también es importante, puedes elegir cualquier cosa, incluso rf o sharp, necesitas experimentar para encontrar el mejor.

Respuesta: 9
 
Dr.Trader:

Yo también hago algo así. Digamos que tengo un año de datos de entrenamiento. Voy a entrenar 12 modelos: uno para enero, el segundo para febrero, el tercero para marzo, etc. Selecciono los predictores y los parámetros del modelo para obtener el buen rendimiento de cualquiera de estos modelos entrenados en una pequeña parte de los datos durante todo el año y me da cierta esperanza de que los predictores utilizados tengan relaciones estables entre ellos. Tomar una decisión sobre los nuevos datos utilizando todo este conjunto de modelos.

De todos los métodos de validación cruzada que he probado, éste fue el que dio los mejores resultados con los nuevos datos. Pero hay muchos problemas sin resolver: cuántos modelos debe haber, es decir, puedo entrenar cien en lugar de 12, pero ¿tiene sentido? La evaluación del comercio también es importante, cualquier cosa para elegir, incluyendo rf o sharp, es necesario experimentar para encontrar el mejor.

Es un ajuste. Seleccionando los parámetros y las entradas se pueden obtener fácilmente modelos que funcionen durante al menos 3 años de la prueba.

Yo también tengo unos cuantos moeydels (100) que muestran buenos resultados en datos fuera de la formación. Estamos hablando de 10 años... Pero eso es sólo porque los modelos se eligen específicamente sobre los datos de prueba (fuera del entrenamiento). En otras palabras, superar la prueba.

El siguiente paso es evaluar estos modelos o cualquier comité seleccionado en una muestra adicional retrasada. Y preferiblemente, cada modelo sobre datos únicos. Entonces entenderá cómo se correlaciona la calidad en la prueba con la calidad en la muestra en la que no se seleccionó el modelo.
 
Alexey Burnakov:


Una de las discusiones: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Hay enlaces a artículos en los debates.

Un artículo interesante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Como se puede ver en el título, se trata del sobreentrenamiento, que ocurre en la fase de evaluación del modelo en las faltas de validación cruzada. En consecuencia, además de la validación cruzada, necesitamos otra muestra para estimar el modelo ya seleccionado.

Gracias. Es bueno ver que no soy el único que se preocupa.
 
Ustedes son aburridos, especialmente en el campo de los nuevos conocimientos...