Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 163
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
1) Si miras las primeras publicaciones del autor de los algoritmos randomforest, el autor era muy serio al afirmar que el rf no es propenso al sobreentrenamiento en absoluto y daba muchos ejemplos. El propio paquete randomforest está construido de manera que excluye la más mínima sospecha de sobreentrenamiento.
Al mismo tiempo, el algoritmo más sobreentrenado es randomforest. Me he quemado personalmente.
2) La gran mayoría de las publicaciones sobre aprendizaje automático no se prueban en ningún segundo archivo análogo. La razón es trivial. Los algoritmos NO se aplican a las series temporales. Y resulta que la división aleatoria del archivo número uno es suficiente. Y este es el caso, por ejemplo, del reconocimiento de textos manuscritos.
1) Tanto Forrest como GBM y cualquier otro método son reentrenados. Imperceptible en datos plegados y muy perceptible en datos con mucho ruido.
2) Hay, hay publicaciones que discuten la introducción de la validación cruzada anidada en muestras adicionales en un rango de tiempo diferente.
2) Hay, hay publicaciones que discuten la introducción de la validación cruzada anidada en muestras adicionales en un rango de tiempo diferente.
Si no le importa, enlace
Una de las discusiones: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
Hay enlaces a artículos en los debates.
Un artículo interesante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Como se puede ver en el título, se trata del sobreentrenamiento, que ocurre en la fase de evaluación del modelo en las faltas de validación cruzada. Por consiguiente, además de la validación cruzada, también se necesita una muestra para evaluar un modelo ya seleccionado.
Si krakto (ya se ha escrito sobre ello):
Un modelo seleccionado a través de la validación cruzada debe ser revalidado por otra muestra diferida.
Y la validación cruzada anidada implica construir n k-validaciones cruzadas (sobre datos diferentes) seguidas de la validación sobre n muestras retrasadas (cada vez sobre datos diferentes).
Y eso no es todo. Si se vuelve a seleccionar la capa superior de muestras diferidas, por ejemplo, un comité de modelos basado en los datos de estas muestras diferidas, entonces la validación del comité debe realizarse en una muestra diferida más.
Lo ideal es que este proceso:
k-fold кроссвалидация
-------------------------------- повторилась n раз
------------------------------------------------------------- на полученных данных сформирован комитет
------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего
debe repetirse no una, sino m veces, para INVERTIR los resultados en el nivel superior. Esto reduce el sesgo a un mínimo practicable.
Pero al hacerlo, el valor esperado de, por ejemplo, FS puede reducirse muchas veces... Dolor.
introduciendo la validación cruzada anidada en muestras adicionales en un rango de tiempo diferente.
Yo también hago algo parecido. Digamos que tengo un año de datos para entrenar. Entrenaré 12 modelos: uno con los datos de enero, el segundo con los de febrero, el tercero con los de marzo, etc. Selecciono los predictores y los parámetros del modelo para obtener el buen rendimiento de cualquiera de estos modelos entrenados en una pequeña parte de los datos durante todo el año y me da cierta esperanza de que los predictores utilizados tengan relaciones estables entre ellos. Tomar una decisión sobre los nuevos datos utilizando todo este conjunto de modelos.
De todos los métodos de validación cruzada que he probado, éste fue el que dio los mejores resultados con los nuevos datos. Pero hay muchos problemas sin resolver: cuántos modelos debe haber, es decir, puedo entrenar cien en lugar de 12, pero ¿tiene sentido? La valoración del comercio también es importante, puedo elegir cualquier cosa, incluso rf o sharp, necesito experimentar para encontrar la mejor.
Yo también estoy haciendo algo parecido. Digamos que tengo un año de datos de entrenamiento. Voy a entrenar 12 modelos: uno para enero, el segundo para febrero, el tercero para marzo, etc. Selecciono los predictores y los parámetros del modelo para obtener el buen rendimiento de cualquiera de estos modelos entrenados en una pequeña parte de los datos durante todo el año y me da cierta esperanza de que los predictores utilizados tengan relaciones estables entre ellos. Tomar una decisión sobre los nuevos datos utilizando todo este conjunto de modelos.
De todos los métodos de validación cruzada que he probado, éste fue el que dio los mejores resultados con los nuevos datos. Pero hay muchos problemas sin resolver: cuántos modelos debe haber, es decir, puedo entrenar cien en lugar de 12, pero ¿tiene sentido? La evaluación del comercio también es importante, puedes elegir cualquier cosa, incluso rf o sharp, necesitas experimentar para encontrar el mejor.
Yo también hago algo así. Digamos que tengo un año de datos de entrenamiento. Voy a entrenar 12 modelos: uno para enero, el segundo para febrero, el tercero para marzo, etc. Selecciono los predictores y los parámetros del modelo para obtener el buen rendimiento de cualquiera de estos modelos entrenados en una pequeña parte de los datos durante todo el año y me da cierta esperanza de que los predictores utilizados tengan relaciones estables entre ellos. Tomar una decisión sobre los nuevos datos utilizando todo este conjunto de modelos.
De todos los métodos de validación cruzada que he probado, éste fue el que dio los mejores resultados con los nuevos datos. Pero hay muchos problemas sin resolver: cuántos modelos debe haber, es decir, puedo entrenar cien en lugar de 12, pero ¿tiene sentido? La evaluación del comercio también es importante, cualquier cosa para elegir, incluyendo rf o sharp, es necesario experimentar para encontrar el mejor.
Una de las discusiones: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
Hay enlaces a artículos en los debates.
Un artículo interesante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Como se puede ver en el título, se trata del sobreentrenamiento, que ocurre en la fase de evaluación del modelo en las faltas de validación cruzada. En consecuencia, además de la validación cruzada, necesitamos otra muestra para estimar el modelo ya seleccionado.