Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3311

 
Aleksey Vyazmikin #:

¿Quién ha probado el método"Perfil de compacidad"?

El objetivo del método es eliminar los ejemplos incoherentes de la muestra, lo que debería mejorar el aprendizaje y reducir el tamaño del modelo si se utilizan métodos de aprendizaje de K vecinos más cercanos.

No he podido encontrar una implementación en python....

Uno de los artículos de Vladimir Perervenko describe un método de este tipo, y había un ejemplo con código, por supuesto
 
Forester #:

El trabajo es experimental. He aquí una cita de http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Es poco probable que cada experimento se creó un paquete.

Ah, y el experimento es artificial. Se añadió ruido al conjunto de datos claramente separados por clases. Y la separación clara es sólo para 1 característica - el eje Y. Si eliminamos el ruido (todos los datos de 0,2 a 0,8), resulta que dejamos ejemplos sólo con la distancia a otra clase no inferior a 0,6. Me refiero a la tercera variante más complicada de la imagen:


Vete a la vida real y añade tus 5000 predictores que serán ruido a esta única ficha de trabajo. En clustering calculas la distancia total entre puntos en este espacio de 5001 dimensiones. 0.6 trabajando nunca se encontrara en este caos.

creo que cualquier clasificador lo hara mejor, el mismo arbol encontrara esta unica caracteristica y dividira por ella, primero por 0.5 y luego llegara a divisiones de 0.2 y 0.8 seguidas de hojas con 100% de pureza.

Nunca lo hará. Cualquier modus operandi no lo encontrará. Hay que deshacerse de la basura ANTES de entrenar el modelo. "Basura dentro - basura fuera" es la ley de la estadística.

 
СанСаныч Фоменко #:

Nunca lo encontrará. Cualquier IO no lo encontrará. Hay que deshacerse de la basura ANTES de entrenar el modelo. " Basura dentro, basura fuera" es la ley de la estadística.

Hablo de un ejemplo artificial concreto sobre el que se hicieron experimentos. No es basura dentro y basura fuera. Lo que está lleno de basura en ese ejemplo es fácil de cortar.

 
Esto es exactamente lo que los optimizadores no pueden entender. Que es a través de la simplificación como se puede mejorar la estabilidad, no a través de la búsqueda de un máximo global.
El ejemplo más sencillo es SVM, con una distancia dada entre vectores de soporte. El eje transversal es aún más flexible. Y ahí verás, y entonces puedes entrar en matstat para una media hoja.
Si no puedes entrar en kozul desde el principio, puedes pensar a este nivel para empezar.

Offtopic: ¿has jugado a starfield? Besdazd sabe hacer ambientación. Es inmersivo.
 
Forester #:

Me refiero al ejemplo artificial concreto en el que se realizaron los experimentos. No es basura que entra y basura que sale. Lo que se sabe en este ejemplo es fácil de cortar.

Para aclarar mi punto de vista.

Cualquier algoritmo de MO intenta reducir el error. La reducción del error es más eficaz en la basura, porque es mucho más probable que tenga valores "convenientes" para la reducción del error. Como resultado, es seguro que la "importancia" de los predictores para la basura será mayor que para la NO basura. Por eso existe el preprocesamiento, que requiere mucho más trabajo que el propio ajuste del modelo.

 
СанСаныч Фоменко #:

Permítanme aclarar mi punto.

Cualquier algoritmo MO intenta reducir el error. La reducción del error es más eficaz en la basura, porque los valores "convenientes" para la reducción del error son mucho más comunes en la basura. Como resultado, es seguro que la "importancia" de los predictores para la basura será mayor que para la NO basura. Por eso existe el preprocesamiento, que requiere mucho más trabajo que el propio ajuste del modelo.

Dígame, por favor, ¿qué no es basura? Nunca he visto a nadie hablar de datos de entrada puros. Pero oigo hablar de basura en el foro todo el tiempo.

¿Cuáles son? Si usted está hablando de basura, entonces usted no ha tenido basura, de lo contrario no hay nada que compararlo con

 
СанСаныч Фоменко #:

Permítanme aclarar mi punto.

Cualquier algoritmo MO intenta reducir el error. La reducción del error es más eficaz en la basura, porque los valores "convenientes" para la reducción del error son mucho más comunes en la basura. Como resultado, es seguro que la "importancia" de los predictores para la basura será mayor que para la NO basura. Por eso existe el preprocesamiento, que requiere mucho más trabajo que el propio ajuste del modelo.

El preprocesamiento tiene que ver con la normalización, no con la basura.
La basura es selección de características y, en parte, ingeniería de características.

Sanych, deja de introducir basura en la entrada de personas que son inmaduras.
 
Ivan Butko #:

¿Puede decirme qué no es basura? Nunca he visto a nadie hablar de datos de entrada limpios. Pero oigo hablar de basura en el foro todo el tiempo.

¿Cuáles son? Si estás hablando de basura, entonces no has tenido basura, de lo contrario no hay nada con que compararlo

Nadie sabe qué es basura y qué no lo es, son conceptos hipotéticos.

Si supieran exactamente qué es qué, no habría un hilo de 3K páginas))).

Uno simplemente hace la suposición de que ir más allá de tales o cuales límites es "basura", estos límites también son hipotéticos. Por eso la expresión "basura dentro - basura fuera" no es más que una bonita frase, lo que es basura para un investigador no lo es para otro. Es como las olas de Eliot.

 
Ivan Butko #:

¿Puede decirme qué no es basura? Nunca he visto a nadie hablar de datos de entrada limpios. Pero oigo hablar de basura en el foro todo el tiempo.

¿Cuáles son? Si estás hablando de basura, entonces no has tenido basura, de lo contrario no hay nada con que compararlo

Es un movimiento direccional, un vector.

pero sacarlo de la basura es un reto.

Por ejemplo, yo intentaría cargar mi indicador en neuronas como predictores e intentaría identificar los signos de la basura y del recolector de basura.

 
СанСаныч Фоменко #:

Permítanme aclarar mi punto.

Cualquier algoritmo MO intenta reducir el error. La reducción del error es más eficaz en la basura, porque los valores "convenientes" para la reducción del error son mucho más comunes en la basura. Como resultado, es seguro que la "importancia" de los predictores para la basura será mayor que para la NO basura. Por eso existe el preprocesamiento, que requiere mucho más trabajo que el propio ajuste del modelo.

En este ejemplo artificial que estamos considerando (no son datos de mercado),
la ficha del eje U no es basura y es muy buena para definir clases. La ficha del eje X es basura porque las dos clases están mezcladas más o menos uniformemente.

El árbol dividirá fácilmente los datos en 1 y 2 ejemplos de la imagen por sólo 1 división a través de Y=0.5 con pureza absoluta de clases, es decir, probabilidad de clase =100%. Al comprobar la división en el eje X, la pureza será de aproximadamente el 50%, el algoritmo seleccionará la división más limpia, sobre Y. Es decir, su afirmación de que se seleccionará una división basura sobre X es incorrecta en estos ejemplos.

El tercer ejemplo es más complicado. La hoja con U<0,2 será seleccionada por el algoritmo, ya que la pureza de la clase = 100%, la hoja U>0,8 también será seleccionada.
La hoja de 0,2 a 0,8 tiene una pureza de alrededor del 50%, es decir, es tan basura como cualquier división del eje X.
Seguir dividiendo no tiene sentido, ya que no utilizará hojas con una probabilidad de clase del 50%.
Si haces algo estúpido y divides esta parte basura hasta 1 ejemplo en una hoja, entonces se utilizarán las divisiones tanto en Y como en X. Bien, si tenemos 1 ejemplo en una hoja, entonces su pureza por supuesto = 100%. Pero no se trata de hojas representativas. Sólo los principiantes lo harán.

Las 3 primeras hojas son suficientes, o puede dejar de dividir las hojas al menos por 1-5-10% del número total de ejemplos en la hoja. Y en este ejemplo utilizar hojas con pureza por ejemplo >90%, y estas serán las 2 primeras hojas: U<0,2 y U>0,8. El resto de las hojas serán 50% +-10% debido a la mezcla desigual.