Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2648

 
mytarmailS #:

visualizar los puntos


Parecen parásitos :)

 
mytarmailS #:

Pero, ¿ha pensado alguna vez que aumentando o disminuyendo la contribución de las variables se puede controlar la agrupación?

Sí, sobreestimando o subestimando deliberadamente la importancia.
Pero es un arte, es difícil de analizar.
La situación se agrava por la no estacionariedad de los precios, llevo mucho tiempo luchando con los signos: si cambias la escala o la normalización, cambian las propiedades del modelo entrenado.
 
Maxim Dmitrievsky #:
con precios no estacionarios, he estado en guerra con las señales durante mucho tiempo.
Todos estamos en guerra.
 
mytarmailS reducción de la dimensionalidad las muestras con diferentes tipos de datos con y sin normalización

Por ejemplo, hay tipos de datos, cadenas y dígitos.

Primero convierto q1 en dígitos

Es mejor convertir cadenas en forma categórica que numérica. Por supuesto, si tu UMAP puede procesarlos.

a=1 no es 5 veces diferente de e=5. Simplemente son diferentes, como cálido y suave. Y al digitalizarlas, las has hecho más y más cálidas.

 
elibrarius #:

a=1 no es cinco veces diferente de e=5. Simplemente son diferentes,

Hmm, sí, tienes toda la razón, fui estúpido.

Tienes que hacer una conversión en caliente o algo así.
 
Aleksey Nikolayev #:

Creo que la cuestión de qué hacer con las casillas identificadas es compleja y difícilmente tiene reglas claras e inequívocas para todos los casos posibles. Un algoritmo bueno y bien pensado es probablemente un "saber hacer" bastante secreto).

Si los casos se obtienen con el mismo conjunto de predictores, su no intersección es probablemente suficiente. Si hay una intersección, puede asignarse a una casilla separada, y sus complementos pueden dividirse en varias casillas. Sin embargo, un número demasiado elevado de casillas fragmentará demasiado la muestra. Por lo tanto, podemos generalizar la noción de caja; en el lenguaje de las reglas, esto significa añadir negaciones y OR a AND.

Si las cajas se obtienen con predictores completamente distintos (por ejemplo, mediante el método randomforest), entonces sólo pueden solaparse en el sentido de las partes de la muestra que caen dentro de ellas. Probablemente se necesiten aquí algunas ideas cercanas a la cartera.

Si los conjuntos de predictores se solapan parcialmente, entonces debe haber alguna mezcla de enfoques, es difícil decirlo con seguridad.

No tengo claro cómo se puede poner esto en un esquema unificado. La forma estándar de construir árboles de decisión sortea estos problemas de forma sencilla y "agradable", lo que hace que no sea del todo adecuada para nuestros fines. Puede que sea posible mejorarlo seleccionando un algoritmo de poda, pero en mi opinión es mejor reelaborar creativamente el algoritmo de construcción de reglas.

Bueno, sin entender los detalles, es difícil hacer cambios en la lógica.

Yo, personalmente, no he entendido lo que son las 2 coordenadas adicionales de la caja (2 - límites cuánticos) - Supuse que se trata de un recorte de la muestra.

Sólo en busca de algo útil para desarrollar mi método. Tengo pegado de "cajas" también - pero el algoritmo no es perfecto.

 
Aleksey Vyazmikin #:

Ahí lo tienes, sin entender los detalles es difícil hacer cambios en la lógica.

Yo, personalmente, no entendía lo que los adicionales 2 coordenadas de la caja son (2 - límites cuánticos) - Supuse que era un recorte de la muestra.

Sólo en busca de algo útil para desarrollar mi método. Tengo pegado de "cajas" también - pero el algoritmo no es perfecto.

Si usted está hablando específicamente sobre PRIM, entonces mi enlace acaba de dar un ejemplo de cómo funciona para dos predictores x1 y x2. En consecuencia, se selecciona una caja de la forma (a1<x1<b1)&(a2<x2<b2). Aparentemente, se considera que lo que queda fuera de la caja pertenece a una clase distinta de lo que hay dentro. Se intentó mostrar con un ejemplo sencillo la esencia delalgoritmo: cortar un pequeño trozo (pelar) de la caja en cada paso. Qué trozo se corta y por qué predictor se elige a partir de la condición de optimalidad del paso "trayectoria".

Me interesaba este algoritmo como ejemplo de cómo un algoritmo estándar para construir reglas (para un árbol de resolución) puede y debe modificarse para adaptarse a las necesidades de cada uno.

 
Aleksey Nikolayev #:

Si se refiere específicamente a PRIM, mi enlace acaba de dar un ejemplo de cómo funciona para dos predictores x1 y x2. En consecuencia, se selecciona una caja de la forma (a1<x1<b1)&(a2<x2<b2). Aparentemente, se considera que lo que queda fuera de la caja pertenece a una clase distinta de lo que hay dentro. Se intentó mostrar con un ejemplo sencillo la esencia delalgoritmo: cortar un pequeño trozo (pelar) de la caja en cada paso. Qué trozo se corta y por qué predictor se elige a partir de la condición de optimalidad del paso "trayectoria".

Me interesaba este algoritmo como ejemplo de cómo un algoritmo estándar para construir reglas (para un árbol de resolución) puede y debe modificarse para adaptarse a las necesidades de cada uno.

Es bueno que lo hayas resuelto - al principio no lo entendía, gracias por la aclaración.

Pero, entonces resulta que el algoritmo en la primera etapa debe encontrar pares de predictores que se separen mejor en cajas, y luego aplicarles el "pelado".

 
Aleksey Vyazmikin #:

Me alegro de que lo hayas descubierto, no me había dado cuenta, gracias por la aclaración.

Pero, entonces resulta que el algoritmo en la primera etapa debe encontrar pares de predictores que mejor se separan en cajas, y luego aplicar "pelar" a ellos.

No, funciona para cualquier número de predictores. En cada etapa se elige qué predictor y qué corte (izquierda o derecha) es óptimo cortar. Los árboles de decisión convencionales hacen lo mismo: en cada paso, tanto el predictor como su punto de corte se eligen de forma que sean óptimos para producir dos nuevas casillas. La única diferencia con PRIM es que en cada paso se corta una rebanada limitadamente pequeña, lo que da lugar a un proceso gradual, de ahí la palabra paciente en el nombre.

Personalmente, me parece interesante otra modificación del enfoque estándar, en la que cada caja se corta no en dos, sino en tres nuevas cajas. Alguna vez daré mi opinión al respecto.

 
Aleksey Nikolayev #:

Alguna vez daré mi opinión al respecto.

Tal vez sea mejor darse cuenta y probar