Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3176

 
Aleksey Nikolayev #:

Puedo sugerir que se modifique mi experimento. Que haya diez cajas con números del 1 al 10, cien bolas blancas y cien bolas negras (los números 10 y 100 se toman convencionalmente). Las bolas se ordenan de alguna manera en las cajas, luego se mira cuántas bolas hay en cada caja y se intenta comprender si hay una regularidad en el algoritmo de ordenación - en las cajas con qué números hay un predominio de bolas de algún color.

Así, si cada bola (de ambos colores) se coloca al azar y con la misma probabilidad 0,1 en uno de los cajones, ¡al final no habrá uniformidad en la proporción de colores! Casi siempre habrá un cajón donde casi todo sea blanco y otro donde casi todo sea negro. Y la cuestión no está en absoluto en la calidad del DSP, puedes coger un DSP cuántico de verdad y todo será igual. Se trata de la propia naturaleza de la aleatoriedad probabilística. Siempre habrá irregularidad, pero el número de casillas donde se encontrará en la siguiente disposición es absolutamente impredecible. Lo mismo ocurre en el ejemplo anterior con la hora de la semana (la hora de la semana es un análogo del número de casilla).

Hay dos maneras de hacer esto. O bien intentar demostrar que la desigualdad en la práctica es mucho mayor de lo que sería en igualdad de probabilidades. Esto se hace mediante algún tipo de prueba estadística. O simplemente estar seguros de que la no uniformidad, aunque pequeña, se debe a alguna regularidad, que sólo se manifiesta débilmente debido al ruido. Pero ya es cuestión de fe y práctica y si funciona, vale.

Espero que quede claro que los números de la caja (hora de la semana) son una analogía de tus cuantos.

Si hablamos de SB, entonces de qué tipo de modelos podemos hablar, porque la esencia de los modelos (de madera o neuronales) es encontrar patrones en los datos.

Sobre el hecho de que puede haber una mayoría de bolas del mismo color en una caja - entonces hago el experimento 10 veces y cada vez obtengo los resultados (divido la muestra en 10 partes), y sólo si la mayoría son similares en el resultado, selecciono un segmento de cuantos. ¿Cuál es la probabilidad de que después de hacer el experimento 10 veces encontremos más bolas de un determinado color en la misma caja que en otras cajas?

¿Conoces alguna prueba estadística adicional que se ajuste a este caso?

No se puede estar seguro de nada, además en SB tho....

Busco métodos que aumenten la certeza.

Además, supongo que el segmento cuántico seleccionado todavía tiene más potencial de división no aleatoria que la otra parte del predictor - no sé cómo expresar esto como una fórmula o algún tipo de estimación. Percibo tal segmento abstractamente como una veta de mineral/metal valioso dentro de un adoquín.....

 

No sé cómo hacerlo más claro, así que muestro esquemáticamente dos divisiones de árboles.

Dos barras son dos predictores - barras verticales simbolizan el tiempo (pero no hice una reproducción exacta de la misma).

La línea gruesa es el lugar estándar de la división de predictores por el modelo de árbol.

El segundo predictor (a la izquierda en la figura) muestra que el intervalo de 2 a 3 inclusive tiene la mayor acumulación de unidades, que he resaltado en color.

Después de la primera división, he resaltado en color azulado las cifras que quedaron de la primera división (digamos que es la parte derecha, donde las unidades se fueron a lo largo de la rama).

Así pues, si contamos el total de unidades que quedaron tras la primera división, ésta debería hacerse exactamente en el centro y dividirse de 1 a 2 inclusive, pero la primera columna contiene los índices estadísticos más débiles sobre las respuestas en términos absolutos, así como la 4, sólo 8 cada una, mientras que las centrales contienen 10 y 12. El corte cuántico puede desplazar las columnas 1 y 4 hacia un lado y las columnas 2 y 3 hacia el otro, lo que supone sólo una unidad menos en total que sin el corte cuántico, pero inicialmente se observan 8 unidades más en este rango, lo que parece significativo. Es decir, se espera que este rango siga conteniendo más unidades que los dos vecinos.

¿Ha conseguido explicar la esencia de la idea de la selección cuántica de segmentos?

Debo añadir: Se trata de una convención -permitiendo errores aritméticos-, aquí lo que importa es el texto y la lógica, no los números.
 

Bueno, en términos cotidianos - tenemos un predictor con un rango de -162 y +162 - que envía señales.

Con la ayuda de la detección de segmentos cuánticos podemos encontrar los rangos de niveles, al golpear lo que ocurre más a menudo, por ejemplo, rebotan a niveles inferiores. Las secciones restantes que no están cerca de un nivel simplemente se pueden clasificar en orden. Y resulta que un predictor, pero hay dos formas de representar los datos para diferentes propósitos - como una opción.


 
Aleksey Vyazmikin #:

¿Conoce alguna prueba estadística adicional que se ajuste a este caso?

La más universal es probablemente Monte Carlo. Simulen repetidamente la situación de clases obviamente inseparables y vean cómo se comportan sus cuantos en promedio. Si encuentran algo, entonces es contraproducente.

Se pueden obtener clases plausiblemente indivisibles tomando muestras generadas con la misma distribución que las características.

 
Aleksey Nikolayev #:

El más universal es probablemente Montecarlo. Simulen repetidamente la situación de clases obviamente inseparables y vean cómo se comportan sus cuantos por término medio. Si encuentran algo, entonces se trata de un autoengaño.

Se pueden obtener clases plausiblemente indivisibles tomando muestras generadas con la misma distribución que las características.

Montecarlo consiste en mezclar secuencias y obtener cadenas al azar, ¿en qué ayuda eso? Y probablemente no sea correcto mezclar secuencias si se supone que no son aleatorias..... y no es aleatorio en series de tiempo. No entiendo la idea, si pudieras describirla con más detalle.

¿Puedes hacer una muestra de este tipo para la prueba en csv? Creo que es bastante rápido en R. Si no me pasaré otro día escribiendo código y no sé si me saldrá bien.

 
Aleksey Vyazmikin #:

Monte Carlo consiste en mezclar secuencias y obtener cadenas aleatoriamente, ¿en qué ayuda eso? Y probablemente no es correcto mezclar secuencias si asumimos que no son aleatorias.... y no es aleatorio en series de tiempo. No entiendo las ideas, si usted puede describir con más detalle.

¿Puedes hacer una muestra para la prueba en csv? Creo que es bastante rápido en R. Si no me pasaré otro día escribiendo código y no sé si me saldrá bien.

Puedes hacerlo en MT5, la librería estadística tiene funciones para generar muestras para diferentes distribuciones. Por ejemplo, puedes generar una muestra normal de 200 como signo en la primera columna, y en la segunda puedes hacer marcas por selección aleatoria con una probabilidad de 0,5.

Sería mejor que automatizaras esto de alguna manera dentro de tu paquete, ya que tienes que hacerlo muchas veces y calcular algo cada vez, sólo tú sabes qué.

 
Aleksey Nikolayev #:

Puedes hacerlo en MT5, la librería estadística tiene funciones para generar muestras para diferentes distribuciones. Por ejemplo, generar una muestra normal de 200 como signo en la primera columna, y en la segunda columna hacer marcas por selección aleatoria con una probabilidad de 0,5 cada una.

Sería mejor que automatizaras esto de alguna manera dentro de tu paquete, ya que tienes que hacerlo muchas veces y calcular algo cada vez, sólo tú sabes qué.

Nunca he utilizado esta función antes.

¿Se trata de esta función?

Генерирует псевдослучайные величины, распределенные по нормальному закону с параметрами mu и sigmа. В случае ошибки возвращает false. Аналог rnorm() в R. 



bool  MathRandomNormal( 
   const double  mu,             // математическое ожидание 
   const double  sigma,          // среднеквадратическое отклонение 
   const int     data_count,     // количество необходимых значений 
   double&       result[]        // массив для получения псевдослучайных величин 
   );
 
 
Aleksey Vyazmikin #:

Al igual que escribí acerca de cómo el exceso de azar es un enfoque improductivo.

Yo utilizo el sobremuestreo con el elemento aleatorio de la selección de predictores cuando pruebo el potencial de muestreo, y lo he estado utilizando durante muchos años en CatBoost.

La aleatorización no da ninguna justificación para esperar que el modelo siga funcionando, porque las respuestas del predictor han sido aleatorizadas en él.

Se corre el riesgo de volver a enredarse en discusiones sin sentido. ¿Cuál es la diferencia entre un conjunto encontrado al azar que funciona en oos y otro que se inventó mediante el sufrimiento mental más duro, pero también sin justificación fundamental? Cuando el método de validación es el mismo. Pregunta retórica.

¿Cuál es la diferencia entre una búsqueda aleatoria y una búsqueda con un elemento de aleatoriedad en la elección? ))
 
Aleksey Vyazmikin #:

Nunca había utilizado esta función.

¿Se trata de esta función?

 
Aleksey Nikolayev #:

Es decir, tengo que generar un binario objetivo para una muestra, digamos, y ver con qué frecuencia se encontrarán segmentos cuánticos por mi método para diferentes predictores, y así 10 veces?

Si el número de segmentos cuánticos se encuentra aproximadamente el mismo número en promedio como lo es ahora para todos los predictores, entonces el método no funciona, ¿entiendo el pensamiento correctamente?