Aprendizaje automático en el trading: teoría, práctica, operaciones y más

Stanislav Korotky 2023.03.02 15:47 #29431

Aleksey Nikolayev #:

Si se resume por clases, el denominador es el índice de Gini o la pureza de los nodos. Cuanto más pequeño sea, mejor. El numerador es el número de filas de la hoja.

Cuanto mayor sea el criterio, mejor: las clases se separan de forma más limpia, pero sin triturar excesivamente la hoja.

El índice de Gini parece elegido porque se considera más sensible que el índice de error de clasificación.

No, resumiendo sobre los registros que llegaron al nodo. La cuestión no es la medida de la informatividad. Se trata de transferir "residuos" entre árboles: hay un recálculo constante de probabilidad a logit y viceversa.

[Archivo] FOREX - Tendencias, Psicología. ¿La falta de [Archivo] FOREX - Tendencias,

Aleksey Nikolayev 2023.03.02 16:14 #29432

Stanislav Korotky #:

No, resumiendo por los registros que llegaron al nodo. La pregunta no está relacionada con la medida de la informatividad. Se trata de la transferencia de "residuos" entre los árboles - hay un recálculo constante de probabilidad a logit y viceversa.

¿Y cómo se puede contar la frecuencia para un registro en general? Para una clase está claro cómo.

Aleksey Nikolayev 2023.03.02 16:38 #29433

Stanislav Korotky #:

No, resumiendo por los registros que llegaron al nodo. La pregunta no está relacionada con la medida de la informatividad. Se trata de la transferencia de "residuos" entre los árboles - hay un recálculo constante de probabilidad a logit y viceversa.

¿O se trata de la clasificación por regresión logística? En cualquier caso, una fórmula sacada de algún sitio no es suficiente, se necesita el texto completo.

Stanislav Korotky 2023.03.02 17:39 #29434

Aleksey Nikolayev #:

¿O estamos hablando de clasificación por regresión logística? En cualquier caso, una fórmula sacada de algún sitio no es suficiente, se necesita el texto completo.

Función logit en el sentido de ln(odds). La necesitas para trasladar la región de valores de probabilidad [0,1] a más o menos infinito - de lo contrario no puedes entrenar por gradiente.

Por ejemplo, aquí está el texto - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

Y aquí está el vídeo - https://www.youtube.com/watch?v=hjxgoUJ_va8.

PS. IMHO, tanto allí como allí hay errores en el material.

Gradient Boosting Trees for Classification: A Beginner’s Guide

Aratrika Pal
medium.com

Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...

De la teoría a Scalping Cualquier pregunta de novato,

Forester 2023.03.02 18:12 #29435

Aleksey Nikolayev #:

Si se resume por clases, el denominador es el índice de Gini o la pureza de los nodos. Cuanto más pequeño sea, mejor. El numerador es el número de filas de la hoja.

Cuanto mayor sea el criterio, mejor: las clases se separan de forma más limpia, pero sin triturar excesivamente la hoja.

El índice de Gini parece elegido porque se considera más sensible que el índice de error de clasificación.

¡Oh!
Por fin alguien conoce el índice de Gini.... Ya lo busqué en el 18, el código del mismo. https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный

Aleksey Nikolayev 2023.03.02 18:21 #29436

Stanislav Korotky #:

Función logit en el sentido de ln(odds). Es necesario trasladar la región de valores de probabilidad [0,1] a más o menos infinito - de lo contrario no será posible entrenar por gradiente.

Sí, se utiliza para la regresión logística cuando se busca la probabilidad (función logit de la misma) de pertenecer a una clase.

Stanislav Korotky #:

Por ejemplo, aquí está el texto - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

Parece que el autor quiere presentar las entrañas del bousting de una manera popular, pero ha tomado una variante demasiado complicada del problema. Mezcla regresión logit, árboles y bousting, que no son fáciles de entender por sí mismos. La esencia del bousting no puede enunciarse lógicamente sin funcan. Para entender la esencia de la regresión logit, se necesita un teórico (de la distribución binomial, probablemente).

¡¡¡1200 suscriptores!!! Econometría: previsión de un Características del lenguaje mql5,

Aleksey Nikolayev 2023.03.02 18:28 #29437

Forester #:
¡Oh!
Por fin alguien conoce el índice de Gini... Yo estuve en el 18 buscando el código para ello. h ttps:// www.mql5.com/ru/blogs/post/723619

También existe el coeficiente de Gini. También se utiliza en el MOE, pero eso es diferente).

СанСаныч Фоменко 2023.03.02 19:07 #29438

Stanislav Korotky #:

Por favor, explique cómo se obtiene la siguiente fórmula en el algoritmo de clasificación en árboles con bousting(puede enlazar al PDF):

En todos los materiales que he podido encontrar en Internet, la fórmula se "saca del techo" por arte de magia.

¿De dónde has sacado la fórmula? A juzgar por el "del techo" habitual en la agricultura colectiva, lo más probable es que de la soviética.

Hay que utilizar matemáticas profesionales, para las que existen algoritmos bien establecidos.

R tiene un gran número de modelos de madera, y la diferencia entre el lenguaje R profesional y muchos otros es referencias obligatorias a los autores del algoritmo y la publicación correspondiente. De un vistazo rápido, no recuerdo ninguna función más o menos compleja de los paquetes de R que no tenga las referencias correspondientes.

Olvídate de todo menos de R. Hoy en día es el único entorno profesional para cálculos estadísticos.

¿Por qué está tan ¿De qué 4 factores Bernoulli, teorema de Moab-Laplace;

mytarmailS 2023.03.02 19:15 #29439

Me encanta el R, para mi es el mejor idioma del mundo, pero los constantes anuncios de Sanych en cada uno de sus post me ponen realmente enfermo.

Aleksey Vyazmikin 2023.03.02 22:35 #29440

Stanislav Korotky #:

No, está vacío. Me olvidé de mencionar que se trata de bousting.

Bueno, aquí

y aquí.

Pero las fórmulas allí parecen ser diferentes, o escrito en una forma más completa....

Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2944