Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2944

 
Aleksey Nikolayev #:

Si se resume por clases, el denominador es el índice de Gini o la pureza de los nodos. Cuanto más pequeño sea, mejor. El numerador es el número de filas de la hoja.

Cuanto mayor sea el criterio, mejor: las clases se separan de forma más limpia, pero sin triturar excesivamente la hoja.

El índice de Gini parece elegido porque se considera más sensible que el índice de error de clasificación.

No, resumiendo sobre los registros que llegaron al nodo. La cuestión no es la medida de la informatividad. Se trata de transferir "residuos" entre árboles: hay un recálculo constante de probabilidad a logit y viceversa.

 
Stanislav Korotky #:

No, resumiendo por los registros que llegaron al nodo. La pregunta no está relacionada con la medida de la informatividad. Se trata de la transferencia de "residuos" entre los árboles - hay un recálculo constante de probabilidad a logit y viceversa.

¿Y cómo se puede contar la frecuencia para un registro en general? Para una clase está claro cómo.

 
Stanislav Korotky #:

No, resumiendo por los registros que llegaron al nodo. La pregunta no está relacionada con la medida de la informatividad. Se trata de la transferencia de "residuos" entre los árboles - hay un recálculo constante de probabilidad a logit y viceversa.

¿O se trata de la clasificación por regresión logística? En cualquier caso, una fórmula sacada de algún sitio no es suficiente, se necesita el texto completo.

 
Aleksey Nikolayev #:

¿O estamos hablando de clasificación por regresión logística? En cualquier caso, una fórmula sacada de algún sitio no es suficiente, se necesita el texto completo.

Función logit en el sentido de ln(odds). La necesitas para trasladar la región de valores de probabilidad [0,1] a más o menos infinito - de lo contrario no puedes entrenar por gradiente.

Por ejemplo, aquí está el texto - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

Y aquí está el vídeo - https://www.youtube.com/watch?v=hjxgoUJ_va8.

PS. IMHO, tanto allí como allí hay errores en el material.
Gradient Boosting Trees for Classification: A Beginner’s Guide
Gradient Boosting Trees for Classification: A Beginner’s Guide
  • Aratrika Pal
  • medium.com
Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...
 
Aleksey Nikolayev #:

Si se resume por clases, el denominador es el índice de Gini o la pureza de los nodos. Cuanto más pequeño sea, mejor. El numerador es el número de filas de la hoja.

Cuanto mayor sea el criterio, mejor: las clases se separan de forma más limpia, pero sin triturar excesivamente la hoja.

El índice de Gini parece elegido porque se considera más sensible que el índice de error de clasificación.

¡Oh!
Por fin alguien conoce el índice de Gini.... Ya lo busqué en el 18, el código del mismo. https://www.mql5.com/ru/blogs/post/723619
Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Stanislav Korotky #:

Función logit en el sentido de ln(odds). Es necesario trasladar la región de valores de probabilidad [0,1] a más o menos infinito - de lo contrario no será posible entrenar por gradiente.

Sí, se utiliza para la regresión logística cuando se busca la probabilidad (función logit de la misma) de pertenecer a una clase.

Parece que el autor quiere presentar las entrañas del bousting de una manera popular, pero ha tomado una variante demasiado complicada del problema. Mezcla regresión logit, árboles y bousting, que no son fáciles de entender por sí mismos. La esencia del bousting no puede enunciarse lógicamente sin funcan. Para entender la esencia de la regresión logit, se necesita un teórico (de la distribución binomial, probablemente).

 
Forester #:
¡Oh!
Por fin alguien conoce el índice de Gini... Yo estuve en el 18 buscando el código para ello. h ttps:// www.mql5.com/ru/blogs/post/723619

También existe el coeficiente de Gini. También se utiliza en el MOE, pero eso es diferente).

 
Stanislav Korotky #:

Por favor, explique cómo se obtiene la siguiente fórmula en el algoritmo de clasificación en árboles con bousting(puede enlazar al PDF):


En todos los materiales que he podido encontrar en Internet, la fórmula se "saca del techo" por arte de magia.

¿De dónde has sacado la fórmula? A juzgar por el "del techo" habitual en la agricultura colectiva, lo más probable es que de la soviética.

Hay que utilizar matemáticas profesionales, para las que existen algoritmos bien establecidos.

R tiene un gran número de modelos de madera, y la diferencia entre el lenguaje R profesional y muchos otros es referencias obligatorias a los autores del algoritmo y la publicación correspondiente. De un vistazo rápido, no recuerdo ninguna función más o menos compleja de los paquetes de R que no tenga las referencias correspondientes.


Olvídate de todo menos de R. Hoy en día es el único entorno profesional para cálculos estadísticos.

 
Me encanta el R, para mi es el mejor idioma del mundo, pero los constantes anuncios de Sanych en cada uno de sus post me ponen realmente enfermo.
 
Stanislav Korotky #:

No, está vacío. Me olvidé de mencionar que se trata de bousting.

Bueno, aquí


y aquí.


Pero las fórmulas allí parecen ser diferentes, o escrito en una forma más completa....