Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3081

 
СанСаныч Фоменко #:

Este artículo ilustra a la perfección la promoción publicitaria de resultados triviales.

El propio nombre de"Efectos Causales " nos toca las narices por nuestro atraso, porque al estudiar varios sines no nos dimos cuenta de que se trata del resultado deEfectos Causales de dar datos de entrada a la entrada del sin y obtener el resultado.

El autor toma RF, da datos de entrada y obtiene un error como resultado.

Para que todo el mundo se dé cuenta de que estamos tratando con una dirección completamente nueva en MO, entonces los datos de entrada (predictores) se llaman covariables, el algoritmo RF se llama metaaprendiz, y todo el proceso se llama Efectos Causales .

Los apologistas de los Efectos Causales no son conscientes de que a veces en ruso las covariables son aquellos predictores que tienen un efecto no sólo sobre la variable objetivo sino también sobre los predictores vecinos, es decir, el término debería utilizarse con más precisión para evitar ambigüedades.

Llamar "metaaprendiz" al algoritmo RF es otro truco publicitario de Causal Effects, ya que este algoritmo produce reglas que ciertamente NO son un aprendiz. Pero desde el punto de vista publicitario en el aprendizaje automático debería haber estudiantes y para la importancia de "meta" y basta.

El artículo justifica con cierto detalle la elección de RF como algoritmo base , afirmando específicamente que se puede utilizar cualquier (?) algoritmo MO en lugar deRF. Como generalización de este pensamiento, se utiliza el término molestia, es decir, desagradable, odioso, molesto . Si es por texto, probablemente debería traducirse como "una función del ruido", es decir, el algoritmo RF es una "función del ruido". Pero qué intrincado y bonito suena, y lo que es más importante, el lector, que antes pensaba que RF produce reglas con algún error, simplemente lo disfruta.

Se puede seguir, pero lo anterior es suficiente para remitir todo esto delos Efectos Causales a pura publicidad, por cierto muy exitosa, cuando las verdaderas tonterías se vendieron y consiguieron una plaza de profesor en la Universidad de Stanford, consiguieron seguidores que quieren estar al día de las nuevas tendencias avanzadas.

Entonces, ¿quién es el autor de la supuesta nueva tendencia de vanguardia en ME? A juzgar por el número de referencias, un tal Victor Chernozhukov, un hombre que no tiene educación de perfil, graduado en un instituto agrícola a principios de los 90. Recuerdo muy bien esta época, cuando millones de Chernozhukovs, bajo los gritos de la conciencia no nublada con la educación y los hechos, corrían y movían todo tipo de tonterías. y muchos de ellos se convirtieron en multimillonarios y políticos de alto nivel.


Hoy el mundo entero vive de acuerdo a las leyes de la publicidad, todas las esferas, pensó que MO pasará esta copa. Pues no.

Esto es sólo la apoteosis de su ineptitud profesional, cuando la nueva información no entra en la taza. O problemas con la traducción. Sólo puedo simpatizar :)

 
Maxim Dmitrievsky #:

Es sólo el apogeo de su blasfemia cuando la nueva información ya no entra en el cuenco de ninguna manera. O problemas de traducción. Sólo puedo simpatizar :)

se tergiversan todos los términos, se distorsiona la información básica hasta hacerla irreconocible.

¿Puedes transmitir a la plebe la información no distorsionada?

 
СанСаныч Фоменко #:

...

El documento justifica con cierto detalle la elección de RF como algoritmo de base , estipulando específicamente que se puede utilizar cualquier (?) algoritmo MO en lugar de RF. Como generalización de este pensamiento, se utiliza el término molestia, es decir, desagradable, odioso, molesto. Si es por texto, probablemente debería traducirse como "una función del ruido", es decir, el algoritmo RF es una "función del ruido". Pero qué intrincado y bonito suena, y lo que es más importante, el lector, que antes pensaba que la RF produce reglas con algún error, simplemente lo disfruta.

...

Estaba leyendo y buscando una aplicación práctica de todo esto - ¿entonces no encontró ninguna?

Me pareció que el artículo se supone que da una herramienta para evaluar la medición de la desviación del área de la muestra agregada de la muestra sobre la que se llevó a cabo la formación. En consecuencia, disponiendo de esta herramienta es posible detectar partes anómalas de la muestra. ¿Cree que existe o no?

 
Aleksey Vyazmikin #:

¿Puedes transmitir información sin adulterar a la plebe?

Puedo simpatizar

 
СанСаныч Фоменко #:

pensaba que me la estaban chupando ..... Oh, no.

Y yo soy de la misma opinión)).

Estas profundas palabras describen todo este hilo
 
Aleksey Vyazmikin #:

He leído y buscado una aplicación práctica de todo esto... ¿no la has encontrado?

Me pareció que el artículo debía dar una herramienta para evaluar la medida de la desviación del área de la muestra agregada con respecto a la muestra sobre la que se realizó la formación. En consecuencia, disponiendo de esta herramienta es posible detectar partes anómalas de la muestra. ¿Cree que existe o no?

No está en el artículo.

Describe el ajuste habitual con diferentes divisiones de los predictores originales, incluida la validación cruzada. Una rutina que se ha camuflado con palabras.

 
СанСаныч Фоменко #:

No está en el artículo.

Se describe el ajuste habitual con diferentes divisiones de los predictores originales, incluida la validación cruzada. Una rutina que se ha camuflado con palabras.

Gracias por la opinión del experto.

 
Maxim Dmitrievsky #:


y las funciones(o parámetros) perturbadoras no son funciones de ruido, sino auxiliares, que no son funciones objetivo para una tarea concreta


¿Puedo tener un enlace en el artículo a una vista de estas funciones "auxiliares"?

Al mismo tiempo, se describen con bastante detalle las razones para utilizar RF, que se denomina función básica y que computa mucha información como resultado del trabajo:

Un objeto de clase randomForest , que es una lista con los siguientes componentes:

llamada

la llamada original a randomForest

tipo

uno de regresión, clasificación , o no supervisado .

predicho

los valores predichos de los datos de entrada basados en muestras fuera de la bolsa.

importancia

una matriz con nclass + 2 (para clasificación) o dos (para regresión) columnas. Para la clasificación, las primeras n columnas de nclass son las medidas específicas de la clase calculadas como disminución media de la precisión. La columna nclass + 1 es la disminución media de la precisión en todas las clases. La última columna es la disminución media del índice de Gini. Para la regresión, la primera columna es la disminución media de la precisión y la segunda la disminución media del MSE. Si importance=FALSE , la última medida se devuelve como vector.

importanceSD

Los "errores estándar" de la medida de importancia basada en permutaciones. Para la clasificación, una matriz p por nclase + 1 correspondiente a las primeras nclases + 1 columnas de la matriz de importancia. Para regresión, un vector de longitud p.

localImp

una matriz p por n que contiene las medidas de importancia por caso, cuyo elemento [i,j] es la importancia de la i-ésima variable en el j-ésimo caso. NULL si localImp=FALSE .

ntree

número de árboles cultivados.

mtry

número de predictores muestreados para la división en cada nodo.

bosque

(una lista que contiene todo el bosque; NULL si randomForest se ejecuta en modo no supervisado o si keep.forest=FALSE .

err.rate

(sólo clasificación) vector de tasas de error de la predicción sobre los datos de entrada, siendo el elemento i-ésimo la tasa de error (OOB) de todos los árboles hasta el i-ésimo.

confusión

(sólo clasificación) la matriz de confusión de la predicción (basada en datos OOB).

votos

(sólo clasificación) matriz con una fila para cada punto de datos de entrada y una columna para cada clase, que indica la fracción o el número de "votos" (OOB) del bosque aleatorio.

oob.veces

número de veces que los casos están "fuera de la bolsa" (y, por tanto, se utilizan para calcular la estimación del error OOB).

proximidad

si proximity=TRUE cuando se llama a randomForest, una matriz de medidas de proximidad entre la entrada (basada en la frecuencia con que pares de puntos de datos están en los mismos nodos terminales).

mse

(sólo regresión) vector de errores cuadráticos medios: suma de los residuos al cuadrado dividida por n .

rsq

(sólo regresión) "pseudo R-cuadrado": 1 - mse / Var(y).

prueba

si se proporciona un conjunto de pruebas ( a través de los argumentos xtest o ytest), este componente es una lista que contiene la predicción correspondiente , tasa de errores, confusión, votos ( para clasificación) o predicción, mse y rsq ( para regresión) para el conjunto de pruebas. Si proximity=TRUE , también hay un componente, proximity , que contiene la proximidad entre el conjunto de prueba, así como la proximidad entre los datos de prueba y de entrenamiento.


No se sabe qué utiliza exactamente el autor de la lista anterior, pero sencillamente no hay otras fuentes para determinar los errores de clasificación o regresión cuando se utiliza RF, y no hay necesidad de ellas.

Los errores producidos por la RF serán diferentes para distintas combinaciones de datos de entrada. Esto es lo que el autor estudia y saca conclusiones sobre la varianza del error y un cierto sesgo, no se sabe cómo, calculado.

 
Maxim Dmitrievsky #:
¿También es terapeuta de profesión? No, soy terapeuta a tiempo completo.

Sí, estoy buscando clientes, ¿le gustaría apuntarse?

De hecho, no aceptas críticas. Viste algo similar a lo que haces - con filtrar porciones incómodas de la muestra, lo que en tu mente dio cientificidad a tu enfoque y ahora lo defiendes. Una de las formas en que lo defiendes es atacándolo - menospreciando e insultando a tu oponente. Admito que ha progresado en este asunto -se ha vuelto más comedido- e incluso puedo elogiarle por ello.

Al mismo tiempo, mi propuesta sobre la actividad conjunta, es decir, una propuesta constructiva destinada a enriquecer los conocimientos sobre el tema estudiado - usted la llama una distracción del tema.

¿Cuál es el tema de este hilo - demostrar la belleza y la singularidad de las mentes de los participantes individuales? En otras palabras, ¿parloteo en lugar de búsqueda de la verdad, en su opinión?

 
Maxim Dmitrievsky #:
Tengo muy claro lo que escribo, si no, no lo escribiría. No lo haces. Deja de dar vueltas, eres molesto.
.
Estudia el material, luego lo discutiremos. Si no puedes - no me molestaré. Masticarlo y llevártelo a la boca es para otras personas.

Maxim, antes tiré la traducción que conseguí. De ella, hablando francamente, llegué a conclusiones similares a las de SanSanych Fomenko. Admito que es una traducción distorsionada, como un montón de cosas allí sólo suena extraño entonces son el tratamiento de muestreo, a continuación, el ajuste de los indicadores ....

Es por eso que le sugiero que explique lo que nadie ha entendido, en sus propias palabras, al menos en estas palabras. Tal vez después de que voy a percibir la información escrita de manera diferente.

He aquí un extracto de la traducción, ¿está todo claro?