Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3333
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
sibirqk #:
Они синхронизированы. Я же написал в начале поста - 'выровнял их по датам', что как раз и означает синхронизацию пар по времени.
"Pero por desgracia, imho, es completa aleatoriedad de nuevo. La imagen es un trozo de gráfico para ilustrar".
Tienes razón, no es tan sencillo
En el ejemplo hay 2 predictores, es decir, cambiamos la distancia en el espacio de 2 dimensiones (calcular la hipotenusa). Si habrá 5000 signos, entonces se mide la distancia en el espacio de 5000 dimensiones (cómo medir - ver el código de k-means en alglib, es la tarea principal allí - para medir distancias, tomarlo como base).
Se parece a la raíz de la suma de cuadrados de catetos en todos los espacios https://wiki.loginom.ru/articles/euclid-distance.html.
Ahora surge una comprensión - gracias - voy a pensar en ello.
Si realmente lo vas a hacer - no te olvides de ajustar los predictores, para que por ejemplo los volúmenes 1...100000 no se traguen los deltas de precios 0,00001...0,01000 en los cálculos.
Cierto, es necesario normalizar. Sin embargo, ¿qué pasa si no los cuantificamos y calculamos las métricas puramente por índices? :) Y no me gusta la idea de contar por catetos, ya es artificial de por sí.
Aunque lo correcto sería reproducir el algoritmo propuesto y luego pensar en mejorarlo.
¿Cómo detectarlo? Esa es la cuestión. Sobre todo en datos de mercado, donde no habrá una separación tan clara de la zona ruidosa como en el ejemplo. Todo será ruidoso, entre el 90 y el 99%.
Puede que sea más fácil utilizar paquetes ya preparados para eliminar las líneas ruidosas, quizá tengan un detector.....
En realidad, ¿has visto el video? Ahí cerca del final del vídeo dice que se construye el modelo, que justo y detecta a qué zona pertenecen los datos, y si a no acumulativa, según la muestra dada sobre la que se realizó el entrenamiento, se ignora la señal, según tengo entendido. Está claro que tenemos datos mucho peores que los comentados ahí, pero si es un 20%-30% del objetivo "1", ya estaré contento.
Otra opción es entrenar el modelo para detectar esos ejemplos excluidos marcando esas filas en la muestra global.
Así es, hay que normalizar. Sin embargo, ¿y si no se cuantifican y la métrica se calcula únicamente por índices? :) Y no me gusta la idea de contar a través de los catéteres: es artificial.
Un chip está cuantificado a 2 cuantos, el otro a 32. No funcionará.
En realidad, ¿has visto el vídeo? Allí cerca del final del vídeo dice que se construye el modelo, que justo y detecta a qué área pertenecen los datos, y si a no acumulativa, según la muestra dada sobre la que se realizó el entrenamiento, entonces se ignora la señal, según tengo entendido. Está claro que tenemos datos mucho peores que los que se comentan ahí, pero si es un 20%-30% del objetivo "1", me daré por contento.
Otra opción es entrenar el modelo para detectar estos ejemplos excluidos marcando esas filas en la muestra global.
No lo he mirado.
Puedes detectar ejemplos excluidos sin todos estos cálculos. Ya te lo he dicho - sólo excluye las hojas con probabilidad de una de las clases alrededor del 50%.
Un chip se cuantifica a 2 cuantos, el otro a 32. No sirve de nada.
Nah, será el mismo lugar relativo - número de splitters(divisiones) - fijo para todos.
Puedes detectar ejemplos excluidos sin todos estos cálculos. Ya te lo he dicho - sólo excluir las hojas que tienen alrededor del 50% de probabilidad de una de las clases.
Puede haber muchos métodos diferentes. Estoy interesado en la variante de procesamiento antes de la construcción del modelo - como me parece, que da menos variantes de la construcción de combinaciones, lo que reduce el error en la conclusión final - si el modelo final fue entrenado con éxito o no, en general.
Además, si hablamos del hecho de que usted puede "tirar" algo, usted debe mencionar lo que los modelos que estamos hablando. Si se trata de un bosque, ¿debemos contar el porcentaje de hojas sin "descartar" o contar el número de activaciones de estas hojas cercanas al 50% y no reaccionar a la señal si se supera su umbral?
En el caso del bousting, la cosa es aún más divertida: las hojas inciertas en total pueden desplazar la probabilidad en un sentido u otro. Sigo queriendo hacer un gráfico para mostrar cómo se distribuyen los pesos en función del desplazamiento de la probabilidad, pero lo sigo posponiendo. Durante tres días el ordenador considera la similitud de las hojas modelo - pienso en optimizar el algoritmo - demasiado largo....
Si hay 5000 características
Bueno, ¿por qué no hay caso - Creo que python no es sólo muy extendida entre los comerciantes, sin embargo, para que la gente se mueve a la discusión activa.
Voy a probar su enfoque más adelante en mi muestra.
¿Has probado el método out-of-the-box de CatBoost?
Cuál es el método out of the box
Esta es la funcionalidad.
Hay diferentes formas de dividir/separar los datos y ya se han probado antes en este hilo - no mostraron resultados significativos, así que se "olvidaron".
Existen las redes bayesianas - a primera vista son interesantes sólo por su capacidad para restablecer las relaciones causa-efecto.
Aquí está esa funcionalidad.
Hay diferentes formas de dividir/separar datos y ya se han probado en este hilo anteriormente - no mostraron resultados significativos, por lo que fueron "olvidadas".
Hay redes bayesianas - a primera vista son interesantes sólo por su capacidad de restaurar las relaciones causa-efecto.
No, será el mismo lugar relativo - el número de divisores (divisiones) - fijo para todos.
Tienes muchos predictores binarios con 0 y 1. No se dividirán en 32. Pero si los normalizas, podrías obtener algo con cuantificación Uniforme. Si cuantificación no uniforme, entonces solo por números todas las distancias serán distorsionadas, necesitas abs valores después de normalización.
El error estará en la predicción si no puede deshacerse del ruido como en el entrenamiento.
El desempate es aún más divertido allí - las hojas inciertas en la suma pueden cambiar la probabilidad en una dirección u otra - sigo queriendo hacer un gráfico para mostrar cómo se distribuyen los pesos dependiendo del cambio de probabilidad, pero sigo posponiéndolo. Durante tres días el ordenador considera la similitud de las hojas del modelo - pienso en optimizar el algoritmo - demasiado largo....
No importa si es árbol, bosque o arbusto. Si la predicción del modelo es del 50%, entonces habrá un 50% de 0 y un 50% de 1 en la predicción.