Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3388

 
Maxim Dmitrievsky #:

Por que um grande número de sinais é ruim? Gráfico interessante de um livro sobre kozulu.

Probabilidade de encontrar o mesmo exemplo na amostra de treinamento, dependendo do número de recursos.

Não está claro. Probabilidade de encontrar o mesmo exemplo que na amostra de treinamento?

 
Aleksey Vyazmikin #:

Nada está claro. Probabilidade de encontrar onde está o mesmo exemplo que na amostra de treinamento?

a mesma linha no conjunto de dados

se você tiver apenas 1.000 linhas

Em termos gerais, se você tiver mais de 18 recursos, estará treinando um classificador para se lembrar de cada linha porque elas nem se repetem

e, na inferência causal, você não pode combinar exemplos para calcular estatísticas.
 
Aleksey Vyazmikin #:

1. Como você obtém essa matriz? Quais são os números nela contidos?

2. Estou falando de regras. Em minha abordagem, não me importo como e do que a regra é derivada, mas se a resposta for semelhante a outra na amostra de treinamento, ela não contém informações adicionais.

1. quaisquer valores de recursos

2. Vou surpreendê-lo, ninguém se importa como os recursos foram criados, todos avaliam os recursos com base apenas na resposta
 
Maxim Dmitrievsky #:

Por que um grande número de sinais é ruim? Gráfico interessante de um livro sobre kozulu.

Probabilidade de encontrar o mesmo exemplo na amostra de treinamento, dependendo do número de recursos.

Se você tiver mais de 14 (e até 10) recursos, terá muitas regras que não poderão ser reduzidas sem perda.


Tudo isso está dentro da estrutura casual.
Em modelos com recursos não estruturados (texto, imagens).
Alguns milhares de atributos são a norma.
 
mytarmailS #:
Tudo isso está dentro da esfera do casual...
Em modelos com recursos não estruturados (texto, imagens).
Alguns milhares de atributos são normais.

Eles usam algoritmos de compactação eficientes dentro da neurônica, como o sec2sec, então isso também é verdade.

 
Maxim Dmitrievsky #:

Ele usa algoritmos de compactação eficientes dentro da neurônica, como o sec2sec, portanto, também é justo.

Se estivermos falando de texto, ele usa em 95% dos casos a contagem usual de palavras, como - quantas vezes uma palavra ocorreu em uma determinada observação? 0, 1, 103..

E, para que a matriz de recursos ocupe menos espaço, ela é mantida no formato de "matriz esparsa", o que é favorável porque 95% dos valores da matriz são zeros.

As imagens são convolução.

E seq2seq é exótico para um problema raro.
 
mytarmailS #:
Se estivermos falando de texto, em 95% dos casos é usado o contador de palavras usual, como - quantas vezes uma palavra ocorreu nessa observação? 0, 1, 103..

E para tornar a matriz de recursos menos ocupada, ela é mantida no formato de "matriz esparsa", o que é favorável porque 95% dos valores da matriz são zeros
.

Nas imagens, a convolução.

E o seq2seq é exótico para um problema raro.

São arquiteturas diferentes, bolos de camadas. É difícil comparar. Estamos falando de classificação ou regressão normal. Nesse caso, parece ser uma lei universal.

 
Maxim Dmitrievsky #:

Essas são outras arquiteturas, bolos de camadas. É difícil comparar. Estamos falando de classificação ou regressão comuns. Nesse caso, parece ser uma lei universal.

É tudo a mesma coisa.

Não estou falando de neurônios, estou falando da estrutura do feedforward.

----------------------------------------------------------------------

Ah, eu me lembro, ele é chamado de saco de palavras.



O que é novo, desconhecido, incompreensível, complicado?


A mesma tabela de sinais + qualquer MO


Isso é trabalhar com dados não estruturados (texto) e, em seguida, traduzi-los em uma estrutura de saco de palavras e, depois, em qualquer outra coisa que quisermos

 
mytarmailS #:
É tudo a mesma coisa.

Não estou falando de neurônios, estou falando da estrutura do feed de características.

----------------------------------------------------------------------

Ah, eu me lembro, é chamado de saco de palavras.



O que é novo, desconhecido, incompreensível, complicado?


A mesma tabela de sinais + qualquer MO


Isso é trabalhar com dados não estruturados (texto) e, em seguida, traduzi-los em uma estrutura de saco de palavras e, depois, em qualquer outra coisa que quisermos

Isso é de um tópico diferente. Não importa como você os transforme, a dimensionalidade do vetor de entrada deve ser menor do que o limite especificado, caso contrário, você não conseguirá determinar um padrão. Os categóricos provavelmente têm um limite maior para o comprimento do vetor. Além disso, considere a dependência do número de linhas. Em dados enormes, o número de recursos pode ser maior.
 
Maxim Dmitrievsky #:
Essa é uma questão diferente. Não importa como você os transforme, a dimensionalidade do vetor de entrada deve ser menor do que o limite especificado, caso contrário, não será possível detectar um padrão. Os categóricos provavelmente têm um limite maior para o comprimento do vetor. Além disso, leve em conta a dependência do número de linhas. Em dados enormes, o número de recursos pode ser maior.
O que mais)))
O mundo inteiro faz isso e todos ficam felizes)