Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 555

 
Maxim Dmitrievsky:

por isso não sei no que acreditar nesta vida... tudo tem de ser verificado duas vezes.


Benchmarks são a salvação))))

Várias conversões e cortes. O de cima são os dados em bruto.

trem = amostra rms com teste sql. leve = OOS. tempo = rms tempo em seg.


 
Em relação às emissões em conjuntos de dados, o mercado poderia utilizar este método.
 

Às vezes me pergunto a partir deste fórum. É tudo calmo e aborrecido. E de repente, algumas pessoas como Vladimir ou Vizard_ ou o podotr mais suspeito aparecem e começam a mostrar aulas magistrais. Quem são eles? Todos, por favor, mostrem os passaportes e diplomas de educação! :))))

 
SanSanych Fomenko:

Só devem ser utilizados preditores que Tenham uma RELAÇÃO com a variável alvo. Não importa se "linearmente" ou "não linearmente" não tem nada a ver com o termo muito preciso "ter uma relação".

isto e tudo mais no texto é claro, mas o que tem a ver com a correlação do atributo com o alvo num modelo inerentemente não-linear?

Eu escrevi sobre o porquê de ser necessário no modelo de regressão, mas não na classificação, porque não é o alvo mas sim as classes... aprofundar o que estou a escrever sobre :)

 
Maxim Dmitrievsky:

isto e tudo mais no texto é claro, mas o que tem a ver com a correlação do atributo com o alvo num modelo inerentemente não-linear?

e eu escrevi porque é necessário no modelo de regressão, mas não na classificação, porque não é o alvo mas sim as classes... leia mais profundamente sobre o que estou escrevendo :)


Eu não preciso de ler mais a fundo - eu entendo-te perfeitamente, mas tu não me entendes de todo.

Eu escrevo sobre overtraining (overfitting) - este é o principal inimigo de todos os modelos de classificação. O comportamento dos modelos sobreajustados NÃO é determinado no futuro.

Para combater este mal total, eu vejo duas ferramentas:

1. livrando-se do conjunto de preditores de entrada do ruído

2. testes cuidadosos.

Tudo isto que escrevo com base nos meus próprios cálculos, garanto-vos um volume muito grande, que tenho vindo a fazer há mais de um ano.

Sou preguiçoso demais para procurar e depois formar um psot legível, pois não tenho propósito de convencer ninguém de nada.


PS.

Você continua insistindo na inocuidade e mesmo na utilidade dos preditores de ruído - você não é o primeiro, existem muitas pessoas assim, eles são chamados de astrólogos.

 
SanSanych Fomenko:

Você continua insistindo que os preditores de ruído são inofensivos e até úteis - você não é o primeiro, há muita gente assim, eles são chamados de astrólogos.


Onde é que eu escrevi tal coisa?

 
Maxim Dmitrievsky:

Onde é que eu escrevi isso?

Volte a ler o seu posto.

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она (корреляция) нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы



Acontece que eu especulei e acho que o nosso desacordo se baseia no seguinte:

Você é contra a correlação e eu nunca escrevi sobre a correlação entre preditor e variável alvo.

Chama-se a isso falar.

Eu sempre escrevi: o preditor deve estar relacionado com a variável alvo. Eu nunca quis dizer correlação, regressão linear, não linear no significado da palavra"relação". Além disso, todos os algoritmos preditores de "importância" que os algoritmos de classificação dão também não são satisfatórios para mim.


Olhe para o meu exemplo: alvo: sexo com classes masculino/feminino e preditor: roupa com valor de saias/calças.

 
SanSanych Fomenko:

Volte a ler o seu posto.



Acontece que tenho especulado e penso que o nosso desacordo se baseia no seguinte:

Você é contra a correlação e eu nunca escrevi sobre a correlação entre preditor e variável alvo.

Chama-se a isso falar.

Eu sempre escrevi: o preditor deve estar relacionado com a variável alvo. Eu nunca quis dizer correlação, regressão linear, não linear no significado da palavra"relação". Além disso, todos os algoritmos preditores de "importância" que os algoritmos de classificação dão também não são satisfatórios para mim.


Olhe para o meu exemplo: alvo: sexo com classes masculino/feminino, e preditor: roupa com valor de saias/calças.


Sim, é que às vezes está escrito que os traços com o alvo devem se correlacionar exatamente, ou seja, deve haver uma dependência linear.

e eu escrevi que para modelos de regressão pode ser razoável que pelo menos 1 atributo esteja linearmente relacionado com o alvo

sobre a "relação" é claro que concordo :)

 
Vizard_:

Benchmarking de salvação))))

Várias conversões e cortes. A primeira é a de dados em bruto.

trem = r.sampling com teste de sq. leve = OOS. time = r.time em seg.



mesmo um bom resultado em um forward nem sempre é um precursor para a produção subsequente de um lucro no cartão :)

A validação cruzada já foi mencionada acima. Acho que é o melhor caminho a seguir.

 
Over-learning - Ocorre na presença de grandes pesos (~10^18), uma consequência da multicolinearidade, levando a um modelo A(x, w) instável.


O sobre-aprendizado é tratado por: paragem precoce da aprendizagem de modelos, restrição do crescimento de pesos (L1(Lasso) e regularização L2), restrição de ligações em rede (Dropout), também possível aplicação de funções de penalização (ElacticNet, Lasso).

E a regularização L1 leva à selecção de características, uma vez que zera nos seus coeficientes de peso.

A remoção de características "ruidosas" é a selecção de características. Há métodos para isto. Isto nem sempre beneficia o modelo, por isso às vezes é utilizada a regularização L2 (ajuda a resolver o problema da multicolinearidade).


SanSanych Fomenko, a sua declaração sobre a relação de características e alvos é um pouco presunçosa. Porque como você pode afirmar algo que ainda não foi provado; é para isso que o modelo MO é construído. Um modelo construído e funcional dá alguma estimativa de que existe uma relação com "mais ou menos" precisão.

E o exemplo com calças e saias, mostra a escassez de conhecimento do pesquisador sobre a área de estudo, pois em tal modelo você joga fora características valiosas sobre localização, época do ano, latitude e longitude da região de residência, e assim por diante.


Antes de construir um modelo você deve entender a área sob investigação, pois o diabo, como gênio, está nos detalhes.


PS. Ter discussões é uma coisa boa. Eles ajudam a polir pontos de vista, ensinam a fornecer bons argumentos para as teses e levam a uma verdade comum.