Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 385

 
Maxim Dmitrievsky:


Eles fazem este tipo de trabalho? Eu entendo que é um fundo de cobertura, se você se inscrever, o que vai fazer?

Eu estou a correr com modelos diferentes, até agora o mesmo que tu tens 0,5

Bem, 0,5 e 0,513 é diferente, claro que não tanto para negociação, mas ainda assim. Eles se autodenominam hedge-funds, eu não sei sobre sua estrutura legal, na América não existe formalmente esse tipo de organização, mas eu posso estar errado. Se você se registrar você pode participar na previsão do mercado com uma semana de antecedência, em tais conjuntos de dados, alguém consegue levantar >$10k nele, mas eu pessoalmente conheço aqueles que ganharam apenas algumas centenas de libras))))
 
Aliosha:
Bem, 0,5 e 0,513 é diferente, claro que não é muito para negociar, mas mesmo assim. Eles se autodenominam hedge-fundo, não sei qual é a sua estrutura legal, na América não existe formalmente esse tipo de organização, mas eu poderia estar errado. Se você se registrar você pode participar na previsão do mercado com uma semana de antecedência, em tais conjuntos de dados, alguém consegue levantar >$10k nele, mas pessoalmente eu conheço aqueles que só ganharam algumas centenas de libras))))


Então como funciona? eles jogam o conjunto de dados, eu tenho que treinar a rede nele e depois o que? acho que tem um truque, você precisa fazer uma seleção de recursos )

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Выбор признаков в процессе обработки и анализа данных группы
Выбор признаков в процессе обработки и анализа данных группы
  • 2017.03.24
  • bradsev
  • docs.microsoft.com
В этой статье описаны цели выбора характеристик и приводятся примеры, поясняющие его роль в совершенствовании данных в процессе машинного обучения. Эти примеры взяты из Студии машинного обучения Azure. Реконструирование признаков: этот процесс направлен на создание дополнительных признаков на основе соответствующих существующих необработанных...
 
Maxim Dmitrievsky:


ou seja, como funciona? eles lançam um conjunto de dados, eu tenho que treinar a rede e depois o quê? acho que tem um truque, eu preciso fazer uma seleção de características )

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Entre e leia o guiador, eles têm meia página de comprimento. Basta baixar o conjunto, ensiná-lo, executá-lo em um teste e enviá-lo para eles, há um exemplo de como o resultado deve ser, então os id's e nomes das colunas devem ser como os deles.
 
Aliosha:
Assine e leia os rolos, há meia página lá. Basta baixar o conjunto, aprendê-lo, executá-lo em um teste e enviá-lo para eles, há um exemplo de como o resultado deve ser, então os id's e nomes das colunas devem ser como os deles.

Sim, vou tentar mais tarde... em resumo, este conjunto de dados é inútil, sem padrão )
 

numerai mudou as regras um par de vezes este ano.

Costumava ser simples e bom - treinar um modelo em uma mesa de trem, verificar o erro na mesa de teste, enviar-lhes previsões, extrapolá-las para sua mesa de teste oculta, contar o erro na mesma. Quem tiver menos erros na mesa escondida, ganha. Foi muito bom e correto que o erro no conjunto de dados do teste realmente coincidiu com o do conjunto de dados oculto, para que você pudesse verificar o seu modelo.

Então eles mudaram alguma coisa, e o erro no conjunto de dados de teste deixou de se correlacionar com o erro no conjunto de dados de verificação oculto. Todos os líderes do topo desapareceram, apenas pessoas aleatórias que tiveram a sorte de colocar o seu modelo na sua mesa de cheques escondida, ganharam. Imho o fracasso da parte do numerai, algumas porcarias aleatórias e não um concurso.

Então eles viram que todas as pessoas adequadas se afastaram do seu concurso aleatório, perceberam o seu erro e mudaram alguma coisa. Agora as previsões são avaliadas de acordo com vários critérios. O critério que mais me irrita é a "singularidade", se alguém enviou resultados semelhantes antes, então o seu será rejeitado como plágio. Ou seja, se várias pessoas usam a mesma estrutura para criar um modelo, aquele que acordou cedo e enviou uma previsão vai receber o dinheiro.
A precisão dos modelos é agora completamente inútil no cálculo dos lucros. Você pode obter erro 0, estar em 1º lugar no topo e não ganhar nada, porque o topo mostra o resultado nos dados de teste que eles mesmos dão para baixar, o topo não mostra mais o resultado de sua tabela de cheques escondidos.
A actual iteração do concurso deles é um disparate, sem transparência, tudo está confuso. Esperando que eles mudem algo no concurso novamente, espero que seja adequado novamente.

 
Maxim Dmitrievsky:

Sim, vou tentar mais tarde... em suma, este conjunto de dados é inútil, não há padrão)
Experimenta esta mesa. Treinar o modelo apenas nas linhas onde data_type=="validação". Estes são os dados usados para avaliar o modelo e chegar ao topo. Se você conseguir 100% de precisão, você estará em primeiro lugar no topo. Mas não vais receber um prémio em dinheiro por uma trapaça destas.
Arquivos anexados:
 
Dr. Trader:
Experimenta esta mesa. Treinar o modelo apenas nas linhas onde data_type=="validação". Estes são os dados que são usados para avaliar o modelo e chegar ao topo. Se você conseguir 100% de precisão, você estará em primeiro lugar no topo. Mas não te darão um prémio em dinheiro por esta fraude.

Oh, fixe, vou tentar amanhã... óptimo para praticar )
 
Dr. Trader:
Experimenta esta mesa. Treinar o modelo apenas nas linhas onde data_type=="validação". Estes são os dados que são usados para avaliar o modelo e chegar ao topo. Se você conseguir 100% de precisão, você estará em primeiro lugar no topo. Mas não vais receber um prémio em dinheiro por uma trapaça destas.


novamente 0,5



 

É importante entender como os resultados dos conjuntos de dados de treinamento e avaliação coincidem. Vejo ali um conjunto de dados dividido, pela lógica (talvez eu esteja errado) os dados são divididos aleatoriamente em dois grupos, o primeiro grupo é treinado pelo modelo, o segundo grupo é apenas previsto e avaliado pelo modelo.

Qual será o resultado se você predizer os mesmos dados sobre os quais foi treinado?
E depois prever os dados nos quais não foi treinado, e comparar a precisão do modelo em ambos os casos.

Se em dados treinados ele prevê com 100% de precisão, e em dados estimados - 50% - então o modelo é muito super-treinado, isso é ruim.

 
Dr. Trader:

É importante entender como os resultados dos conjuntos de dados de treinamento e avaliação coincidem. Vejo ali um conjunto de dados dividido, pela lógica (talvez eu esteja errado) os dados são divididos aleatoriamente em dois grupos, o primeiro grupo é treinado pelo modelo, o segundo grupo é apenas previsto e avaliado pelo modelo.

Qual será o resultado se eu prever os mesmos dados que foram usados para o treinamento?
E depois prever os dados que não foram usados para treinamento e comparar a precisão do modelo em ambos os casos.

Se em dados treinados ele prevê com 100% de precisão, e em dados estimados - 50% - então o modelo está muito sobre-treinado, é ruim.


Também aprendi 50% das previsões. Removi a data da divisão e submeti o mesmo conjunto que um teste.

Bem, primeiro o conjunto é muito grande, segundo não sabemos a natureza das características e modelos lineares como vetores e florestas não cabem aqui obviamente, precisamos fazer uma complexa não grade, talvez essa seja a razão. Ainda não sei bem como modificar a rede neural neste estúdio para torná-la mais complexa, por exemplo, a convolução para tentar fazer

A partir deste: https://gallery.cortanaintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2

Eu ainda sou novo nas grelhas... )