Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 29

 
Dr. Trader:

Eu desenhei um gráfico de R^2 e percentagem de casos vencedores em função do número de componentes utilizados. O melhor resultado na frente foi com 41 componentes (ganho de cerca de 70%, muito bom). Mas não se pode dizer isso pelos gráficos de trás, eles continuam a subir o tempo todo. Se dependermos da importância dos componentes, deveríamos ter tomado 73, o que não é o melhor resultado na frente.

R^2 de fronttest pode ser negativo mesmo com ganhos >50%, devido a resultados requeridos desequilibrados, o número de classes "0" é diferente de "1", portanto sua média não é 0,5, e R^2 é um pouco pior do que isso.

Use a validação cruzada para pegar o número de componentes. O melhor valor na validação cruzada e, em seguida, verificar o conjunto de validação.
 

Se for o caso, vou anexar o meu conjunto de dados (classificação binária).

Existem nove parâmetros de entrada (no início) - todos informativos e um de saída (na coluna mais à direita).

Se a produção for 1, então a próxima diferença de preço de abertura do bar é positiva, se for 0, então é negativa.

A questão de interesse é, qual deles terá melhor capacidade de generalização do que o meu algoritmo?

Arquivos anexados:
datasets.zip  21 kb
 
Yury Reshetov:

Já que é a primeira vez, estou a anexar o meu conjunto de dados.

Existem nove parâmetros de entrada (no início) - todos informativos e um parâmetro de saída (na coluna mais à direita).

Se a produção for 1, então a próxima diferença de preço de abertura do bar é positiva, se for 0, então é negativa.

Estou interessado na pergunta, quem tem uma melhor capacidade de generalização do que o meu algoritmo?

1. Como é provada a "informatividade dos preditores"?

2. O que é "generalizabilidade"?

 
SanSanych Fomenko:

1. Como é provada a "informatividade do preditor"?

2. O que é "generalisabilidade"?

1. Uma deterioração marcada na generalidade se pelo menos um preditor informativo for removido da amostra

2. Veja o vídeo:


 
Yury Reshetov:

1. Deterioração marcada na generalidade se pelo menos um preditor informativo for removido da amostra

2. Veja o vídeo:


Yury, olá. Vou tentar ver os seus dados.
 
Alexey Burnakov:
Yuri, olá. Vou tentar ver os seus dados.

Saudações!

Se você estiver interessado nos dados, posso traçar um roteiro que coleta informações dos gráficos e as escreve em um arquivo.

 
Yury Reshetov:

1. Deterioração marcada na generalidade se pelo menos um preditor informativo for removido da amostra

2. Veja o vídeo:


2. Veja o vídeo:

Desculpe, mas o habitual disparate de um estudante de doutorado sem instrução que ainda não foi explicado que há muitas outras pessoas além da sua amada que não só sabem tudo, não só progrediram muito mais, mas também implementaram em algoritmos usados por milhões de pessoas (se você incluir os estudantes aqui)

1. Uma deterioração perceptível na generalidade se você remover pelo menos um preditor informativo da amostra

Acredite em mim, infelizmente isto não prova nada. Além disso, se o conjunto de preditores for mau (muito ruído), este efeito será tanto mais forte quanto mais ruído. Isto é explicado de forma muito simples: quanto mais ruído, mais fácil é para o algoritmo encontrar um valor "conveniente".

Em relação ao problema em geral.

Há um número bastante grande de algoritmos que determinam a importância dos preditores para uma determinada variável alvo. Estes algoritmos podem ser divididos em dois grupos: os que são construídos no algoritmo de construção do modelo e os que existem de forma autónoma. Na minha opinião e na opinião das pessoas do ramo e no link que citei aqui, todos estes algoritmos sofrem de uma falha comum: se existe um certo número crítico de preditores ruidosos entre os preditores, o algoritmo deixa de funcionar e, além disso, começa a descartar os preditores que são relevantes para a variável alvo.

É por isso que nós aqui no ramo tentamos limpar preliminarmente o conjunto inicial de preditores, e depois trabalhamos com o resto dos preditores usando métodos padrão.

Em relação ao seu ficheiro.

1. Não fui capaz de construir 6 modelos de classificação nos seus dados: erros superiores a 50%. Se quiser, posso publicar os resultados aqui.

2. A razão para este resultado é que você tem um conjunto muito pobre de preditores - ruído, ou seja, preditores não relevantes para a variável alvo. Os preditores 6, 7 e 8 têm algum poder de previsão, mas muito pouco. Eu não trabalho com tais preditores. Os outros são apenas barulho.

PS.

Se estás mesmo interessado no assunto, Caret. Assim que o dominares, vais ensinar aquele tipo esperto do vídeo. O Caret tem quase 200 modelos + funções de preparação muito úteis + dois muito bons algoritmos de selecção de preditores.

PPSS.

Uma vez em um fórum postado minha visão do que "preditor é relevante para a variável alvo" significa

Então.

Pegue a variável alvo: masculino/feminino.

Preditor: vestuário.

Se o preditor (vestuário) contém apenas saias e calças, então para a população de vários países este preditor será 100% relevante para a variável alvo - entre ambíguos. Mas as roupas vêm em variedades diferentes e de uma variedade maior. Portanto, não 100%, mas menos. Ou seja, percebemos que algum conjunto de roupas pode ter uma relação com a variável alvo, e outro conjunto pode, em princípio, não ter qualquer relação. Isto é, barulho. Portanto, o problema é como encontrar tais preditores de ruído que NÃO sejam ruídos em uma janela e não em outra. E qual é a medida desse "barulho"?

 
Yury Reshetov:

Saudações!

Se você estiver interessado nos dados, eu posso postar um script que coleta informações dos gráficos e as grava em um arquivo.

Eu também tenho uma pergunta. Você precisa construir um preditor em um trem e medir o erro em um teste? E podemos compará-lo com o seu resultado, certo?
 
Alexey Burnakov:
Eu também tenho uma pergunta. Devo construir um preditor no comboio e medir o erro no teste? E podemos compará-lo ao seu resultado, certo?
Mm-hmm.
 

Colegas, se tiverem tempo, podem fazer-me perguntas sobre o artigo?https://habrahabr.ru/company/aligntechnology/blog/303750/

Habr está em silêncio!

Методические заметки об отборе информативных признаков (feature selection)
Методические заметки об отборе информативных признаков (feature selection)
  • habrahabr.ru
Всем привет! Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных. В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением...