Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1963

 
Maxim Dmitrievsky:

D-neurónios múltiplos (tipo grelha)

erro, % = 45,10948905109489

adeus )

Eu enviei ao autor da grelha os meus cortes e a minha indignação pelo correio.
O que você determinou? A autenticidade das notas?
 
Valeriy Yastremskiy:
O que você determinou? A autenticidade das notas?

Sim

 
Maxim Dmitrievsky:

sim

Lógica falhada.
 
Valeriy Yastremskiy:
Lógica imperfeita.

Pode haver algumas armadilhas. Por exemplo, você não pode usar valores negativos em atributos porque usa valores binários em seus microtestestes. Não há nada sobre isso na descrição escassa, não mostra nenhum erro.

 
Maxim Dmitrievsky:

pode haver armadilhas. Por exemplo, você não pode ter valores negativos nos atributos porque usa os binários em seus microtestestestes. Não há nada sobre isso na descrição escassa, não mostra erros.

A corrupção ocorre frequentemente com base em sintomas inexplicáveis. E é um problema detectá-los em uma lógica aparentemente correta.
 
Pesos de um lado e binaridade do outro. É de lá que viemos.
 

Interessante abordagem NS para a Filtragem Colaborativa

Você pode pegar ferramentas e estratégias de negociação ao invés de pessoas e IDs de filmes, e algumas métricas ao invés de notas (expectativa, etc.). Em seguida, calcular variáveis ocultas para o instrumento e a estratégia. E depois tudo o que quiseres. Combinar o sistema com o instrumento ou gerá-lo na mosca com as características necessárias, construir sintéticos para o sistema....

 
Maxim Dmitrievsky:
Enviei ao autor da grelha, por e-mail, os cortes e a minha indignação.

O que será que ele escreveu de volta?

 
mytarmailS:

O que será que ele escreveu?

Nada até agora. Tem de haver alguma regularidade nas amostras, essa é a questão. É uma abordagem diferente. Acho que em sets regulares e em sets que devem ser ensinados. Ou seja, quanto mais baixa a entropia na fila, melhor a res, e nesse conjunto de dados as amostras são embaralhadas aleatoriamente. Em termos oabochanscianos, não é tanto o padrão que é importante, mas a sequência dos padrões.
 
elibrarius:
Misturamos a divisão mais limpa com as menos limpas. Ou seja, vamos piorar o resultado na bandeja, em princípio não é importante para nós. Mas não é certo que melhore o resultado do teste, ou seja, a generalizabilidade. Alguém devia tentar... Pessoalmente, acho que a generalização não será melhor do que o caso dos andaimes.

É muito mais fácil limitar a profundidade da árvore e não fazer a última fenda, parando na anterior. Vamos acabar com a mesma folha menos clara do que se fizéssemos uma divisão extra. A sua opção daria algo no meio, quer fizéssemos uma divisão ou não. Isto é, por exemplo, você irá calcular a média da folha no sétimo nível de profundidade com o seu método. Será ligeiramente mais limpo do que a folha de nível 6 de profundidade. Acho que a generalização não vai mudar muito, e é muito trabalho para testar a ideia. Você também pode obter uma média de algumas árvores com níveis de profundidade 6 e 7 - você obterá aproximadamente o mesmo que a sua metodologia.

Provavelmente não esclareci antes que deveria haver pelo menos 1% de indicadores na folha em amostras pequenas e 100 em amostras grandes, portanto, é claro que a divisão não será ao ponto de não haver erro na folha em nenhuma classe.

Você parece entender mal o último passo - eu o vejo como uma avaliação estatística do 1% restante da amostra - nesta amostra observamos que o resultado melhora com divisões por diferentes preditores, obtemos informações subespaciais, por exemplo:

Se A>x1, então o alvo 1 estará correto 40% que é 60% da subamostra

Se B>x2, então o alvo 1 será corretamente identificado com 55%, que é 45% da subamostra.

Se A<=x1, então o alvo 1 será corretamente definido em 70%, o que é 50% da subamostra

Cada uma destas divisões tem um fator de significância (ainda não decidi como calculá-la), e a última divisão também tem um.

e assim por diante, digamos até 5-10 preditores, então ao aplicar, se chegarmos à última divisão, somamos os coeficientes (ou usamos um método de soma mais complicado), e se a soma dos coeficientes exceder o limiar, então a folha é classificada em 1, caso contrário, zero.


Uma maneira simples de implementar isto é construir à força uma floresta até a penúltima fração, e depois excluir os preditores já selecionados da amostra, para que novos sejam selecionados. Ou simplesmente, depois de construir a árvore, filtrar a amostra por folha e passar por cada preditor por si só em busca da melhor divisão que satisfaça o critério de completude e precisão.

E, o resultado na amostra de treinamento irá melhorar se a outra classe "0" significar nenhuma ação e não o oposto, caso contrário pode haver tanto melhoria quanto deterioração.