O que alimentar a entrada da rede neural? Suas ideias... - página 58

 
Forester #:

A generalização é mais parecida com a subaprendizagem. Ou seja, eles se lembraram, mas não com absoluta precisão (eles também envolveram os vizinhos...). Quase como um colegial com um "C"))

Mas se memorizarmos algo definido por uma lei (por exemplo, a lei de Ohm), não haverá superaprendizagem; é mais fácil haver subaprendizagem se houver poucos exemplos e um número infinito deles.

No caso da negociação, em que os padrões são quase inexistentes e barulhentos, a memorização absolutamente precisa junto com o ruído resultará em uma perda.
Por alguma razão, isso é chamado de superaprendizagem. A memorização precisa não é prejudicial em si mesma, como no caso do aprendizado de padrões. A memorização de ruído/lixo, por outro lado, não é benéfica.
A generalização é um equilíbrio entre o menos e o mais :) Um exemplo simples da vida: aprendeu bem a fórmula de Maxwell, mas não conseguiu aplicá-la na realidade, na prática, isso é aprendizado excessivo. Sabia que a fórmula de Maxwell existia, mas não se lembrava de como ela estava escrita, mas na prática se lembrou dela, leu-a novamente e a aplicou. Isso é generalização (aprendizado) e não anos desperdiçados na universidade.
 
O que há de errado com a definição usual de aprendizado - atribuir valores específicos aos parâmetros do modelo?
 
Aleksey Nikolayev #:
O que há de errado com a definição usual de aprendizado - atribuir valores específicos aos parâmetros do modelo?
Você pode perguntar ao próprio modelo :)

A definição usual de aprendizado como atribuição de valores específicos aos parâmetros do modelo pode ser insuficiente por vários motivos:

  1. Incompletude da descrição do processo: O treinamento do modelo envolve não apenas a atribuição de valores aos parâmetros, mas também o processo de otimização desses parâmetros com base nos dados. Esse processo pode incluir a seleção de um algoritmo de otimização, o ajuste de hiperparâmetros, a seleção de uma função de perda e outros aspectos que não são cobertos pela simples atribuição de valores.

  2. Ignorar a dinâmica do aprendizado: o treinamento do modelo é um processo dinâmico que pode envolver muitas iterações e etapas. A atribuição simples de valores não capta essa natureza iterativa, em que os parâmetros são gradualmente ajustados para minimizar o erro.

  3. Falta de contexto de dados: o treinamento de modelos é orientado por dados e o processo de treinamento envolve a análise e a interpretação desses dados. A simples atribuição de valores não leva em conta como os dados são usados para treinar o modelo e como isso afeta os parâmetros finais.

  4. Não levar em conta a generalização: o objetivo do treinamento do modelo não é apenas minimizar o erro nos dados de treinamento, mas também a capacidade do modelo de generalizar seu conhecimento para dados novos e não vistos. A simples atribuição de valores não capta esse aspecto da generalização.

  5. Ignorar a validação e o teste: o processo de treinamento também envolve a validação e o teste do modelo para avaliar seu desempenho e evitar o treinamento excessivo. A simples atribuição de valores não leva em conta essas etapas importantes.

Portanto, uma definição mais completa de aprendizado de modelo deve incluir um processo de otimização de parâmetros orientado por dados, levando em conta a dinâmica do aprendizado, o contexto dos dados, a capacidade de generalização e as etapas de validação e teste.

 
Em geral, eu me pergunto por que especialistas de valor começam a discutir um tópico complexo e interessante sem serem orientados sobre ele :)
 
Forester #:

Sobre o treinamento...


Há alguns anos, encontrei essa expressão em um site comum (não técnico): bancos de dados baseados em redes neurais. Em geral, concordei com esse termo para mim.



Eu mesmo faço árvores - um banco de dados baseado em árvores também é aplicável. 1 folha em uma árvore = 1 linha em um banco de dados. Diferenças:



1 linha no banco de dados contém apenas 1 exemplo dos dados armazenados no banco de dados. 1 folha contém:



1) 1 exemplo e todos os exemplos exatamente iguais (ao dividir a árvore o máximo possível até a última diferença) ou

2) 1 exemplo e exatamente os mesmos exemplos + os exemplos mais semelhantes se a divisão for interrompida antes.
Isso é chamado de generalização de exemplos. Exemplos semelhantes são definidos de forma diferente por algoritmos diferentes ao selecionar as divisões da árvore.

Vantagens das árvores em relação aos bancos de dados: generalização e busca rápida da folha desejada - não é necessário passar por um milhão de linhas, a folha pode ser alcançada por meio de várias divisões.

O agrupamento também generaliza. Kmeans - pela proximidade dos exemplos ao centro do cluster, outros métodos são diferentes.

Você também pode dividir pelo número máximo de clusters = número de exemplos e obterá um análogo de banco de dados/folhas sem generalização. As redes neurais são mais difíceis de entender e compreender, mas, em essência, também são um banco de dados, embora não sejam tão óbvias quanto as folhas e os clusters.

Conclusão: aprendizado de árvore = memorização/registro de exemplos, assim como um banco de dados. Se você interromper a divisão/aprendizado antes da memorização mais precisa possível, vocêmemoriza com generalização.

Andrew, é claro, quer levantar a questão de que o aprendizado é otimização. Não - é memorização. Mas a otimização também está presente. Você pode otimizar as variações com a profundidade do aprendizado, métodos divididos, etc. Cada etapa da otimização treinará um modelo diferente. Mas o aprendizado não é otimização. É memorização.
Se você soubesse quanta bobagem está dizendo com uma aparência inteligente.

Mas não tenho tempo nem disposição para explicar isso.
 
Forester #:

Sobre o treinamento...


Há alguns anos, encontrei essa expressão em um site comum (não técnico): bancos de dados baseados em redes neurais. Em geral, concordei com esse termo para mim.



Eu mesmo faço árvores - um banco de dados baseado em árvores também é aplicável. 1 folha em uma árvore = 1 linha em um banco de dados. Diferenças:



1 linha no banco de dados contém apenas 1 exemplo dos dados armazenados no banco de dados. 1 folha contém:



1) 1 exemplo e todos os exemplos exatamente iguais (ao dividir a árvore o máximo possível até a última diferença) ou

2) 1 exemplo e exatamente os mesmos exemplos + os exemplos mais semelhantes se a divisão for interrompida antes.
Isso é chamado de generalização de exemplos. Exemplos semelhantes são definidos de forma diferente por algoritmos diferentes ao selecionar as divisões da árvore.

Vantagens das árvores em relação aos bancos de dados: generalização e busca rápida da folha desejada - não é necessário passar por um milhão de linhas, a folha pode ser alcançada por meio de várias divisões.

O agrupamento também generaliza. Kmeans - pela proximidade dos exemplos ao centro do cluster, outros métodos são diferentes.

Você também pode dividir pelo número máximo de clusters = número de exemplos e obterá um análogo de banco de dados/folhas sem generalização. As redes neurais são mais difíceis de entender e compreender, mas, em essência, também são um banco de dados, embora não sejam tão óbvias quanto as folhas e os clusters.

Conclusão: aprendizado de árvore = memorização/registro de exemplos, assim como um banco de dados. Se você interromper a divisão/aprendizado antes da memorização mais precisa possível, vocêmemoriza com generalização.

Andrew, é claro, quer levantar a questão de que o aprendizado é otimização. Não - é memorização. Mas a otimização também está presente. Você pode otimizar as variações com a profundidade do aprendizado, métodos divididos, etc. Cada etapa da otimização treinará um modelo diferente. Mas o aprendizado não é otimização. É memorização.

E como a qualidade do aprendizado é determinada?
 
Andrey Dik #:

e como é determinada a qualidade do ensino?

A qualidade máxima de aprendizagem será com a memorização absolutamente precisa, ou seja, com um registro completo de todos os dados no banco de dados, ou com o treinamento de uma árvore até a última divisão possível ou com o agrupamento com o número de agrupamentos = número de exemplos.

Árvores com parada de divisão mais cedo ou agrupamento com menos agrupamentos - generalizarão e mesclarão dados em folhas/agrupamentos. Esses modelos serão pouco treinados, mas, na presença de ruído, podem ser mais bem-sucedidos do que os modelos com recuperação exata.

Houve um exemplo no início do ramo MO com o ensino da tabuada de multiplicação a um andaime. Como ele não foi alimentado com um número infinito de opções possíveis para treinamento, a floresta produz, às vezes, respostas exatas, mas, na maioria das vezes, respostas aproximadas. Claramente, ela está mal treinada. Mas ela é capaz de generalizar, encontrando e calculando a média das respostas mais próximas das corretas de árvores individuais.

Com o aprendizado com ruído, é difícil avaliar a qualidade. Especialmente se o ruído for muito mais forte do que os padrões, como no comércio.

Para isso, inventaram a avaliação em amostras de validação e teste, validação cruzada, jacking forward etc.
 
Forester #:

A qualidade máxima do treinamento será a memorização absolutamente precisa, ou seja, quando todos os dados estiverem completamente registrados no banco de dados, ou quando se treinar uma árvore até a última divisão ou agrupamento possível com o número de agrupamentos = número de exemplos.

Árvores que param de se dividir mais cedo ou que se agrupam com menos clusters - generalizarão e mesclarão dados em folhas/clusters. Esses modelos serão pouco treinados, mas, na presença de ruído, podem ser mais bem-sucedidos do que os modelos com recuperação exata.

Houve um exemplo no início do ramo MO com o ensino da tabuada de multiplicação a um andaime. Como ele não foi alimentado com um número infinito de opções possíveis para treinamento, a floresta produz, às vezes, respostas exatas, mas, na maioria das vezes, respostas aproximadas. Obviamente, ela é pouco treinada. Mas ela é capaz de generalizar, encontrando e calculando a média das respostas mais próximas das corretas de árvores individuais.

Com o aprendizado com ruído, é difícil avaliar. Especialmente se o ruído for muito mais forte do que os padrões, como no comércio.

Maximizar a qualidade do treinamento é maximizar a qualidade das previsões em novos dados. Ninguém está interessado em previsões sobre a amostra de treinamento, porque elas já são conhecidas. Isso não é mais aprendizado, mas aproximação. Você não chama a aproximação de aprendizado.

Por exemplo, um MLP de duas camadas é um aproximador universal que pode aproximar qualquer função arbitrária com qualquer precisão. Isso significa que ele é treinado com qualidade máxima - é claro que não. Caso contrário, não estariam inventando outras arquiteturas de redes neurais que são melhores em termos de aprendizado exato, não de ajuste, para tarefas específicas.

Fraco, embora você pareça ter se dedicado ao assunto por um longo tempo.
 
Aleksey Nikolayev #:
O que há de errado com a definição usual de aprendizado - atribuir valores específicos aos parâmetros do modelo?

Ela não capta a essência.



Se começarmos pelo oposto (memorização/lembrança), então o aprendizado é a identificação de certos padrões por meio dos quais você pode criar ou identificar novos conhecimentos. Por exemplo: o Chat escreve poemas sobre um tópico arbitrário.

 
Maxim Dmitrievsky #:
Maximizar a qualidade do treinamento é maximizar a qualidade das previsões em novos dados. Ninguém está interessado em previsões sobre a amostra de treinamento, porque elas já são conhecidas. Isso não é aprendizado, é aproximação. Você não chama a aproximação de aprendizado.

Por exemplo, um MLP de duas camadas é um aproximador universal que pode aproximar qualquer função arbitrária com qualquer precisão. Isso significa que ele é treinado com qualidade máxima - é claro que não. Caso contrário, não inventaríamos outras arquiteturas de redes neurais que são melhores em termos de aprendizado, e não de ajuste, para tarefas específicas.
Portanto, você precisa se decidir.

Aproximação não é aprendizado, mas a neurônica é um aproximador...

A neurônica não treina?


Um acha que o banco de dados é um classificador, o outro se confunde com aproximação....

Quais são seus especialistas?