Aprendizado de máquina e redes neurais - página 4

 

Aula 6 - Teoria da Generalização




Curso de Machine Learning da Caltech - CS 156. Aula 06 - Teoria da Generalização

A palestra discute a teoria da generalização e a função de crescimento como o número de dicotomias que podem ser geradas por uma hipótese definida em um conjunto de N pontos, com o objetivo de caracterizar toda a função de crescimento e generalizar para cada N caracterizando a quebra apontar. O palestrante demonstra o processo de calcular a função de crescimento para diferentes conjuntos de hipóteses e provar o limite superior para a função de crescimento usando identidade combinatória. A discussão também aborda o uso da função de crescimento na desigualdade de Hoeffding, o VC destinado a caracterizar sobreposições entre hipóteses e a desigualdade de Vapnik-Chervonenkis, que é polinomial em N com a ordem do polinomial decidida pelo ponto de quebra.

O professor discute a teoria da generalização, esclarecendo pontos anteriores e explicando o conceito de break point, que é utilizado para calcular os recursos necessários para o aprendizado. O foco do aprendizado está na aproximação para E_out, não E_in, permitindo que o aluno trabalhe com quantidades familiares. O professor também explica o raciocínio por trás da substituição de M pela função de crescimento e como isso está relacionado à quantidade combinatória B de N e k. Ao discutir as funções de regressão, o professor enfatiza a compensação viés-variância e como a capacidade de aprendizado é independente da função de destino. Por fim, o professor observa que os mesmos princípios se aplicam a todos os tipos de funções.

  • 00:00:00 Nesta seção, aprendemos sobre dicotomias como mini-hipóteses que são restritas a um conjunto finito de pontos e a função de crescimento. A função de crescimento conta o número de dicotomias que podem ser geradas por uma hipótese definida em um conjunto de N pontos. O ponto de quebra para perceptrons é definido como o ponto onde os padrões começam a ser perdidos devido ao uso de hipóteses de um conjunto restrito. O objetivo teórico é caracterizar toda a função de crescimento e generalizar para cada N caracterizando o ponto de quebra. Vemos também que uma restrição no número de padrões em alguns pontos resulta na perda de muitos padrões para números maiores de pontos, independentemente do conjunto de hipóteses e do espaço de entrada.

  • 00:05:00 Nesta seção, o palestrante discute dois itens: o primeiro é mostrar que a função de crescimento é polinomial com um ponto de quebra e o segundo é demonstrar a substituição de M, o número de hipóteses, na desigualdade de Hoeffding. O palestrante enfatiza que eles não precisam determinar os detalhes da função de crescimento, mas apenas mostrar que ela é limitada por um polinômio para que possa ser usada na desigualdade de Hoeffding. O palestrante apresenta uma quantidade-chave chamada B de N e k, que é uma quantidade combinatória que representa o número máximo de dicotomias em N pontos com um ponto de quebra k. O limite para B de N, k é encontrado recursivamente preenchendo uma tabela com N pontos e isolando o último ponto para introduzir uma recursão.

  • 00:10:00 Nesta seção, o palestrante discute como agrupar linhas de uma matriz que representam a extensão de uma sequência binária. O primeiro grupo, S_1, consiste em linhas que aparecem apenas uma vez com base na extensão. O segundo grupo, S_2, consiste em linhas que aparecem com ambas as extensões. Usando esses agrupamentos, o falante define o número de linhas no grupo S_1 como alfa e o número de linhas no grupo S_2 como beta. Com essas definições, o locutor é capaz de encontrar uma recursão para o número máximo de linhas/padrões que podem ser obtidos em N pontos, de modo que nenhuma k coluna tenha todos os padrões possíveis.

  • 00:15:00 Nesta seção da palestra, o palestrante discute a teoria da generalização e como estimar o beta. Ele explica que analisando a segunda parte da matriz S_2, que contém blocos de padrões repetidos, ele pode argumentar que esses blocos de padrões têm um ponto de quebra de k menos 1, não k. Ele também explica que, tomando alfa mais beta, que é o número total de linhas ou padrões na minimatriz, ele pode dizer algo sobre um ponto de interrupção para essa pequena matriz. Ele termina afirmando que, juntando tudo, pode estimar a matriz completa e seu número de linhas.

  • 00:20:00 Nesta seção, o palestrante analisa uma matriz e deriva uma fórmula de recursão para resolver um limite superior em B de N e k, onde B de N e k é a função de crescimento máximo de um conjunto de hipóteses com uma quebra ponto de k. Calculando os valores de B de N e k usando a fórmula de recursão, o falante preenche uma tabela com um limite superior em B de N e k. As condições de limite da tabela são preenchidas primeiro e, em seguida, o restante da tabela é preenchido usando a fórmula de recursão.

  • 00:25:00 Nesta seção, o palestrante discute a teoria da generalização e fala sobre uma tabela que representa o número máximo de dicotomias ou padrões dado um número específico de pontos, N, e um ponto de quebra, k. O palestrante explica como a tabela é preenchida e como a restrição pode ser vazia. Além disso, eles apresentam uma fórmula que calcula o número máximo de dicotomias ou padrões para ser um limite superior para a função de crescimento de qualquer conjunto de hipóteses que tenha um ponto de quebra k, sem fazer perguntas sobre o conjunto de hipóteses ou o espaço de entrada.

  • 00:30:00 Nesta seção, o palestrante discute a etapa de indução para provar um teorema sobre a fórmula para N e k. A etapa envolve assumir que a fórmula é válida para determinados valores de N e k e, em seguida, provar que também é válida para N-1 e k-1. O professor demonstra o processo de manipulação das duas fórmulas, mesclando os somatórios e reduzindo-os a uma única quantidade usando álgebra ou argumentos combinatórios. O objetivo é estabelecer que a fórmula dada vale para todos os valores de N e k, que inclui os valores previamente assumidos, e a partir daí, o teorema é provado.

  • 00:35:00 Nesta seção, o palestrante explica o processo de provar o limite superior para B de N e k, a função de crescimento para um conjunto de hipóteses que tem um ponto de quebra k, usando identidade combinatória. O polinômio resultante é útil porque o ponto de quebra é um número fixo e não cresce com N. O palestrante então ilustra que o limite superior é polinomial em N mostrando que a potência máxima é N elevado a k menos 1, que é um constante. Finalmente, o orador aplica o limite superior a três exemplos de conjuntos de hipóteses e mostra que todos satisfazem o limite.

  • 00:40:00 Nesta seção, o palestrante discute o cálculo da função de crescimento para raios positivos e intervalos positivos. Ao utilizar o ponto de quebra, que é a única entrada necessária, ele é capaz de encontrar a função de crescimento sem considerar a geometria do conjunto de hipóteses. O palestrante então aplica esse método ao perceptron bidimensional, onde a função de crescimento é desconhecida, mas sabe-se que o ponto de quebra é 4. Ao usar o ponto de quebra, ele é capaz de limitar completamente a função de crescimento, o que é importante na simplificação da caracterização de conjuntos de hipóteses. O palestrante explica então como essa função de crescimento pode ser usada na desigualdade de Hoeffding para substituir o número de hipóteses usando o limite de união, que é quase inútil quando M é significativo ou infinito.

  • 00:45:00 Nesta seção, o palestrante explica a prova pictórica da limitação polinomial da função de crescimento. O espaço de conjuntos de dados possíveis cobre todos os eixos e a área colorida representa a região ruim onde E_in se desvia de E_out devido a determinados conjuntos de dados. Ao pintar essa região ruim de vermelho e usar a desigualdade de Hoeffding, o palestrante mostra que a área colorida é pequena, permitindo que a união afirme a possibilidade de múltiplas hipóteses. No entanto, quando mais hipóteses são adicionadas, a área colorida preenche a tela, levando ao problema do limite de união. O palestrante então explica os dois aspectos necessários para estabelecer a relação entre a função de crescimento e as sobreposições e a abordagem para que E_out esteja em conformidade com o argumento da amostra finita.

  • 00:50:00 Nesta seção, o palestrante apresenta o limite VC como uma nova tela para caracterizar sobreposições entre hipóteses. Ele explica que a função de crescimento é uma quantidade abstrata que caracteriza essas sobreposições e informa o número de dicotomias que se comportam da mesma maneira. O palestrante explica que a redundância é captada pela função de crescimento e que o ponto colorido não depende apenas da amostra, mas de todo o espaço. O palestrante supera isso escolhendo duas amostras em vez de uma, que são geradas independentemente da mesma distribuição, para rastrear E_out e E_in sem depender de toda a hipótese.

  • 00:55:00 Nesta seção, o palestrante discute o conceito de rastreamento entre E_in e E_in dash, que são duas amostras diferentes, e se eles rastreiam um ao outro ou não. Se vários compartimentos forem usados, a amarração entre E_out e E_in ficará cada vez mais frouxa. Eles também se separam frouxamente à medida que o número de compartimentos aumenta. As ramificações matemáticas de múltiplas hipóteses acontecem da mesma forma aqui como para uma caixa. À medida que o falante passa pelos detalhes técnicos da prova, o epsilon se torna epsilon sobre 2 e então se torna epsilon sobre 4. Quando conectados, eles obtêm epsilon ao quadrado sobre 16, resultando em um fator de 1/8. O resultado obtido é chamado de desigualdade de Vapnik-Chervonenkis, que é polinomial em N e tem a ordem do polinomial decidida pelo ponto de quebra.

  • 01:00:00 Nesta seção da videoaula, o moderador pede ao professor que esclareça alguns pontos levantados nos slides anteriores. O professor explica que os N pontos escolhidos no slide 5 correspondem a um determinado conjunto de pontos em um espaço de entrada no aprendizado de máquina, mas na abstração, são simplesmente rótulos abstratos. O professor também esclarece que o uso de alfa e beta na palestra é apenas uma convenção de nomenclatura, não havendo nenhuma afirmação sobre os valores relativos dos dois. Por fim, o professor explica que o ponto de quebra é calculado visitando o espaço de entrada e o conjunto de hipóteses e descobrindo, para um determinado conjunto de hipóteses, qual é o número máximo de pontos que não podem ser separados de todas as maneiras possíveis.

  • 01:05:00 Nesta seção, o professor explica que para a maioria dos modelos de aprendizagem já foram estabelecidos pontos de quebra exatos ou limitados, o que significa que os recursos necessários para aprender podem ser estimados antes de iniciar o processo de aprendizagem. Embora possa haver casos em que os limites não sejam rígidos, na maioria dos casos, a discrepância entre a estimativa exata da função de crescimento e o limite quadrático será insignificante. A palestra enfatiza que o foco do aprendizado não está no valor real de E_in, mas em sua aproximação de E_out, capacitando o aluno a trabalhar com quantidades familiares. Por fim, o professor garante à plateia que a dimensão VC, que é um alicerce para a compreensão das teorias de aprendizagem, será abordada em detalhes na próxima palestra.

  • 01:10:00 Nesta seção, o professor explica o raciocínio por trás da substituição de M pela função de crescimento e as modificações que precisaram ser feitas para atender aos requisitos técnicos da declaração. O professor também esclarece a definição de B de N e k, detalhando como é um limite superior para qualquer hipótese definida com um ponto de quebra e como é uma quantidade puramente combinatória. O professor então aborda uma questão sobre a prova de B de N e k, afirmando que k não muda ao reduzir x_N a x_N-1, pois nenhuma k coluna do conjunto menor pode ter todos os padrões possíveis. Finalmente, o professor observa que a análise e a análise VC são aplicáveis a funções binárias, embora possam ser estendidas a funções de valores reais.

  • 01:15:00 Nesta seção, o professor discute como, em vez de entrar em extensões técnicas sobre a capacidade de aprendizado, ele prefere usar uma abordagem diferente, a compensação de desvio-variância, ao discutir funções de regressão. Ele também esclarece que a capacidade de aprendizado é comprovada sob condições sobre o conjunto de hipóteses e que é independente da função de destino. Ele continua explicando que a questão da generalização não depende da função de destino, mas a questão de saber se E_in pode ser minimizado para deixar o usuário feliz depende da função de destino. Por fim, o professor afirma que os mesmos princípios se aplicam independentemente do tipo de função.
Lecture 06 - Theory of Generalization
Lecture 06 - Theory of Generalization
  • 2012.04.21
  • www.youtube.com
Theory of Generalization - How an infinite model can learn from a finite sample. The most important theoretical result in machine learning. Lecture 6 of 18 o...
 

Aula 07 - A Dimensão VC




Curso de Machine Learning da Caltech - CS 156. Aula 07 - A Dimensão VC

A palestra apresenta o conceito de dimensão VC, que é o número máximo de pontos que pode ser quebrado por um conjunto de hipóteses, e explica suas aplicações práticas. A dimensão VC representa os graus de liberdade de um modelo, e sua relação com o número de parâmetros em um modelo é discutida. Exemplos são dados para demonstrar como calcular a dimensão VC para diferentes conjuntos de hipóteses. A relação entre o número de exemplos necessários e a dimensão VC é explorada, e nota-se que existe uma relação proporcional entre os dois. As implicações de aumentar a dimensão VC no desempenho de um algoritmo de aprendizado também são discutidas. No geral, a palestra fornece informações sobre a teoria VC e suas implicações práticas para o aprendizado de máquina.

Além disso, o vídeo aborda o conceito de generalização e o limite de generalização, que é uma afirmação positiva que mostra a compensação entre o tamanho do conjunto de hipóteses e a boa generalização no aprendizado de máquina. O professor explica a dimensão VC, que é o maior valor antes do primeiro ponto de quebra, e como ela pode ser usada para aproximar o número de exemplos necessários. Ele observa a importância de escolher a medida de erro correta e esclarece que a estimativa da dimensão VC é uma estimativa imprecisa que pode ser usada para comparar modelos e aproximar o número de exemplos necessários. A palestra termina destacando as semelhanças entre este material e o tópico de design de experimentos e como os princípios de aprendizagem se estendem a outras situações além dos cenários de aprendizagem estritos.

  • 00:00:00 Nesta seção, o palestrante resume o principal resultado da aula anterior na teoria do aprendizado, que é a desigualdade VC (Vapnik-Chervonenkis), que caracteriza a generalização no aprendizado de máquina. A função de crescimento, que caracteriza a redundância necessária para mudar da desigualdade de Hoeffding para a desigualdade de VC, foi introduzida e relacionada a eventos ruins com regiões sobrepostas. O problema técnico com E_out foi resolvido e a função de crescimento foi usada para substituir o número de hipóteses M. A dimensão VC, que está relacionada ao ponto de quebra, é então definida e calculada exatamente para perceptrons em qualquer espaço dimensional. A interpretação da dimensão VC e suas aplicações práticas também são discutidas.

  • 00:05:00 Nesta seção, o conceito de dimensão VC é introduzido como o número máximo de pontos que podem ser quebrados por um conjunto de hipóteses. A dimensão VC é denotada como d_VC e é o maior valor de N tal que a função de crescimento é 2 elevado a N. É importante observar que a dimensão VC não garante que todos os pontos N possam ser quebrados, mas apenas que existem N pontos que podem ser quebrados. A seção fornece exemplos, como raios positivos e perceptrons 2D, para demonstrar como calcular a dimensão VC para um determinado conjunto de hipóteses. A dimensão VC é usada para limitar a função de crescimento de um conjunto de hipóteses e serve como a ordem do polinômio que limita a função de crescimento.

  • 00:10:00 Nesta seção, o foco está na dimensão VC de conjuntos convexos e sua relação com a aprendizagem. A dimensão VC representa o número máximo de pontos que podem ser quebrados por um conjunto de hipóteses. Se a dimensão VC for finita, a hipótese final será generalizada, independentemente da distribuição de entrada ou algoritmo de aprendizado usado. O diagrama de aprendizado, que inclui a função de destino, o algoritmo de aprendizado e a distribuição de entrada, mostra que a teoria VC é independente do algoritmo de aprendizado e da função de destino e depende apenas do conjunto de hipóteses. No geral, existem três blocos na teoria do VC: a hipótese, o conjunto de hipóteses e a dimensão do VC.

  • 00:15:00 Nesta seção, aprendemos sobre a dimensão VC dos perceptrons, que é o conjunto de hipóteses com o qual toda a teoria VC lida, pois é o conjunto que possui a dimensão VC e nos diz se somos capazes de generalizar . Embora a dimensão VC dos perceptrons no espaço bidimensional seja três, uma fórmula simples afirma que no espaço d-dimensional, a dimensão VC é d mais um. Isso é importante para entender o significado da dimensão VC, e provaremos isso mostrando que a dimensão VC é no máximo d mais um e no mínimo d mais um. Para demonstrar, vamos construir um conjunto específico de N pontos (N sendo d mais um) usando uma matriz a ser quebrada, desde que seja possível quebrá-los.

  • 00:20:00 Nesta seção, o palestrante mostra um conjunto específico de d mais 1 pontos e demonstra que eles podem ser quebrados usando uma matriz invertível. Ele então faz uma pergunta ao público sobre a dimensão VC e pede que escolham qual conclusão podem tirar com base nos resultados da demonstração. A resposta correta é b, que afirma que a dimensão VC é maior ou igual a d mais 1.

  • 00:25:00 Nesta seção, o professor discute como provar que a dimensão VC é no máximo d mais 1. Ele pergunta ao público qual das várias afirmações estabeleceria a premissa e eles respondem com "d". O professor então explica que ele precisa mostrar que existe um conjunto de d mais 2 pontos que ele não pode desmembrar, o que ele faz mostrando que para um conjunto de d mais 2 pontos sempre haverá um ponto que é uma combinação linear dos outros. Portanto, ele constrói uma dicotomia que mostra que não pode ser implementada com um perceptron.

  • 00:30:00 Nesta seção do vídeo, o palestrante explica o conceito de dicotomia em um perceptron, que é essencialmente atribuir rótulos de +1 ou -1 a pontos específicos. Através do uso de propriedades algébricas, mostra-se que é impossível quebrar qualquer conjunto de d mais 2 pontos, com a dimensão VC sendo d mais 1. Isso se deve ao número de parâmetros no modelo perceptron, que é d mais 1 , e a dimensão VC fornece o número máximo de pontos que podem ser quebrados.

  • 00:35:00 Nesta seção, a palestra apresenta o conceito de dimensão VC e sua interpretação. A dimensão VC é uma medida dos graus de liberdade de um modelo e como ele se relaciona com o número de parâmetros que possui. A palestra compara esses graus de liberdade aos botões em um sistema de áudio, onde mais botões podem dar a você mais controle sobre o som, mas pode ser um desafio usá-lo com eficácia. A palestra explica que a dimensão VC abstrai os detalhes da matemática dentro de um modelo e se concentra em seu poder expressivo. A palestra também discute a correspondência entre a dimensão VC e os graus de liberdade de vários modelos, como raios positivos, mostrando que a dimensão VC é igual a um quando há um grau de liberdade, o que corresponde a um modelo com um parâmetro.

  • 00:40:00 Nesta seção, o palestrante discute os graus de liberdade e sua relação com a dimensão VC no contexto de modelos simples. Embora a dimensão VC conte o número de hipóteses que podem ser alcançadas por um modelo, ela não é necessariamente igual ao número de parâmetros. Ao construir um exemplo artificial, o professor mostra que os parâmetros nem sempre contribuem para os graus de liberdade. Em vez disso, os graus efetivos de liberdade podem ser medidos de forma mais confiável pela dimensão VC, e o palestrante demonstra como um modelo com oito parâmetros pode realmente ter a mesma dimensão VC que um modelo com apenas dois parâmetros. Finalmente, o palestrante observa que os profissionais podem estar interessados no número de pontos de dados necessários para um sistema e como isso pode estar relacionado à dimensão VC do conjunto de hipóteses.

  • 00:45:00 Nesta seção, o palestrante discute a relação entre o número de exemplos necessários e o valor da dimensão VC. A desigualdade VC tem duas pequenas quantidades de desempenho que eles querem que sejam tão pequenas quanto possível. Um deles é E_in não muito longe de E_out, enquanto o outro é delta, que é pequeno em valor. Depois de decidir sobre certos valores de epsilon e delta, o palestrante explica como determinar o número de exemplos necessários para alcançá-los observando a função N elevado à potência da dimensão VC vezes e elevado à potência de -N plotado em um gráfico. A parte interessante da curva é onde a probabilidade é menor que 1, e o falante então explora as implicações de aumentar a dimensão VC de 4 para 5.

  • 00:50:00 Nesta seção, o palestrante discute a relação entre o número de exemplos em um conjunto de dados e a dimensão VC, que é uma medida da complexidade de um algoritmo de aprendizado. Ele usa vários gráficos para ilustrar como o desempenho do algoritmo muda à medida que a dimensão VC aumenta e enfatiza que o número de exemplos necessários para atingir um determinado nível de desempenho é proporcional à dimensão VC. No entanto, ele também observa que, embora os limites do desempenho sejam garantidos para seguir uma certa monotonicidade, o desempenho real nem sempre o faz, o que pode ser uma fonte de frustração para os praticantes.

  • 00:55:00 Nesta seção, o palestrante discute observações e aplicações práticas da dimensão VC. A primeira lição é que existe uma relação proporcional entre a dimensão VC e o número de exemplos necessários para atingir um determinado nível de desempenho. O palestrante fornece uma regra prática em que 10 vezes a dimensão VC é necessária para chegar à zona de conforto da desigualdade VC, onde a declaração de probabilidade é significativa. A segunda observação prática é que, para uma ampla faixa de epsilon e delta razoáveis, a regra prática também é verdadeira. O palestrante então simplifica a fórmula de desigualdade VC e a chama de fórmula Omega capital, afirmando que depende da função de crescimento e que conforme a dimensão VC aumenta, a fórmula Omega piora.

  • 01:00:00 Nesta seção, o palestrante discute o conceito de generalização e como ter mais exemplos pode afetar a função de crescimento e o comportamento polinomial. Ele introduz a ideia do limite de generalização, que é uma afirmação positiva em vez de caracterizar eventos ruins. Com probabilidade maior ou igual a 1 menos delta, E_in rastreia E_out, significando que eles estão dentro de Omega, que depende do número de exemplos e da dimensão VC do conjunto de hipóteses. O falante simplifica o limite de generalização reorganizando-o para mostrar que E_out é limitado por E_in mais Omega. Ele explica como esse limite ilustra a compensação entre o tamanho do conjunto de hipóteses e uma boa generalização, levando ao conceito de regularização no aprendizado de máquina.

  • 01:05:00 Nesta seção, o professor explica que a dimensão VC é o maior valor logo abaixo do primeiro ponto de quebra, o que significa que qualquer ponto maior que atue como um ponto de quebra também será contado. A noção de ponto de interrupção abrange muitos valores, mas a dimensão VC é a única que se destaca. Ele também esclarece que, ao discutir a quebra de N pontos, as pessoas podem escolher os pontos a serem quebrados. O professor explica que epsilon e delta são dois parâmetros de desempenho de aprendizado, onde epsilon é o parâmetro de aproximação que garante que E_in rastreie E_out, enquanto delta é a medida de probabilidade que determina a probabilidade de falha da declaração de probabilidade. Questionado sobre o efeito da medida de erro no número de pontos a serem escolhidos, o professor explica que, ao tratar a medida de erro no sentido binário, não há necessidade de se preocupar com a variância, pois há um limite superior, mas ao usar outras co-domínios ou medidas de erro, modificações são necessárias.

  • 01:10:00 Nesta seção, o professor explica que obter a dimensão exata do VC é raro, mas eles sabem a dimensão exata dos perceptrons. Quando se trata de redes neurais, a estimativa da dimensão VC não pode estar acima de um determinado número devido a redundâncias e cancelamentos. O professor enfatiza que o limite da dimensão VC é uma estimativa vaga, mas ainda mantém seu significado conceitual e pode ser usado como um guia para comparar modelos e aproximar o número de exemplos necessários. A regra geral é usar pelo menos 10 vezes a dimensão VC para entrar na região interessante da desigualdade VC, que depende do nível de precisão desejado pelo cliente. O professor observa que há pontos em comum entre esse material e o tema de planejamento de experimentos, e os princípios de aprendizagem se estendem a outras situações além dos cenários de aprendizagem estritos.
Lecture 07 - The VC Dimension
Lecture 07 - The VC Dimension
  • 2012.04.26
  • www.youtube.com
The VC Dimension - A measure of what it takes a model to learn. Relationship to the number of parameters and degrees of freedom. Lecture 7 of 18 of Caltech's...
 

Aula 8 - Compensação de Viés-Variância



Curso de Machine Learning da Caltech - CS 156. Aula 08 - Troca de Viés-Variação

O professor discute a compensação de viés-variância no aprendizado de máquina, explicando como a complexidade do conjunto de hipóteses afeta a compensação entre generalização e aproximação. O palestrante apresenta o conceito de viés e variância, que mede o desvio entre a média das hipóteses que um algoritmo de aprendizado de máquina produz e a função de destino real e quanto a distribuição de hipóteses de um determinado modelo varia com base em diferentes conjuntos de dados, respectivamente. A compensação resulta em um conjunto de hipóteses maior com um viés menor, mas uma variância maior, enquanto um conjunto de hipóteses menor terá um viés maior, mas uma variância menor. O palestrante enfatiza a importância de ter recursos de dados suficientes para navegar efetivamente no conjunto de hipóteses e destaca a diferença de escala entre a análise de viés-variância e a análise de VC.

Ele também discute a troca entre modelos simples e complexos em termos de sua capacidade de aproximar e generalizar, com menos exemplos exigindo modelos simples e maiores recursos de exemplos exigindo modelos mais complexos. A análise de viés-variância é específica para regressão linear e pressupõe o conhecimento da função de destino, sendo a validação o padrão-ouro para a escolha de um modelo. O aprendizado de conjunto é discutido por meio do Bagging, que usa bootstrapping para calcular a média de vários conjuntos de dados, reduzindo a variação. O equilíbrio entre variância e covariância no aprendizado conjunto também é explicado, e a regressão linear é classificada como uma técnica de aprendizado com ajuste como a primeira parte do aprendizado, enquanto a teoria enfatiza o bom desempenho fora da amostra.

  • 00:00:00 Nesta seção, o foco muda para a compensação viés-variância, que é outra abordagem para entender a generalização. Nas aulas anteriores, a análise VC estabeleceu a capacidade de generalização de uma hipótese escolhida, via dimensão VC de um conjunto de hipóteses. O limite de VC é válido para qualquer algoritmo de aprendizado, para qualquer dado de entrada e para qualquer função de destino. Um aspecto da análise de VC é que ela fornece uma medida prática. Ao traçar a probabilidade de erro versus o número de exemplos, descobrimos que o número de exemplos necessários é proporcional à dimensão VC, ou regra geral, você precisa de 10 vezes a dimensão VC para começar a obter propriedades de generalização interessantes. Por fim, resumimos a análise de VC em um limite de generalização, que usaremos em técnicas posteriores, como a regularização.

  • 00:05:00 Nesta seção, o palestrante discute a troca entre aproximação e generalização quando se trata de aprendizagem. O aprendizado visa atingir um pequeno E_out, o que significa que a hipótese se aproxima bem da função alvo e que essa aproximação é válida fora da amostra. No entanto, ter um conjunto de hipóteses mais complexo aumenta a chance de aproximar f bem, mas dá um problema para identificar a hipótese adequada. Uma hipótese ideal definida para o aprendizado é uma hipótese singleton que passa a ser a função de destino. Ainda assim, como não conhecemos a função de destino, precisamos de um conjunto de hipóteses grande o suficiente para ter uma chance. Além disso, o palestrante discute como a análise de viés-variância também decompõe E_out, enquanto a análise de VC enfatiza a quantificação da compensação.

  • 00:10:00 Nesta seção, o palestrante apresenta a troca de viés-variância e como ela se relaciona com funções de valor real e regressão usando erro quadrado. O objetivo é decompor o erro fora da amostra em dois componentes conceituais: aproximação e generalização. Para fazer isso, o falante usa o valor esperado do erro em relação a um determinado conjunto de dados, pois a hipótese final depende do conjunto de dados usado, mas visa remover a dependência integrando o conjunto de dados. O resultado é uma forma de analisar o comportamento geral do erro quando dado um número específico de pontos de dados para trabalhar.

  • 00:15:00 Nesta seção, o palestrante explica como calcular os valores esperados de um comportamento em relação a todas as realizações possíveis de 100 exemplos. Ao inverter a ordem de integração e se livrar de uma expectativa, o palestrante chega a uma decomposição limpa. A próxima etapa envolve derivar uma hipótese média obtendo o valor esperado de todas as hipóteses possíveis. Embora esta seja certamente uma tarefa impossível, ela fornece uma ferramenta conceitual para análise. Compreender a utilidade técnica de g bar torna-se importante ao expandir a expressão superior para obter um termo linear que, em última análise, requer que g bar seja definido.

  • 00:20:00 Nesta seção, o palestrante decompõe uma quantidade em duas etapas que determinam até que ponto a hipótese que um algoritmo de aprendizado de máquina deriva de um determinado conjunto de dados diverge da função de destino. A primeira etapa avalia até que ponto essa hipótese se desvia da melhor hipótese que o algoritmo pode produzir dado o conjunto de dados fornecido, enquanto a segunda etapa avalia até que ponto essa melhor hipótese se desvia da função de destino real. O palestrante chega a duas quantidades, o viés e a variância, para denotar essas duas etapas. O viés mede o desvio entre a média das hipóteses que um algoritmo de aprendizado de máquina produz e a função de destino real, que define finito para o conjunto de hipóteses do algoritmo. Enquanto isso, a variância mede o quanto a distribuição de hipóteses de um determinado modelo varia com base em diferentes conjuntos de dados.

  • 00:25:00 Nesta seção, o professor discute a compensação de viés-variância no aprendizado de máquina. Ele explica que o viés é a limitação do conjunto de hipóteses e a variância é a diferença no resultado ao usar diferentes conjuntos de dados. Ele então mostra como há uma troca entre generalização e aproximação ao alterar o tamanho do conjunto de hipóteses e ilustra essa ideia com uma comparação de um conjunto de hipóteses pequeno e grande. Ele argumenta que um conjunto de hipóteses maior terá um viés menor, mas uma variância maior, enquanto um conjunto de hipóteses menor terá um viés maior, mas uma variância menor.

  • 00:30:00 Nesta seção, o palestrante apresenta o conceito de compensação de viés-variância, em que o viés diminui e a variância aumenta à medida que o conjunto de hipóteses se torna maior. Para entender isso, o palestrante dá um exemplo concreto onde a função alvo é uma senóide, e dois conjuntos de hipóteses diferentes são dados: um modelo constante e um modelo linear. O palestrante então mostra que o modelo linear dá uma melhor aproximação da senóide, mas com alguns erros. Esta não é uma situação de aprendizado, mas ilustra a troca entre viés e variância na aproximação da função alvo, abrindo caminho para problemas de aprendizado mais complexos.

  • 00:35:00 Nesta seção, o palestrante explica a compensação de viés-variância no aprendizado de máquina. Ele usa o exemplo de ajustar uma linha a dois pontos, primeiro para aproximar uma função de destino e, em segundo lugar, para aprender com exemplos. A análise de viés-variância é necessária para avaliar o desempenho de um modelo independentemente de quais dois pontos são usados e para superar os desafios de lidar com a dependência do conjunto de dados. O professor então gera conjuntos de dados de tamanho dois pontos, ajusta uma linha a eles e mostra que o erro fora da amostra esperado é principalmente a soma do viés e da variância. A linha verde muito clara, g barra de x, é a hipótese média que ele obtém ao repetir este jogo. Ainda assim, não é o resultado do processo de aprendizado porque conjuntos de dados diferentes fornecerão estimativas diferentes.

  • 00:40:00 Nesta seção do vídeo, o conceito de troca de viés-variância é discutido no contexto do aprendizado de máquina. A variância é calculada como o desvio padrão da saída do processo de aprendizado, enquanto o viés é o erro entre a saída prevista e a função de destino. A troca entre viés e variância é demonstrada usando dois modelos, um com um viés pequeno e uma variância grande e o outro com um viés grande e uma variância pequena. Entende-se que, em uma situação de aprendizado, a complexidade do modelo deve corresponder aos recursos de dados disponíveis, e não à complexidade alvo.

  • 00:45:00 Nesta seção, o palestrante discute a troca de viés-variância no aprendizado e apresenta o conceito de curvas de aprendizado. As curvas de aprendizado plotam os valores esperados de E_out (erro fora da amostra) e E_in (erro dentro da amostra) como uma função de N, o tamanho do conjunto de dados. À medida que N aumenta, o erro fora da amostra geralmente diminui, mas essa tendência pode ser influenciada pela complexidade do modelo que está sendo usado. O palestrante enfatiza a importância de ter recursos de dados suficientes para navegar efetivamente no conjunto de hipóteses e observa que dados ruidosos podem dificultar ainda mais essa navegação. As curvas de aprendizado fornecem uma representação visual da compensação de viés-variância e como ela muda com o aumento de N.

  • 00:50:00 Nesta seção, o palestrante discute a relação entre a análise de viés-variância e a análise de VC usando curvas de aprendizado. Ele explica que ambas as teorias discutem a aproximação e levam em consideração o que ocorre em termos de generalização. O palestrante destaca a diferença de escala entre as duas teorias e menciona que o viés depende do conjunto de hipóteses. Por fim, o palestrante aborda brevemente a análise do caso de regressão linear e a recomenda como um bom exercício para obter informações sobre a regressão linear.

  • 00:55:00 Nesta seção, o instrutor descreve o padrão de erro dentro da amostra e o padrão de erro fora da amostra, principalmente usando as curvas de aprendizado. O instrutor usa regressão linear e ruído para ilustrar uma fórmula simples para o erro esperado na amostra: é quase perfeito e você está indo melhor do que perfeito pela razão de d mais 1. O instrutor enfatiza uma curva muito específica, que mostra que quanto mais pontos de dados você tiver, menos ruído afetará a taxa de erro. No entanto, quando você superajusta os dados da amostra, acaba ajustando o ruído e isso o prejudicará em vez de ajudá-lo a longo prazo.

  • 01:00:00 Nesta seção, o professor fala sobre a compensação entre modelos simples e complexos e sua capacidade de aproximação e generalização. Enquanto os modelos complexos podem aproximar melhor a função alvo e os exemplos de treinamento, os modelos simples são melhores em termos de capacidade de generalização. Isso ocorre porque há uma troca entre os dois, e a soma de ambas as quantidades pode ir em qualquer direção. A chave é combinar a complexidade do modelo com os recursos de dados disponíveis. Menos exemplos significam que modelos simples devem ser usados, enquanto recursos maiores de exemplos requerem modelos complexos para melhor desempenho. O erro de generalização esperado pode ser encontrado usando a fórmula, que é a dimensão VC dividida pelo número de exemplos.

  • 01:05:00 Nesta seção, o professor discute como a análise de viés-variância é específica da regressão linear e como ela assume que você conhece a função de destino. Embora seja um guia útil e possa ser usado para entender como afetar o viés e a variância, não é algo que possa ser conectado para informar qual é o modelo. Ele também menciona que o padrão-ouro para a escolha de um modelo é por meio da validação, que inclui métodos de conjunto como o reforço. O professor então apresenta brevemente a ideia de g bar como uma ferramenta teórica para análise, mas observa que não é o foco desta palestra.

  • 01:10:00 Nesta seção, o professor fala sobre o aprendizado de ensemble através do Bagging, que é o processo de usar um conjunto de dados para gerar um grande número de conjuntos de dados diferentes por meio de inicialização e média deles. Isso dá algum dividendo sobre o aprendizado do conjunto e pode ajudar a reduzir a variância tirando a média de muitas coisas. O moderador então pergunta se a variância de viés ainda aparece por meio da abordagem bayesiana. O professor explica que, embora a abordagem bayesiana faça certas suposições, o viés-variância ainda existe. Finalmente, ele fala sobre a relação da aproximação de função numérica com a extrapolação em aprendizado de máquina e o dilema de covariância de viés-variância.

  • 01:15:00 Nesta seção da palestra, o professor discute o equilíbrio entre variância e covariância no contexto do aprendizado conjunto. Ele explica que na análise de viés-variância, ele teve o luxo de escolher conjuntos de dados gerados independentemente, gerar modelos independentes e, em seguida, tirar a média deles. No entanto, na prática real, ao construir modelos baseados em variações do conjunto de dados, a covariância entre os modelos começa a desempenhar um papel. Posteriormente, quando questionado se a regressão linear é uma técnica de aprendizado ou apenas uma aproximação de função, o professor afirma que a regressão linear é uma técnica de aprendizado e o ajuste é a primeira parte do aprendizado. O elemento adicionado é garantir que o modelo tenha um bom desempenho fora da amostra, que é o objetivo da teoria.
Lecture 08 - Bias-Variance Tradeoff
Lecture 08 - Bias-Variance Tradeoff
  • 2012.04.28
  • www.youtube.com
Bias-Variance Tradeoff - Breaking down the learning performance into competing quantities. The learning curves. Lecture 8 of 18 of Caltech's Machine Learning...
 

Aula 9 - O Modelo Linear II



Curso de Machine Learning da Caltech - CS 156. Aula 09 - O Modelo Linear II

Esta palestra cobre vários aspectos do modelo linear, incluindo a decomposição de viés-variância, curvas de aprendizado e técnicas para modelos lineares, como perceptrons, regressão linear e regressão logística. O palestrante enfatiza a compensação entre complexidade e desempenho de generalização, alertando contra o overfitting e enfatizando a importância de cobrar adequadamente a dimensão VC do espaço de hipóteses para garantias válidas. O uso de transformadas não lineares e seu impacto no comportamento de generalização também é discutido. A palestra cobre ainda mais a função logística e suas aplicações na estimativa de probabilidades e apresenta os conceitos de probabilidade e medidas de erro de entropia cruzada no contexto da regressão logística. Finalmente, métodos iterativos para otimizar a função de erro, como gradiente descendente, são explicados.

Além disso, a palestra abrange uma variedade de tópicos relacionados a modelos lineares e algoritmos de otimização em aprendizado de máquina. O professor explica o compromisso entre taxa de aprendizado e velocidade na otimização gradiente descendente, apresentando o algoritmo de regressão logística e discutindo suas medidas de erro e algoritmo de aprendizado. Os desafios de terminação em gradiente descendente e classificação multiclasse também são abordados. O papel da derivação e seleção de recursos no aprendizado de máquina é enfatizado e discutido como uma arte em domínios de aplicação, cobrado em termos de dimensão VC. No geral, esta palestra fornece uma visão geral abrangente de modelos lineares e algoritmos de otimização para aprendizado de máquina.

  • 00:00:00 Nesta seção, Yaser Abu-Mostafa discute a decomposição de viés-variância no erro fora da amostra e ilustra como isso compensa o conjunto de hipóteses. Ele também explica as curvas de aprendizado, que descrevem o erro de generalização, e como o número de exemplos, proporcional à dimensão VC, determinará as propriedades de generalização. Técnicas para modelos lineares também são discutidas.

  • 00:05:00 Nesta seção da palestra, o palestrante recapitula brevemente o modelo linear em termos de classificação linear e regressão linear, que foram abordados nas aulas anteriores, e então passa para o terceiro tipo de modelo linear - regressão logística. Antes de iniciar a regressão logística, o palestrante amarra as pontas soltas em termos de transformações não lineares e questões de generalização. As transformadas não lineares oferecem uma plataforma para a aplicação de algoritmos de aprendizado no espaço Z (espaço de recursos), com a hipótese final ainda residindo no espaço X (espaço de entrada). No caso de transformadas não lineares, o palestrante enfatiza que os problemas de generalização foram deixados de lado e que ele fornecerá a peça que faltava na palestra.

  • 00:10:00 Nesta seção, o palestrante discute o preço que se paga por fazer transformações não lineares quando se trata de comportamento de generalização no espaço X. Usando o modelo linear no espaço X, você pode obter um vetor de peso de d+1 parâmetros livres. No entanto, a dimensão VC no espaço de recursos pode ser potencialmente muito maior do que a do espaço X. Se a dimensão VC for muito grande, embora seja possível ajustar o polinômio de 17ª ordem, não há chance real de generalização. Dois casos são discutidos onde o primeiro caso é quase linearmente separável, e o segundo caso é genuinamente não linear. Para que E_in seja zero, é preciso ir para um espaço de alta dimensão, o que se torna um problema, pois existem apenas dois pontos para classificar.

  • 00:15:00 Nesta seção da palestra, o instrutor discute a troca de aproximação-generalização ao lidar com modelos lineares. Ele fala sobre como usar um modelo mais complexo, como uma superfície de quarta ordem, pode aproximar melhor os dados, mas pode não generalizar bem. Ele também menciona a ideia de usar uma transformação para um espaço não linear, mas adverte contra buscar um desconto no número de parâmetros. O instrutor explica que a cobrança da dimensão VC de todo o espaço de hipóteses explorado na mente é importante para que a garantia dada pela desigualdade VC seja válida.

  • 00:20:00 Nesta seção, a discussão está centrada nos perigos da espionagem de dados ao escolher um modelo antes de examinar os dados. Enfatiza-se que essa prática pode levar a um conjunto de hipóteses contaminado, o que significa que os dados não são mais confiáveis para refletir o desempenho do mundo real. O conceito de regressão logística é apresentado, juntamente com seu modelo exclusivo, medida de erro e algoritmo de aprendizado. Esse modelo linear é considerado um complemento significativo para os modelos perceptron e de regressão linear discutidos anteriormente e fornece um exemplo útil das complexidades e variações existentes no aprendizado de máquina.

  • 00:25:00 Nesta seção, o palestrante discute o modelo linear e as diferentes formas como ele pode ser usado, como perceptrons, regressão linear e regressão logística. Para classificação linear, a hipótese é uma decisão de +1 ou -1, que é um limiar direto do sinal. No caso da regressão linear, a saída é a mesma que a entrada, enquanto a regressão logística aplica uma não linearidade chamada função logística ao sinal, que é interpretada como uma probabilidade de algo acontecer. O palestrante explica o formato da função logística e suas aplicações na estimativa de probabilidades para diversos problemas, como aplicações de cartões de crédito.

  • 00:30:00 Nesta seção, o conceito de soft threshold ou sigmóide é introduzido no contexto da função logística. Esta função recebe um sinal linear como entrada e gera uma probabilidade. É particularmente útil na previsão de resultados como o risco de um ataque cardíaco, em que vários fatores contribuem para a probabilidade de ocorrência de um evento. A saída da regressão logística é tratada como uma probabilidade genuína durante o processo de aprendizado, mesmo que os dados de entrada não forneçam diretamente essa informação.

  • 00:35:00 Nesta seção, discutimos o aprendizado supervisionado em dados médicos e como gerar um modelo que se aproxime de uma função de destino oculta. Os exemplos são dados como saída binária, que é afetada por uma probabilidade, tornando este um caso ruidoso. O alvo é do espaço euclidiano d-dimensional para 0,1 com uma interpretação de probabilidade, f de x. A hipótese g de x é encontrada encontrando os pesos e produzindo-os com x. O objetivo é escolher os pesos de forma que a hipótese de regressão logística reflita a função alvo usando uma medida de erro construída por verossimilhança que seja plausível e amigável para o otimizador. A medida de erro classifica diferentes hipóteses de acordo com a probabilidade de serem realmente o alvo que gerou os dados.

  • 00:40:00 Nesta seção da palestra, o palestrante discute o uso da verossimilhança e a polêmica em torno de sua aplicação. Ele explica que o uso da verossimilhança é encontrar a hipótese mais plausível dados os dados. No entanto, não é um processo completamente limpo, pois a probabilidade não é a probabilidade necessária. O palestrante então apresenta uma fórmula para verossimilhança e explica como ela pode ser usada para derivar uma medida de erro completa. A fórmula é então usada para encontrar a probabilidade de um conjunto de dados inteiro, que é um produto das probabilidades de pontos de dados individuais. Ele conclui que sempre haverá um compromisso na escolha de uma hipótese, pois favorecer um exemplo pode atrapalhar os outros.

  • 00:45:00 Nesta seção da palestra, o palestrante explica como maximizar a probabilidade de uma hipótese em um conjunto de dados pode levar à minimização da medida de erro. Tomar o logaritmo natural permite que a maximização se torne uma minimização, o que resulta em uma medida de erro no conjunto de treinamento. Depois de simplificar a fórmula, o palestrante chama a medida de erro de erro dentro da amostra da regressão logística e a define como a medida de erro entre a hipótese que depende de w, aplicada a x_n, e o valor dado como rótulo para aquele exemplo , que é y_n. O palestrante também discute a interessante interpretação do escore de risco, que identifica aqueles em risco de ataques cardíacos com base no sinal de w transposto x_n.

  • 00:50:00 Nesta seção, a medida de erro de entropia cruzada é apresentada como uma forma de medir a precisão das previsões binárias. O objetivo é minimizar essa medida de erro para melhorar as previsões do modelo. No entanto, ao contrário da regressão linear, não há solução de forma fechada para minimizar a medida de erro para a regressão logística. Em vez disso, é necessária uma solução iterativa, que será alcançada por meio do método de gradiente descendente. Este método envolve dar um passo ao longo da inclinação mais íngreme da superfície e repetir até que o mínimo seja atingido. A convexidade da medida de erro para a regressão logística torna a descida do gradiente uma boa escolha para otimização.

  • 00:55:00 Nesta seção da palestra, o professor discute os métodos iterativos usados para encontrar o valor mínimo da função de erro no modelo linear. Ele explica que esses métodos envolvem mover-se ao longo da superfície em pequenos passos e fazer aproximações locais usando cálculo, especificamente a série de Taylor. Ele então introduz o conceito de descida de gradiente, onde o próximo peso é determinado pelo peso atual mais o movimento em uma direção específica, que é determinada pela resolução do vetor unitário na direção da descida mais íngreme. O professor segue explicando como a direção que atinge o valor mais negativo para o produto interno entre um vetor e um vetor unitário é escolhida como direção do movimento.

  • 01:00:00 Nesta seção, o palestrante discute o compromisso entre o tamanho do passo, ou taxa de aprendizado, na otimização do gradiente descendente. Dar passos muito pequenos eventualmente chegará ao mínimo, mas levaria uma eternidade, enquanto dar passos maiores seria mais rápido, mas pode não aplicar a aproximação linear. Depois de analisar os gráficos, o melhor compromisso é ter inicialmente uma grande taxa de aprendizado para aproveitar declives acentuados e ter mais cuidado quando estiver próximo do mínimo para evitar overshoots. O palestrante então apresenta a fórmula para uma taxa de aprendizado fixa, onde a taxa de aprendizado é proporcional ao tamanho do gradiente. O algoritmo de regressão logística é então introduzido, onde o gradiente é calculado usando a fórmula de erro na amostra, e o próximo peso é obtido subtraindo a taxa de aprendizado vezes o gradiente do peso atual. Finalmente, todos os três modelos lineares, perceptron, regressão linear e regressão logística, são resumidos em um slide e aplicados ao domínio de crédito.

  • 01:05:00 Nesta seção, o professor discute os diferentes tipos de modelos lineares que podem ser implementados na análise de crédito e as correspondentes medidas de erro e algoritmos de aprendizado usados. Por exemplo, o perceptron é usado para classificação binária e a regressão logística é usada para calcular a probabilidade de inadimplência. Diferentes medidas de erro foram usadas para cada modelo, como erro de classificação binária para o perceptron e erro de entropia cruzada para regressão logística. O algoritmo de aprendizado usado dependia da medida de erro escolhida, como o algoritmo de aprendizado perceptron para erro de classificação e gradiente descendente para erro de entropia cruzada. Por fim, o professor discute brevemente os critérios de terminação e os problemas que surgem com a terminação em gradiente descendente, pois uma terminação devidamente analisada é um pouco complicada devido a muitas incógnitas na superfície de erro.

  • 01:10:00 Nesta seção, o palestrante explica que o gradiente descendente é um algoritmo de otimização eficaz, mas não infalível. Se a superfície que o algoritmo de otimização está tentando navegar tiver vários mínimos locais, o algoritmo poderá encontrar apenas um mínimo local em vez de um mínimo global que forneça o melhor resultado. O palestrante sugere o uso de uma combinação de critérios para encerrar o algoritmo de otimização e observa que o gradiente conjugado é uma alternativa válida para a descida do gradiente. O palestrante sugere que, se os mínimos locais se tornarem um problema real em uma aplicação, existem muitas abordagens no campo da otimização para lidar com esse problema.

  • 01:15:00 Nesta seção, o professor explica o conceito de entropia cruzada, que é uma forma de obter uma relação entre duas distribuições de probabilidade usando valores logarítmicos e esperados. O professor também discute as limitações da busca binária e dos métodos de segunda ordem na otimização, enfatizando que, embora métodos mais sofisticados possam levar a melhores resultados, eles podem ser muito caros em termos de ciclos de CPU. Finalmente, em resposta a uma pergunta, o professor confirma que a regressão logística pode ser aplicada a um cenário multiclasse, como demonstrado no exemplo de reconhecimento de dígitos.

  • 01:20:00 Nesta seção da palestra, o professor discute vários métodos para classificação multiclasse, incluindo regressão ordinal e decisões binárias baseadas em árvore. O professor também apresenta o uso da função tanh, que será utilizada como função neuronal em redes neurais. O conceito de taxa de aprendizado também é discutido, com o professor mencionando que existem heurísticas para taxas de aprendizado adaptativas que podem ser usadas, e uma regra de ouro para escolher a taxa de aprendizado é apresentada. Além disso, é feita a distinção entre recursos significativos e recursos derivados da observação do conjunto de dados específico, sendo o primeiro menos provável de perder a garantia VC.

  • 01:25:00 Nesta seção, o professor discute o processo de derivação de recursos em aprendizado de máquina e enfatiza que é uma arte que depende do domínio da aplicação. Embora seja possível derivar recursos com base nos dados, o conjunto de hipóteses final ainda determinará o comportamento de generalização. O professor também observa que a seleção de recursos é feita automaticamente no aprendizado de máquina, mas se torna parte do aprendizado e é cobrada em termos de dimensão VC. O tópico de seleção de recursos será abordado em uma palestra futura sobre redes neurais e camadas ocultas.
Lecture 09 - The Linear Model II
Lecture 09 - The Linear Model II
  • 2012.05.02
  • www.youtube.com
The Linear Model II - More about linear models. Logistic regression, maximum likelihood, and gradient descent. Lecture 9 of 18 of Caltech's Machine Learning ...
 

Aula 10 - Redes Neurais



Curso de Machine Learning da Caltech - CS 156. Aula 10 - Redes Neurais

Yaser Abu-Mostafa, professor do Instituto de Tecnologia da Califórnia, discute regressão logística e redes neurais nesta palestra. A regressão logística é um modelo linear que calcula uma interpretação de probabilidade de uma função de valor real limitada. É incapaz de otimizar sua medida de erro diretamente, então o método de gradiente descendente é introduzido para minimizar uma função não linear arbitrária que é suave o suficiente e duas vezes diferenciável. Embora não haja solução de forma fechada, a medida de erro é uma função convexa, tornando-a relativamente fácil de otimizar usando gradiente descendente.

A descida do gradiente estocástico é uma extensão da descida do gradiente que é usada em redes neurais. As redes neurais são um modelo que implementa uma hipótese motivada por um ponto de vista biológico e relacionada a perceptrons. O algoritmo de retropropagação é um algoritmo eficiente que acompanha as redes neurais e torna o modelo particularmente prático. O modelo tem um link biológico que deixou as pessoas empolgadas e foi fácil de implementar usando o algoritmo. Embora não seja o modelo de escolha atualmente, as redes neurais foram bem-sucedidas em aplicações práticas e ainda são usadas como padrão em muitos setores, como o bancário e o de aprovação de crédito.

Sumário breve:

  • A regressão logística é um modelo linear que calcula uma interpretação de probabilidade de uma função de valor real limitada;
  • O método de gradiente descendente é introduzido para otimizar a regressão logística, mas é incapaz de otimizar sua medida de erro diretamente;
  • A descida do gradiente estocástico é uma extensão da descida do gradiente que é usada em redes neurais;
  • As redes neurais são um modelo que implementa uma hipótese motivada por um ponto de vista biológico e relacionada a perceptrons;
  • O algoritmo de retropropagação é um algoritmo eficiente que acompanha as redes neurais e torna o modelo particularmente prático;
  • Embora as redes neurais não sejam o modelo de escolha atualmente, elas ainda são usadas como padrão em muitos setores, como bancos e aprovação de crédito.
 

Aula 11 - Sobreajuste



Curso de Machine Learning da Caltech - CS 156. Aula 11 - Overfitting

Esta palestra apresenta o conceito e a importância do overfitting no aprendizado de máquina. O overfitting ocorre quando um modelo é treinado no ruído em vez do sinal, resultando em um ajuste fora da amostra ruim. A palestra inclui vários experimentos para ilustrar os efeitos de diferentes parâmetros, como nível de ruído e complexidade do alvo, no overfitting. O palestrante destaca a importância da detecção precoce do overfitting e o uso de técnicas de regularização e validação para preveni-lo. O impacto do ruído determinístico e estocástico no overfitting também é discutido, e a palestra termina apresentando as próximas duas palestras sobre como evitar o overfitting por meio de regularização e validação.

O conceito de overfitting é discutido e a importância da regularização na prevenção é enfatizada. O professor destaca o trade-off entre overfitting e underfitting e explica o papel da dimensão VC no overfitting, onde a discrepância na dimensão VC dado o mesmo número de exemplos resulta em discrepâncias nos erros fora da amostra e dentro da amostra. A questão prática de validar um modelo e como isso pode afetar o overfitting e a seleção do modelo também é abordada. Além disso, o professor enfatiza o papel das funções lineares por partes na prevenção do overfitting e destaca a importância de considerar o número de graus de liberdade no modelo e restringi-lo por meio da regularização.

  • 00:00:00 Nesta seção, o palestrante apresenta o tópico de overfitting em aprendizado de máquina e sua importância, observando que a capacidade de lidar com overfitting separa profissionais de amadores na área. O principal culpado pelo overfitting é identificado como ruído, e o palestrante apresenta o conceito de regularização e validação como técnicas para lidar com o overfitting. A seção serve como uma introdução a um novo tópico que será abordado nas próximas três palestras.

  • 00:05:00 Nesta seção, o palestrante explica o conceito de overfitting, mostrando como ele pode ocorrer ao ajustar um polinômio de 4ª ordem a uma função alvo de 2ª ordem com ruído adicionado. Isso resulta em erro de treinamento zero e ajuste fora da amostra ruim, que é um exemplo clássico de overfitting, em que o modelo foi além do necessário. Este ponto é ainda mais enfatizado ao discutir o overfitting em redes neurais, pois E_in diminui durante o treinamento enquanto E_out permanece alto. O palestrante também destaca que o overfitting é um termo comparativo, pois tem que haver outra situação que seja melhor, e o overfitting pode ocorrer dentro do mesmo modelo.

  • 00:10:00 Nesta seção, o professor Abu-Mostafa discute o overfitting, que ocorre quando E_in é reduzido, mas E_out aumenta devido ao ajuste do ruído em vez do sinal. Ele explica que a dimensão VC efetiva cresce com o tempo, mas o erro de generalização fica cada vez pior à medida que o número de parâmetros aumenta. O overfitting pode ocorrer quando dois modelos ou instâncias diferentes dentro do mesmo modelo são comparados. Uma maneira de corrigir isso é detectar o overfitting usando o algoritmo de parada antecipada, com base na validação, que atua como regularização para evitar o overfitting. Para evitar o ajuste do ruído quando ocorre o overfitting, é importante detectá-lo logo no início e parar, em vez de continuar a minimizar o E_in.

  • 00:15:00 Nesta seção, o palestrante discute como o overfitting pode ocorrer devido à presença de ruído nos dados. Um estudo de caso é apresentado com dois modelos diferentes - um com um alvo ruidoso de baixa ordem e outro com um alvo silencioso de alta ordem. Um polinômio de 2ª ordem e um polinômio de 10ª ordem são usados para ajustar os dados. Para o ajuste de segunda ordem, o erro dentro da amostra é de 0,05 e o erro fora da amostra é um pouco maior. Em contraste, o ajuste de 10ª ordem apresenta um problema, com o erro dentro da amostra sendo menor do que o ajuste de 2ª ordem. No entanto, o erro fora da amostra aumenta drasticamente, indicando um caso de overfitting em que o ruído foi ajustado ao modelo.

  • 00:20:00 Nesta seção, o palestrante discute o overfitting e como ele pode ocorrer mesmo em situações silenciosas quando o modelo está ajustando outro tipo de ruído. Ele dá um exemplo de ajuste de um modelo de 10ª ordem a um alvo ruidoso de 10ª ordem e como isso resultou em overfitting. Em seguida, ele mostra que, ao combinar a complexidade do modelo com os recursos de dados, em vez da complexidade de destino, pode resultar em melhor desempenho, apesar de ter um modelo mais simples. O palestrante enfatiza que os problemas de generalização dependem do tamanho e da qualidade do conjunto de dados, e simplesmente combinar a complexidade do modelo com a função de destino nem sempre é a melhor abordagem.

  • 00:25:00 Nesta seção, o conceito de overfitting no aprendizado de máquina é explorado. A palestra usa curvas de aprendizado para demonstrar como o erro dentro da amostra para um modelo mais complexo é menor, mas o erro fora da amostra é maior, definindo a área cinzenta onde ocorre o overfitting. A palestra também mostra um experimento com dois alunos, um escolhendo um alvo de 10ª ordem e o outro escolhendo um alvo de 2ª ordem para ajustar um alvo de 50ª ordem sem ruído. Apesar da ausência de ruído, ambos os alunos ainda experimentam overfitting, levando à definição de ruído real e à necessidade de cautela em problemas de aprendizado de máquina do mundo real. A palestra conclui que o overfitting ocorre na maioria dos casos, enfatizando a importância de entender e abordar esse problema.

  • 00:30:00 Nesta seção, o palestrante discute os parâmetros que afetam o overfitting, incluindo o nível de ruído, a complexidade do alvo e o número de pontos de dados. Para criar funções alvo interessantes com alta complexidade, o professor usa um conjunto padrão de polinômios de Legendre com coeficientes específicos que são ortogonais entre si. Ao normalizar o sinal para uma energia de 1, o palestrante pode afirmar que sigma ao quadrado é a quantidade de ruído. Ao gerar instâncias do experimento, o palestrante usa diferentes combinações de ruído, complexidade do alvo e número de pontos de dados para observar a persistência do overfitting.

  • 00:35:00 Nesta seção, o palestrante discute um método de medição de overfitting que compara os erros fora da amostra de dois modelos diferentes: um polinômio de 2ª ordem e um polinômio de 10ª ordem. A medida é a diferença entre o erro fora da amostra para o modelo complexo e o erro fora da amostra para o modelo simples. Se o erro fora da amostra do modelo complexo for maior, fazendo com que a medida seja positiva, então há overfitting. O palestrante então mostra como a medida de overfitting muda com níveis variados de ruído e complexidade alvo. À medida que o nível de ruído aumenta e a complexidade do alvo aumenta, o overfitting piora. O palestrante também observa que o overfitting é uma questão importante e deve ser abordada.

  • 00:40:00 Nesta seção, o conceito de ruído em overfitting é expandido para além do ruído convencional e dividido em ruído estocástico e ruído determinístico. Observa-se que mais dados geralmente levam a menos overfitting, e um aumento no ruído estocástico ou determinístico leva a mais overfitting. O ruído determinístico é definido como a parte da função de destino que um conjunto de hipóteses não pode capturar e é rotulado como ruído porque um conjunto de hipóteses não pode lidar com ele. O conceito de como algo que não pode ser capturado é ruído é mais explorado usando um cenário hipotético envolvendo a explicação de números complexos para um irmão mais novo com uma compreensão limitada de números.

  • 00:45:00 Nesta seção da palestra, a diferença entre ruído determinístico e estocástico é explicada e o impacto do ruído determinístico no overfitting é analisado. Ressalta-se que o ruído determinístico depende do conjunto de hipóteses utilizado e, à medida que a complexidade do alvo aumenta, o ruído determinístico e o overfitting também aumentam. No entanto, isso não ocorre até que a complexidade alvo ultrapasse um determinado nível. Para N finito, os mesmos problemas com o ruído estocástico se aplicam ao ruído determinístico, pois você pode capturar parte dele devido ao tamanho limitado da amostra. Também é mencionado que usar um conjunto de hipóteses mais complexo nem sempre é melhor e pode levar ao overfitting.

  • 00:50:00 Nesta seção, o palestrante discute a questão do overfitting quando dada uma amostra finita. Ele explica que uma vez dada uma amostra finita, tem-se a capacidade de ajustar o ruído, tanto estocástico quanto determinístico, o que pode levar a um desempenho pior. O palestrante fornece uma análise quantitativa que adiciona ruído ao alvo para obter informações sobre o papel do ruído estocástico e determinístico. Ele adiciona e subtrai o centróide e o épsilon em preparação para obter termos quadrados e termos cruzados, o que leva a um termo de variância, um termo de viés e um termo adicionado. O termo adicionado é apenas sigma ao quadrado, a variação do ruído.

  • 00:55:00 Nesta seção da palestra, o palestrante discute a decomposição do valor esperado em viés e variância, e como eles se relacionam com o ruído determinístico e estocástico. Ambos representam a melhor aproximação para a função alvo e o ruído que não pode ser previsto, respectivamente. O aumento no número de exemplos diminui a variância, mas tanto o viés quanto a variância são inevitáveis, dada uma hipótese. O ruído determinístico e o ruído estocástico têm uma versão finita nos pontos de dados que afetam a variância tornando o ajuste mais suscetível ao overfitting. O palestrante conduz as próximas duas palestras sobre como evitar o overfitting, discutindo duas abordagens, regularização e validação. A regularização é como colocar os freios para evitar o overfitting, enquanto a validação é verificar o resultado final para evitar o overfitting.
  • 01:00:00 Nesta seção, o professor discute o conceito de frear o overfitting usando um ajuste restrito ou regularização. Ele usa o exemplo de ajustar pontos a um polinômio de 4ª ordem, mas evitando que ele se encaixe totalmente colocando algum atrito nele. A quantidade de freio aplicada é mínima, mas resulta em uma redução drástica no overfitting enquanto ainda consegue um ajuste fantástico. O professor destaca que é importante entender a regularização e como escolhê-la para evitar o overfitting. A sessão de perguntas e respostas aborda a importância da randomização na descida do gradiente estocástico e como desenhar erros fora da amostra em gráficos de redes neurais.

  • 01:05:00 Nesta seção, o professor explica que o ruído determinístico e estocástico em um cenário de aprendizagem são os mesmos porque o ruído determinístico é causado pela incapacidade de um conjunto de hipóteses se aproximar da função alvo. Em problemas de aprendizado do mundo real, a complexidade da função-alvo geralmente é desconhecida e o ruído não pode ser identificado. O objetivo de entender o overfitting conceitualmente é evitar o overfitting sem as particularidades do ruído. Overtraining é sinônimo de overfitting, relativo ao mesmo modelo. Outras fontes de erro, como números de ponto flutuante, produzem um efeito limitado no overfitting, que nunca é mencionado. Em relação ao modelo linear de terceira ordem (regressão logística), o professor esclarece que, quando aplicado a dados linearmente separáveis, pode-se obter um mínimo local e erro amostral nulo.

  • 01:10:00 Nesta seção, o professor discute a questão do overfitting e sua versão de amostra finita, que ocorre devido à contribuição do ruído de fatores estocásticos e determinísticos em uma amostra finita. Isso leva o algoritmo a ajustar esse ruído, o que é prejudicial quando se trata de ajustar modelos maiores como H_10. Ao discutir o uso de funções lineares por partes para evitar o overfitting, o professor destaca a importância de considerar o número de graus de liberdade em seu modelo e tomar medidas para restringir seu modelo em termos de ajuste por meio da regularização. Por fim, o professor aborda a questão prática da validação de um modelo e como isso pode afetar o overfitting e a seleção do modelo.

  • 01:15:00 Nesta seção, o professor discute o trade-off entre overfitting e underfitting e explica que, para chegar a uma hipótese melhor, pode ser necessário se privar de um recurso que poderia ter sido usado para treinamento. O professor também discorre sobre a dimensão VC (Vapnik-Chervonenkis) e como ela se relaciona com o overfitting, afirmando que a discrepância na dimensão VC, dado o mesmo número de exemplos, é a razão das discrepâncias no out-of-sample e no -erro de amostra. O professor também esclarece que, embora ilustrem a complexidade do alvo nos gráficos de cores, a complexidade do alvo não é medida explicitamente e não há uma maneira clara de mapeá-la na energia do ruído determinístico. Por fim, o professor discute como a complexidade alvo pode se traduzir em algo na decomposição de viés-variância e tem impacto no overfitting e na generalização.
Lecture 11 - Overfitting
Lecture 11 - Overfitting
  • 2012.05.10
  • www.youtube.com
Overfitting - Fitting the data too well; fitting the noise. Deterministic noise versus stochastic noise. Lecture 11 of 18 of Caltech's Machine Learning Cours...
 

Aula 12 - Regularização



Curso de Machine Learning da Caltech - CS 156. Aula 12 - Regularização

Esta palestra sobre regularização começa com uma explicação sobre overfitting e seu impacto negativo na generalização de modelos de aprendizado de máquina. Duas abordagens para regularização são discutidas: matemática e heurística. A palestra então investiga o impacto da regularização no viés e variância em modelos lineares, usando o exemplo dos polinômios de Legendre como componentes de expansão. A relação entre C e lambda na regularização também é abordada, com uma introdução ao erro aumentado e seu papel em justificar a regularização para generalização. Técnicas de decaimento/crescimento de peso e a importância de escolher o regularizador certo para evitar overfitting também são discutidas. A palestra termina com foco na escolha de um bom ômega como exercício heurístico e espera que o lambda sirva como uma graça salvadora para a regularização.

A segunda parte discute o decaimento de peso como forma de balancear a simplicidade da rede com sua funcionalidade. O palestrante adverte contra o excesso de regularização e desempenho não ideal, enfatizando o uso de validação para determinar parâmetros de regularização ideais para diferentes níveis de ruído. A regularização é discutida como experimental com base na teoria e na prática. Tipos comuns de regularização, como L1/L2, parada antecipada e abandono, são apresentados, além de como determinar o método de regularização apropriado para diferentes problemas. Hiperparâmetros comuns associados à implementação de regularização também são discutidos.

  • 00:00:00 Nesta seção, Yaser Abu-Mostafo investiga os detalhes do overfitting, que ocorre quando um modelo ajusta os dados muito bem, ao custo de uma generalização ruim. Mesmo que os dados não sejam ruidosos, ruídos determinísticos podem ocorrer devido às limitações do modelo, levando a um padrão que prejudica o erro fora da amostra e causa overfitting. No entanto, Abu-Mostafo apresenta a regularização como a primeira cura para o overfitting, que é uma técnica usada em quase todos os aplicativos de aprendizado de máquina e é importante entender.

  • 00:05:00 Nesta seção, o palestrante discute duas abordagens de regularização em aprendizado de máquina. A primeira abordagem é matemática, onde restrições de suavidade são impostas para resolver problemas mal-postos, mas as suposições feitas nesses desenvolvimentos nem sempre são realistas para aplicações práticas. A segunda abordagem é heurística e envolve limitar a minimização do erro dentro da amostra, colocando freios no ajuste, o que ajuda a combater o overfitting. O palestrante dá um exemplo usando uma senóide e um ajuste de linha, mostrando que, regularizando e controlando o deslocamento e a inclinação das linhas, podemos obter um melhor desempenho fora da amostra.

  • 00:10:00 Nesta seção, o palestrante discute o impacto da regularização no viés e variância de um modelo linear. Ao usar a regularização, a variância é reduzida enquanto o viés é ligeiramente aumentado devido ao ajuste imperfeito. O palestrante usa o exemplo de um modelo polinomial com polinômios de Legendre como componentes de expansão para demonstrar o efeito da regularização no viés e na variância. Com regularização, o modelo linear supera o modelo não regularizado e até mesmo o modelo constante. A palestra aprofunda o desenvolvimento matemático de uma das mais famosas técnicas de regularização em aprendizado de máquina com foco em conclusões concretas e lições que podem ser aprendidas para lidar com situações do mundo real.

  • 00:15:00 Nesta seção, o palestrante apresenta os polinômios de Legendre e explica como eles podem ser usados para construir um conjunto de hipóteses para regressão polinomial. Ao usar esses polinômios, que são ortogonais e lidam com diferentes coordenadas, o parâmetro relevante é uma combinação de pesos, e não apenas um peso individual. O conjunto de hipóteses pode ser parametrizado e representado de forma linear, permitindo soluções analíticas fáceis. A função alvo é desconhecida e o objetivo é obter uma boa aproximação para ela usando um conjunto de treinamento finito. O palestrante também aborda as soluções irrestritas e restritas para minimizar o erro na amostra usando regressão linear.

  • 00:20:00 Nesta seção, o palestrante discute o conceito de regularização, que é uma restrição aplicada aos pesos dos conjuntos de hipóteses. A regularização envolve definir um orçamento C para a magnitude total ao quadrado dos pesos, o que significa que você não pode ter todos os pesos muito grandes. O problema é minimizar o erro dentro da amostra enquanto estiver sujeito a essa restrição. A solução é obtida usando multiplicadores de Lagrange ou KKT, o que dá uma nova solução chamada w_reg. O palestrante explica que o objetivo é escolher um ponto dentro de um círculo que minimize o erro dentro da amostra, o que requer ir o mais longe possível sem violar a restrição.

  • 00:25:00 Nesta seção, o conceito de regularização é discutido, onde o objetivo é derivar um modelo que generalize bem para dados não vistos. A solução da regressão linear é o mínimo absoluto, que satisfaz a restrição. O foco principal é derivar a condição analítica para atingir o mínimo de E_in, sujeito à restrição, a fim de encontrar um compromisso entre o objetivo e a restrição. O gradiente da função objetivo deve ser ortogonal à elipse e o vetor w está na direção da superfície vermelha. A condição analítica para w_reg é que o gradiente deve ser proporcional ao negativo da solução. Ao minimizar a equação da solução, obtém-se o mínimo de E_in, incondicionalmente.

  • 00:30:00 Nesta seção, a palestra discute a relação entre os parâmetros C e lambda na regularização. Quanto maior o valor de C, menor o valor de lambda, pois há menos ênfase no termo de regularização. Por outro lado, à medida que C diminui, o termo de regularização se torna mais significativo e o valor de lambda precisa aumentar para impor a condição. A palestra também apresenta o erro aumentado, que é a soma da função de erro e do termo de regularização. É equivalente a um problema de otimização irrestrita de minimizar a função de erro enquanto sujeito à restrição. Esta correspondência justifica a regularização em termos de generalização e é aplicável a qualquer regularizador. Por fim, a palestra fornece a fórmula para minimizar o erro aumentado e conclui fornecendo a solução.

  • 00:35:00 Nesta seção, o palestrante discute a solução para o problema da regularização. A solução é representada por w_reg, que é uma modificação da solução pseudo-inversa com um termo de regularização adicional. Sob suposições limpas, temos aprendizado de uma etapa, incluindo regularização. Em outras palavras, podemos ter uma solução definitiva sem fazer uma otimização restrita. O termo de regularização na solução torna-se dominante à medida que lambda aumenta, o que reduz w_reg a zero, criando uma solução cada vez menor. O falante então aplica a regularização a um problema familiar, mostrando que a escolha do lambda é crítica, e será necessária uma escolha heurística para o tipo de regularizador.

  • 00:40:00 Nesta seção, o conceito de regularização e seu método associado conhecido como decaimento de peso são introduzidos. O decaimento de peso é um regularizador famoso no aprendizado de máquina que envolve minimizar w transposto w e garantir que os pesos sejam pequenos para que o nome “decaimento” seja dado. Ao usar redes neurais, o decaimento de peso pode ser implementado por meio de descida de gradiente em lote, onde a adição desse termo reduz os pesos antes de qualquer movimento no espaço de peso, o que limita o quanto se pode aprender sobre a função quando λ é grande. Variações de decaimento de peso incluem atribuir fatores de importância a certos pesos e usar diferentes constantes para experimentar o tipo de regularizador que está sendo usado.

  • 00:45:00 Nesta seção, o palestrante discute as técnicas de redução e aumento de peso, que são restrições usadas no aprendizado de máquina para limitar o intervalo de pesos usados pelos modelos. O decaimento de peso envolve a restrição de modelos para usar pesos menores, enquanto o crescimento de peso restringe pesos maiores. O palestrante explica que um valor lambda ótimo deve ser escolhido para ambas as técnicas para obter o melhor desempenho fora da amostra. Além disso, o palestrante discute como escolher o regularizador certo, enfatizando a importância de evitar o overfitting por meio do uso de diretrizes que ajudam a orientar a escolha dos regularizadores. Em última análise, o palestrante recomenda o uso de regras práticas para ajudar a encontrar os regularizadores ótimos, como evitar ruído estocástico de alta frequência.

  • 00:50:00 Nesta seção da palestra, o instrutor explica os diferentes tipos de ruído que podem levar ao overfitting e por que é importante escolher um regularizador que tende a escolher hipóteses mais suaves. Ele define a forma geral de regularização e o erro aumentado que é minimizado, o que é semelhante à equação usada na análise de VC. Ele também discute a correspondência entre a complexidade de uma hipótese individual e a complexidade do conjunto de objetos, e como E_aug é uma estimativa melhor para E_out do que para E_in.

  • 00:55:00 Nesta seção da palestra sobre regularização, é discutida a ideia de erro aumentado como um proxy melhor para o erro fora da amostra. A regularização visa reduzir o overfitting, que é essencialmente ajustar mais o ruído do que o sinal. O princípio orientador para a escolha de um regularizador é mover-se na direção do mais suave, pois o ruído não é suave e as soluções mais suaves tendem a prejudicar mais o ruído do que o sinal adequado. O conceito de mais simples também é introduzido em um caso em que a suavização não se aplica bem. Escolher um bom ômega é um exercício heurístico, e a matemática envolvida é tão boa quanto a suposição na qual se baseia. A palestra termina com a esperança de que o lambda sirva de salvação para a escolha do regularizador.

  • 01:00:00 Nesta seção da palestra, é explorado o conceito de decaimento de peso para redes neurais, onde pesos pequenos resultam em simplicidade da função, e pesos maiores resultam em uma dependência lógica para permitir que qualquer funcionalidade seja implementada. Outra forma de regularizador é a eliminação de peso, onde alguns dos pesos dentro de uma rede são forçados a serem zero, resultando em uma dimensão VC menor, permitindo melhor generalização e menor chance de overfitting. A eliminação de peso suave é introduzida, por meio da qual uma função contínua é aplicada à rede para enfatizar alguns dos pesos sobre outros. Por fim, discute-se a parada antecipada como uma forma de regularizador, que recomenda a interrupção do treinamento antes do final, pois é uma forma indireta de dar simplicidade à função.

  • 01:05:00 Nesta seção, o professor explica que a regularização é feita através do otimizador e que não alteramos a função objetivo. Em vez disso, entregamos a função objetivo, que é o erro dentro da amostra, para o otimizador e dizemos para minimizá-lo. O professor então adverte contra apenas colocar o regularizador no otimizador, o que pode levar a superregularização e desempenho não ideal se não for feito corretamente. Ele enfatiza a importância de capturar o máximo possível na função objetivo e, em seguida, usar a validação para determinar o valor ideal para o parâmetro de regularização, lambda. O professor então mostra como a escolha do lambda muda com diferentes níveis de ruído e como o uso da validação pode ajudar a determinar o melhor resultado possível devido ao ruído. Por fim, ele discute o uso de diferentes tipos de regularizadores com diferentes parâmetros, dependendo do desempenho.

  • 01:10:00 Nesta seção, o professor discute o uso de regularizadores no aprendizado de máquina, que é uma atividade experimental e não uma atividade totalmente baseada em princípios. A abordagem de aprendizado de máquina está em algum lugar entre a teoria e a prática, o que significa que tem uma forte base em ambos. O professor usa polinômios de Legendre como funções ortogonais porque fornecem um nível de generalidade interessante e a solução é simples. A regularização permite que um usuário encontre um ponto ideal para o melhor desempenho, que pode estar entre duas etapas discretas. O termo de regularização adicionado não depende explicitamente do conjunto de dados. Entretanto, o parâmetro ótimo, lambda, dependerá do conjunto de treinamento, que será determinado pela validação.

  • 01:15:00 Nesta seção, é introduzido o conceito de regularização, que envolve a adição de um termo de penalidade à função de perda para evitar o overfitting em modelos de aprendizado de máquina. Os dois tipos mais comuns de regularização, L1 e L2, são discutidos juntamente com suas respectivas vantagens e desvantagens. Além disso, é explicado o uso de parada antecipada e abandono como técnicas alternativas de regularização. A palestra termina com uma visão geral de como determinar o método de regularização apropriado para um determinado problema, bem como hiperparâmetros comuns a serem considerados ao implementar a regularização.
Lecture 12 - Regularization
Lecture 12 - Regularization
  • 2012.05.14
  • www.youtube.com
Regularization - Putting the brakes on fitting the noise. Hard and soft constraints. Augmented error and weight decay. Lecture 12 of 18 of Caltech's Machine ...
 

Aula 13 - Validação




Curso de Machine Learning da Caltech - CS 156. Aula 13 - Validação

Na aula 13, o foco está na validação como uma técnica importante em aprendizado de máquina para seleção de modelos. A palestra aborda as especificidades da validação, incluindo por que ela é chamada de validação e por que é importante para a seleção do modelo. A validação cruzada também é discutida como um tipo de validação que permite o uso de todos os exemplos disponíveis para treinamento e validação. O palestrante explica como estimar o erro fora da amostra usando a variável aleatória que pega um ponto fora da amostra e calcula a diferença entre a hipótese e o valor alvo. A palestra também discute o viés introduzido ao usar a estimativa para escolher um determinado modelo, pois ele não é mais confiável, pois foi selecionado com base no conjunto de validação. O conceito de validação cruzada é introduzido como um método para avaliar o erro fora da amostra para diferentes hipóteses.

Ele também aborda o uso de validação cruzada para seleção e validação de modelos para evitar overfitting, com foco em "deixar um de fora" e validação cruzada de 10 vezes. O professor demonstra a importância de contabilizar a discrepância fora da amostra e a espionagem de dados e sugere a inclusão de métodos aleatórios para evitar o viés de amostragem. Ele explica que, embora a validação cruzada possa adicionar complexidade, combiná-la com a regularização pode selecionar o melhor modelo e, como a validação não requer suposições, é única. O professor explica ainda como a validação cruzada pode ajudar a fazer escolhas baseadas em princípios, mesmo ao comparar diferentes cenários e modelos, e como o total de pontos de validação determina a barra de erro e o viés.

  • 00:00:00 Nesta seção, o foco está na validação, outra técnica importante em aprendizado de máquina usada para seleção de modelo. O processo envolve escolher um tamanho de conjunto de validação e usá-lo para validar o processo de seleção de modelo. A palestra aborda as especificidades da validação, incluindo por que ela é chamada de validação e por que é importante para a seleção do modelo. A discussão também abrange a validação cruzada, que é um tipo de validação que permite o uso de todos os exemplos disponíveis para treinamento e validação. A palestra contrasta validação com regularização, tanto quanto controle.

  • 00:05:00 Nesta seção, o palestrante discute a validação e regularização no contexto da conhecida equação que trata da diferença entre o erro dentro da amostra e o erro fora da amostra devido à complexidade do modelo. A regularização estima a penalidade para a complexidade do overfit enquanto a validação tenta estimar o erro fora da amostra diretamente. O palestrante explica como estimar o erro fora da amostra usando a variável aleatória que pega um ponto fora da amostra e calcula a diferença entre a hipótese e o valor alvo. O palestrante enfatiza como a variância afeta a qualidade da estimativa e propõe o uso de um conjunto completo de pontos em vez de um.

  • 00:10:00 Nesta seção, é introduzida a noção de um conjunto de validação e o erro de validação como uma estimativa imparcial do erro fora da amostra. O valor esperado do erro de validação é E_out, que é outra forma do valor esperado em um único ponto. A variância do erro de validação é analisada para mostrar que há uma melhora na estimativa baseada em E_val em relação a um único ponto. A variância acaba sendo proporcional a 1/K, o que significa que aumentar K pode diminuir a barra de erro e melhorar a confiabilidade da estimativa. No entanto, o número de pontos de validação não é gratuito e tem impacto direto no número de pontos disponíveis para treinamento.

  • 00:15:00 Nesta seção, o foco está no processo de validação, em que K pontos são retirados de N pontos para fins de validação, enquanto o subconjunto restante D_train é usado para treinamento. Também é importante observar a utilidade de ter uma estimativa confiável de um conjunto de validação para garantir que a hipótese final seja confiável. No entanto, ter uma estimativa confiável de uma quantidade ruim não deve ser o objetivo. À medida que o valor de K aumenta, a estimativa se torna mais confiável, mas a qualidade da hipótese diminui. Assim, é fundamental encontrar um meio de não ter que pagar o preço que vem com o aumento de K. Uma forma é restaurar o conjunto de dados após estimar o erro e treinar no conjunto completo para obter melhores resultados.

  • 00:20:00 Nesta seção, o foco está no comprometimento do desempenho ao usar um conjunto de validação durante o treinamento. O conjunto reduzido de D_train terá menos exemplos em comparação com o conjunto de treinamento completo D, usando o qual obtemos a hipótese final g menos. Para obter uma estimativa, avaliamos g menos em um conjunto de validação D_val e, em seguida, adicionamos o restante dos exemplos de volta ao pote e relatamos g. No entanto, um K grande significa que a diferença entre g menos e g é maior, e isso afeta a confiabilidade da estimativa que relatamos. Portanto, existe uma regra prática para usar um quinto para validação para obter o melhor dos dois mundos. Chamamos de validação porque afeta o processo de aprendizagem e ajuda na tomada de decisões.

  • 00:25:00 Nesta seção, o foco é entender a diferença entre erro de teste e erro de validação. Quando o conjunto de teste é imparcial e é usado para estimar E_out, haverá flutuações na estimativa. Se a parada antecipada for usada, o viés da estimativa muda. Em um cenário de miniaprendizagem, é fácil perceber que o valor esperado do mínimo é menor que 0,5, tornando-o um viés otimista. A mesma coisa acontece quando um ponto é escolhido para parada antecipada - o ponto escolhido é mínimo na realização, e um viés otimista é introduzido.

  • 00:30:00 Nesta seção, a palestra discute o uso do conjunto de validação para seleção de modelo em aprendizado de máquina. O processo envolve treinar modelos M usando um conjunto de dados dividido em conjuntos de treinamento e validação e, em seguida, avaliar o desempenho de cada modelo no conjunto de validação para obter estimativas de erro fora da amostra. O modelo com o menor erro de validação é escolhido, mas existe o risco de viés introduzido devido a esse processo de seleção. No entanto, o viés é geralmente menor na prática e pode ser aceito para obter uma estimativa confiável do erro fora da amostra.

  • 00:35:00 Nesta seção, o palestrante discute o viés introduzido ao usar a estimativa para escolher um determinado modelo, pois ele não é mais confiável, pois foi selecionado com base no conjunto de validação. O valor esperado do estimador torna-se uma estimativa enviesada do erro fora da amostra. Um experimento com dois modelos gerou uma curva que indicava um viés sistemático para um modelo ou outro. As curvas no gráfico indicam a curva de aprendizado inversa e como o erro fora da amostra diminui com mais exemplos para treinamento. À medida que o tamanho do conjunto de validação aumenta, a estimativa torna-se mais confiável e as curvas que indicam os erros dos modelos convergem.

  • 00:40:00 Nesta seção, a palestra explica como estimar a discrepância ou viés entre treinar em um conjunto de hipóteses especiais e encontrar a hipótese final usando um conjunto de validação. O conjunto de validação é visto como o erro de treinamento para o conjunto de hipóteses final e, com um pouco de matemática relacionada à dimensão VC e à complexidade efetiva, pode-se obter uma estimativa do erro fora da amostra. Embora mais exemplos melhorem a estimativa, as contribuições logarítmicas devem ser levadas em consideração ao selecionar um número maior de hipóteses. No entanto, ao lidar com um único parâmetro, a complexidade efetiva acompanha uma dimensão VC de 1, que não é muito difícil de lidar. Portanto, se você tiver um conjunto adequado, a estimativa do erro fora da amostra não será muito diferente do valor real.

  • 00:45:00 Nesta seção, o palestrante discute a ideia de contaminação de dados ao usar estimativas de erro para tomar decisões, principalmente no contexto de validação. O conjunto de treinamento é considerado completamente contaminado, enquanto o conjunto de teste é completamente limpo e fornece uma estimativa imparcial. No entanto, o conjunto de validação está um pouco contaminado porque é usado para tomar algumas decisões, por isso é importante não se deixar levar e passar para outro conjunto de validação quando necessário. O palestrante então introduz a validação cruzada como um regime de validação que pode obter uma estimativa melhor com uma barra de erro menor, desde que não seja enviesado no processo.

  • 00:50:00 Nesta seção, o professor introduz o conceito de validação por validação cruzada, especificamente o método "leave one out". Nesse método, o conjunto de dados é dividido em dois, sendo um ponto usado para validação e o restante para treinamento. O processo é repetido para diferentes pontos, resultando em múltiplas estimativas imparciais e imperfeitas. Como todas as estimativas são baseadas no treinamento com N menos 1 pontos de dados, elas têm um fio comum. Apesar de imperfeitas, as estimativas repetidas fornecem informações sobre o comportamento do modelo e ajudam a otimizá-lo para obter o melhor desempenho fora da amostra.

  • 00:55:00 Nesta seção, o conceito de validação cruzada é introduzido como um método para avaliar o erro fora da amostra para diferentes hipóteses. Ao dividir o conjunto de dados em conjuntos de treinamento e validação, é possível estimar o desempenho do modelo em dados não vistos. O método "deixar um de fora" é usado para ilustrar o processo. A eficácia da validação cruzada é discutida, sendo mostrado que usar N menos 1 pontos para treinar e N pontos para validar é notavelmente eficiente para obter resultados precisos.

  • 01:00:00 Nesta seção, o professor discute o uso de validação cruzada para seleção de modelos. Ele demonstra isso comparando os modelos linear e constante com três pontos e mostra como o modelo constante vence. Ele então aplica a validação cruzada ao problema de encontrar uma superfície de separação para dígitos manuscritos usando uma transformação não linear de 5ª ordem com 20 recursos. Ele usa a validação cruzada "deixar um de fora" para comparar 20 modelos e escolhe onde parar de adicionar recursos. Ele mostra que o erro de validação cruzada acompanha de perto o erro fora da amostra e que usá-lo como critério para a escolha do modelo leva a mínimos em 6 recursos com desempenho aprimorado em comparação com o uso do modelo completo sem validação.

  • 01:05:00 Nesta seção, o professor discute o uso da validação para evitar o overfitting e como ela é considerada semelhante à regularização. Ele explica como a validação "deixar um de fora" não é prática para a maioria dos problemas reais e sugere o uso de validação cruzada de 10 vezes. Ele também fornece orientação sobre o número de parâmetros a serem usados com base no tamanho do conjunto de dados e esclarece por que a escolha do modelo por validação não conta como espionagem de dados.

  • 01:10:00 Nesta seção, o professor discute a importância de contabilizar a discrepância fora da amostra e a espionagem de dados ao usar o conjunto de validação para fazer escolhas de modelo. Ele enfatiza a necessidade de usar métodos de randomização, como lançar moedas para evitar viés de amostragem e usar técnicas de validação cruzada para escolher o parâmetro de regularização em muitos casos práticos. Embora a validação cruzada possa adicionar complexidade computacional, ela também pode ser combinada com a regularização para selecionar a melhor hipótese para um modelo. O professor observa que, embora existam outros métodos de seleção de modelos, a validação é única porque não requer suposições.

  • 01:15:00 Nesta seção, o professor discute como a validação pode ajudar a fazer escolhas baseadas em princípios na seleção de modelos, independentemente da natureza da escolha, e como também pode ser usada para atualizar o modelo em caso de evolução no tempo ou sistema de rastreamento evolução. Ao comparar validação e validação cruzada, ele explica que ambos os métodos têm viés, mas a validação cruzada permite que mais exemplos sejam usados para treinamento e validação, resultando em uma barra de erro menor e menos vulnerabilidade ao viés. Embora seja possível ter conjuntos de dados tão grandes que a validação cruzada não seja necessária, o professor fornece um exemplo em que, mesmo com 100 milhões de pontos, a validação cruzada ainda era benéfica devido à natureza dos dados.

  • 01:20:00 Nesta seção, o professor discute cenários em que a validação cruzada é útil e aborda possíveis problemas com ela. Ele explica que a validação cruzada se torna relevante quando a parte mais relevante de um grande conjunto de dados é menor que o conjunto inteiro. Ao decidir entre modelos concorrentes, a evidência estatística é necessária para determinar a significância do erro fora da amostra. O professor afirma que, com um conjunto de dados menor, não há uma resposta definitiva sobre se é melhor reamostrar ou dividir o conjunto em partes para validação cruzada. O professor também discute o papel do equilíbrio entre as aulas e como o viés se comporta ao aumentar o número de pontos deixados de fora. Por fim, o professor explica que o número total de pontos de validação determina a barra de erro, e o viés é uma função de como a validação cruzada é usada.

  • 01:25:00 Nesta seção, o professor discute a barra de erro e como ela pode fornecer uma indicação de vulnerabilidade a viés em uma estimativa. Se dois cenários tiverem barras de erro comparáveis, não há razão para acreditar que um seja mais vulnerável ao viés. No entanto, é necessária uma análise detalhada para ver a diferença entre tomar um cenário de cada vez e considerar as correlações. O professor conclui que, desde que várias dobras sejam feitas e cada exemplo apareça na estimativa de validação cruzada exatamente uma vez, não há preferência entre os cenários em termos de viés.
Lecture 13 - Validation
Lecture 13 - Validation
  • 2012.05.17
  • www.youtube.com
Validation - Taking a peek out of sample. Model selection and data contamination. Cross validation. Lecture 13 of 18 of Caltech's Machine Learning Course - C...
 

Aula 14 - Máquinas de Vetores de Suporte



Curso de Machine Learning da Caltech - CS 156. Aula 14 - Support Vector Machines

A palestra aborda a importância da validação e seu uso no aprendizado de máquina, bem como as vantagens da validação cruzada sobre a validação. O foco da palestra está nas máquinas de vetores de suporte (SVMs) como o modelo de aprendizado mais eficaz para classificação, com um esboço detalhado da seção que envolve a maximização da margem, formulação e soluções analíticas por meio da otimização restrita apresentada. A palestra cobre uma variedade de detalhes técnicos, incluindo como calcular a distância entre um ponto e um hiperplano em SVMs, como resolver o problema de otimização para SVMs e como formular o problema de otimização SVM em sua formulação dupla. O palestrante também aborda os aspectos práticos do uso da programação quadrática para resolver o problema de otimização e a importância da identificação de vetores de suporte. A palestra termina com uma breve discussão sobre o uso de transformações não lineares em SVMs.

Na segunda parte desta palestra sobre máquinas de vetores de suporte (SVM), o palestrante explica como o número de vetores de suporte dividido pelo número de exemplos dá um limite superior na probabilidade de erro na classificação de um ponto fora da amostra, tornando o uso de vetores suporte com transformação não linear factível. O professor também discute a normalização de w transposto x mais b para 1 e sua necessidade de otimização, bem como a versão soft-margin do SVM, que permite erros e os penaliza. Além disso, é explicada a relação entre o número de vetores de suporte e a dimensão VC, e é mencionada a resistência do método ao ruído, sendo a versão soft do método utilizada em casos de dados ruidosos.

  • 00:00:00 Nesta seção, o palestrante discute a importância da validação, principalmente no que diz respeito ao seu uso em aprendizado de máquina. O conceito de viés imparcial e otimista como resultado do erro de validação e seu efeito na seleção do modelo também é explicado. A vantagem da validação cruzada sobre a validação é destacada na seção. Além disso, o palestrante apresenta as máquinas de vetores de suporte como o modelo de aprendizado mais eficaz para classificação, citando sua interpretação intuitiva, uma derivação baseada em princípios e um pacote de otimização como vantagens significativas para o modelo de aprendizado. Um esboço detalhado da seção, que envolve a maximização da margem, formulação e soluções analíticas por meio de otimização restrita, também é apresentado.

  • 00:05:00 Nesta seção, o conceito de maximizar a margem na separação linear foi explicado. Embora todas as linhas que separam dados linearmente separáveis tenham erro zero na amostra, algumas podem ter margens melhores que permitem maior generalização. Explica-se que uma margem maior é melhor porque, em situações de ruído, a probabilidade de o novo ponto ser classificado corretamente é maior. Isso está relacionado à função de crescimento e como uma função de crescimento maior é desvantajosa para a generalização no aprendizado de máquina. Mostra-se que maximizar a margem pode ajudar na generalização, procurando linhas que não apenas separem os dados corretamente, mas também tenham a margem máxima possível para esses pontos de dados.

  • 00:10:00 Nesta seção, o palestrante discute margens gordas e como elas podem melhorar o desempenho de um classificador. Ao exigir que um classificador tenha uma margem de um determinado tamanho, o número de dicotomias possíveis é reduzido, levando a uma função de crescimento menor e a uma dimensão de VC menor. Quanto maior a margem, melhor o desempenho fora da amostra do classificador. O palestrante explica como resolver a maior margem possível, encontrando a distância entre o hiperplano e o ponto de dados mais próximo e normalizando o vetor w para simplificar a análise. O sinal, ou a distância entre o hiperplano e os pontos de dados, não é a distância euclidiana, mas a ordem dos pontos mais próximos e mais distantes e precisa ser convertida para obter a distância euclidiana.

  • 00:15:00 Nesta seção, o palestrante explica alguns detalhes técnicos relevantes para a análise da máquina de vetores de suporte. Em primeiro lugar, para comparar o desempenho de diferentes planos, a distância euclidiana é usada como parâmetro. Em segundo lugar, w é extraído do vetor X para analisar as máquinas de vetores de suporte de forma mais conveniente, e w₀ é extraído para que não seja confundido com o vetor w que agora tem um novo papel. O objetivo é calcular a distância entre xₙ (o ponto mais próximo) e o plano. O professor mostra que o vetor w é ortogonal ao plano e a todos os vetores no plano, o que significa que é ortogonal a todos os vetores normais no plano, então agora podemos obter a distância entre xₙ e o plano.

  • 00:20:00 Nesta seção, o palestrante discute como calcular a distância entre um ponto e um hiperplano em SVMs. Isso pode ser feito projetando o vetor que vai do ponto a um ponto genérico no hiperplano na direção ortogonal ao hiperplano. O vetor unitário nessa direção é calculado normalizando o comprimento do vetor. Usando um pouco de álgebra, o falante deriva uma fórmula para a distância que é simplificada pela adição de um termo que falta. Esta fórmula pode ser usada para escolher a combinação de w's que dá a melhor margem possível. O problema de otimização que resulta disso não é muito amigável devido ao mínimo nas restrições. No entanto, fazendo algumas observações simples, esse problema pode ser reformulado em um quadrático mais amigável.

  • 00:25:00 Nesta seção, o palestrante explica como resolver o problema de otimização para Support Vector Machines (SVMs). Eles começam mostrando como os SVMs podem ser formulados como um problema de otimização restrito onde devem minimizar uma função objetivo sujeita a restrições de desigualdade linear. Eles provam que é possível usar multiplicadores de Lagrange para transformar as restrições de desigualdade em restrições de igualdade e então resolver o novo Lagrangiano. Eles observam que essa abordagem foi descoberta independentemente por Karush e Kuhn-Tucker e é conhecida como KKT Lagrangeana. O palestrante destaca que o processo é semelhante ao procedimento de regularização, e relembra a condição de gradiente para a solução.

  • 00:30:00 Nesta seção, o palestrante explica a relação entre SVM e regularização e a formulação de Lagrange. É essencial observar que as restrições levam a um gradiente diferente de zero, ao contrário do problema irrestrito em que o gradiente é igual a 0. A formulação de Lagrange depende de variáveis como w e b, e há novas variáveis, multiplicadores de Lagrange como o vetor alfa . O problema em questão é minimizar a função objetivo sujeita às restrições da forma, e então damos a ela um nome Lagrangeano. A parte interessante é que na verdade estamos maximizando em relação ao alfa, embora os alfas tenham que ser não negativos e, portanto, precisamos prestar atenção nisso. A seção termina com uma breve explicação da parte irrestrita, onde precisamos minimizar o gradiente do Lagrangiano em relação a w e b.

  • 00:35:00 Nesta seção da palestra, o palestrante explica como formular o problema de otimização SVM em sua formulação dupla. Ele primeiro otimiza o problema em relação a w e b, resultando em duas condições que ele substitui de volta no Lagrangiano original, levando à formulação dupla do problema, que é uma boa fórmula em termos apenas dos multiplicadores alfa de Lagrange. Ele então define a restrição para que os alfas sejam não negativos e resolve o problema de maximização sujeito a essas restrições, resultando nos valores ótimos de alfa que determinam os vetores de suporte.

  • 00:40:00 Nesta seção, o palestrante discute os aspectos práticos do uso da programação quadrática para resolver o problema de otimização apresentado anteriormente para máquinas de vetores de suporte. O objetivo e as restrições são traduzidos em coeficientes que são passados para o pacote de programação quadrática para minimização. A dimensão da matriz depende do número de exemplos e isso se torna uma consideração prática para grandes conjuntos de dados. O palestrante alerta que quando o número de exemplos é grande, a programação quadrática tem dificuldade em encontrar a solução e pode exigir o uso de heurísticas.

  • 00:45:00 Nesta seção, a palestra aprofunda as soluções trazidas pela programação quadrática, especificamente alfa, e como ela se relaciona com o problema original de determinar os pesos, a superfície, a margem e b. A palestra destaca a importância de identificar os vetores de suporte, que são os pontos que definem o plano e a margem. A matemática por trás dos lambdas positivos (alfas neste caso) permite identificar os vetores de suporte, pois considera apenas os pontos com valores positivos. Isso significa que esses valores alfa são cruciais para definir o limite entre as duas classificações, e identificar sua localização é fundamental para otimizar os pesos e criar a margem máxima.

  • 00:50:00 Nesta seção, o conceito de vetores de suporte é apresentado e discutido no contexto do algoritmo da máquina de vetores de suporte (SVM). Os vetores de suporte são definidos como os pontos de dados que estão mais próximos do limite de decisão ou hiperplano que separa as classes de dados. O algoritmo SVM otimiza um problema de programação quadrática para determinar os vetores de suporte e os parâmetros da função de decisão. Os valores dos parâmetros dependem apenas dos vetores de suporte, que são os pontos críticos, permitindo que o modelo generalize bem. Transformações não lineares também são brevemente discutidas como uma forma de lidar com dados não separáveis. Transformar os dados em um espaço de maior dimensão não complica o problema de otimização, e a mesma técnica pode ser usada para encontrar os vetores de suporte e a função de decisão.

  • 00:55:00 Nesta seção do vídeo, o palestrante discute o uso de transformações não lineares em SVMs. As transformações não lineares são usadas quando os dados não são separáveis linearmente, como é o caso do espaço X. O palestrante demonstra como usar uma transformação não linear e trabalhar no espaço Z para obter um resultado linearmente separável. Ele explica que a solução é fácil e o número de alfas depende do número de pontos de dados, não da dimensionalidade do espaço em que você está trabalhando. A ideia principal é que você pode ir a um espaço enorme sem pagar um preço em termos de otimização. Os vetores de suporte são identificados no espaço Z, mas no espaço X, eles se parecem com pontos de dados.

  • 01:00:00 Nesta seção, o palestrante discute o resultado da generalização que torna viável o uso de vetores de suporte com transformação não linear. O número de vetores de suporte, que representa o número de parâmetros efetivos, dividido pelo número de exemplos dá um limite superior na probabilidade de erro na classificação de um ponto fora da amostra. Se o valor esperado de várias execuções deste maquinário se mantiver, então o E_out real que você obterá em um caso particular será limitado acima por um tipo familiar de limite (por exemplo, o número de parâmetros, graus de liberdade e dimensão VC dividido por o número de exemplos). Esse resultado faz com que as pessoas usem vetores de suporte e vetores de suporte com a transformação não linear, pois você não paga pelo cálculo de ir para uma dimensão superior ou pela generalização que o acompanha.

  • 01:05:00 Nesta seção, o professor explica por que ele escolhe normalizar w transposto x mais b para ser 1 e por que essa normalização é necessária para otimização. Ele também responde a uma pergunta sobre como o SVM lida com pontos não linearmente separáveis por meio de transformações não lineares e como a versão de margem flexível do SVM permite erros e os penaliza. Além disso, o professor aborda brevemente a relação entre o número de vetores de suporte e a dimensão VC e como os alfas representam os parâmetros no SVM.

  • 01:10:00 Nesta seção, o palestrante discute a relação entre o número de parâmetros diferentes de zero e a dimensão VC, que é equivalente ao número de vetores de suporte por definição. A medida de margem pode variar dependendo da norma usada, mas não há razão convincente para preferir uma em relação à outra em termos de desempenho. Embora não haja um método direto para podar vetores de suporte, obter subconjuntos e obter os vetores de suporte dos vetores de suporte são possíveis considerações computacionais. O método SVM não é particularmente suscetível a ruídos e, em casos de dados ruidosos, é usada a versão suave do método, que é notavelmente semelhante ao caso não ruidoso.
Lecture 14 - Support Vector Machines
Lecture 14 - Support Vector Machines
  • 2012.05.18
  • www.youtube.com
Support Vector Machines - One of the most successful learning algorithms; getting a complex model at the price of a simple one. Lecture 14 of 18 of Caltech's...
 

Aula 15 - Métodos Kernel



Curso de Machine Learning da Caltech - CS 156. Aula 15 - Métodos do Kernel

Esta palestra sobre métodos de kernel apresenta as máquinas de vetor de suporte (SVMs) como um modelo linear que é mais voltado para o desempenho do que os modelos de regressão linear tradicionais devido ao conceito de maximizar a margem. Se os dados não forem separáveis linearmente, as transformações não lineares podem ser usadas para criar superfícies onduladas que ainda permitem hipóteses complexas sem pagar um alto preço em complexidade. O vídeo explica os métodos do kernel que vão para o espaço Z de alta dimensão, explicando como calcular o produto interno sem calcular os vetores individuais. O vídeo também descreve as diferentes abordagens para obter um kernel válido para problemas de classificação e explica como aplicar o SVM a dados não separáveis. Por fim, o vídeo explica o conceito de folga e quantifica a violação de margem no SVM, introduzindo uma variável xi para penalizar a violação de margem e revisando a formulação lagrangiana para resolver alfa.

A segunda parte aborda aspectos práticos do uso de máquinas de vetores de suporte (SVMs) e métodos de kernel. Ele explica o conceito de máquinas vetoriais de suporte de margem flexível e como elas permitem alguns erros de classificação, mantendo uma margem ampla. Ele fala sobre a importância do parâmetro C, que determina quanta violação pode ocorrer, e sugere o uso de validação cruzada para determinar seu valor. Ele também aborda preocupações sobre a coordenada constante em dados transformados e garante aos usuários que ela desempenha o mesmo papel que o termo de viés. Além disso, ele discute a possibilidade de combinar kernels para produzir novos kernels e sugere métodos heurísticos que podem ser usados quando a programação quadrática falha na solução de SVMs com muitos pontos de dados.

  • 00:00:00 Nesta seção da palestra sobre Kernel Methods, Yaser Abu-Mostafa apresenta o conceito de máquinas de vetores de suporte (SVMs), observando que elas nada mais são do que um modelo linear na forma mais simples, mas são mais orientadas para o desempenho por causa da ideia de maximizar a margem. Usando um pacote de programação quadrática, podemos resolver o problema SVM e recuperar os alfas, o que nos ajuda a identificar os vetores de suporte. Se os dados não forem linearmente separáveis, podemos usar a transformação não linear, mas a superfície ondulada resultante ainda nos permite obter uma hipótese complexa sem pagar um alto preço em complexidade. Podemos prever o erro fora da amostra com base no número de vetores de suporte, que é uma quantidade dentro da amostra.

  • 00:05:00 Nesta seção, o vídeo explica o conceito dos métodos do kernel e seu papel na extensão das máquinas de vetores de suporte além do caso linearmente separável. A ideia por trás dos métodos do kernel é ir para um espaço Z de alta dimensão sem pagar o preço pela complexidade. O vídeo explica que a chave para conseguir isso é ser capaz de calcular o produto interno no espaço Z sem realmente calcular os vetores individuais nesse espaço. É aqui que os kernels entram, pois permitem a computação de produtos internos usando apenas entradas explícitas. O vídeo explica as implicações desses métodos para lidar com transformações não lineares e margens suaves e como eles podem ser usados na prática para lidar com problemas complexos.

  • 00:10:00 Nesta seção, a palestra explica o uso do produto interno no espaço Z e como ele se relaciona com os métodos do kernel. O produto interno é necessário para formar o Lagrangiano e passar restrições para a programação quadrática, mas pode ser calculado usando apenas produtos internos para executar a maquinaria de vetores de suporte. Usando um produto interno generalizado ou kernel que corresponde a um espaço Z, pode-se transformar dois pontos x e x traço em uma função que é determinada por x e x traço, que é chamada de kernel. É dado um exemplo de um espaço euclidiano bidimensional usando uma transformação polinomial de 2ª ordem.

  • 00:15:00 Nesta seção, o palestrante discute o conceito de métodos de kernel e como calcular kernels sem transformar x e x traço. O conferencista improvisa um kernel que não transforma as coisas para o espaço Z e convence a plateia de que o kernel corresponde a uma transformação para algum espaço Z, tirando daí um produto interno. Ao elevar ao quadrado um kernel com 1 + x_xdash elevado à potência Q, o palestrante explica como isso se torna um produto interno em algum espaço, tornando-o um kernel válido. Além disso, o palestrante compara quanta computação seria necessária para fazer isso com outras dimensões, independentemente da complexidade de Q, que permanece a mesma.

  • 00:20:00 Nesta seção, o palestrante explica um método de núcleo para transformação polinomial que pode ser realizado sem realmente expandir o polinômio. Tomando o logaritmo e exponenciando-o, o polinômio torna-se uma operação simples que não requer uma grande expansão. Este é um polinômio fácil que pode ser visualizado em 2D e extrapolado para outros casos. Um kernel que mapeia para um espaço dimensional superior pode ser obtido tomando um produto interno nesse espaço. O palestrante apresenta um exemplo de um kernel que não possui um termo de produto interno no espaço X ou Z, mas corresponde a um produto interno em um espaço de dimensão infinita. Apesar dos desafios de ir para um espaço de dimensão infinita, o método kernel ainda é útil, e o número de vetores de suporte pode ser usado para determinar a generalização de um modelo.

  • 00:25:00 Nesta seção, o palestrante demonstra o kernel da função de base radial, um kernel sofisticado que corresponde a um espaço de dimensão infinita, e mostra como ele funciona em ação tomando um caso ligeiramente não separável. O palestrante gera 100 pontos aleatoriamente e mostra que não há linha que os separe. Em seguida, o professor transforma X em um espaço de dimensão infinita e calcula o kernel, que é uma exponencial simples. O palestrante passa isso para a programação quadrática, que devolve os vetores de suporte. Quando o professor escurece os vetores de suporte, fica mais fácil ver as duas classes.

  • 00:30:00 Nesta seção, o palestrante discute a ideia dos métodos do kernel e como eles podem ser usados para classificação. Ele apresenta um exemplo de uso de um kernel em um conjunto de dados de pontos para transformá-los em um espaço de dimensão infinita onde eles podem ser separados por um plano linear. A margem resultante e os vetores de suporte são usados para determinar a quantidade na amostra que orienta a propriedade de generalização. O palestrante então explica como um núcleo válido correspondente a um produto interno em algum espaço Z pode ser usado na formulação do problema e na construção da hipótese. No geral, ele enfatiza a utilidade dos métodos do kernel e como eles podem ser aplicados para resolver problemas de classificação.

  • 00:35:00 Nesta seção, aprendemos como traduzir o modelo linear em uma forma de kernel, onde as máquinas de vetores de suporte se tornam um modelo que permite a escolha do kernel. O kernel toma o lugar do produto interno depois que os produtos internos são tomados com o espaço Z. O modelo resultante depende da escolha do kernel e também podemos resolver para b inserindo um vetor de suporte. O kernel, no entanto, é difícil de determinar, pois você não pode verificar sua validade sem visitar o espaço Z. No entanto, ilustramos como podemos comparar abordagens observando a forma funcional de diferentes núcleos.

  • 00:40:00 Nesta seção, o palestrante explica as condições para obtenção de um kernel válido nos métodos do kernel. Existem três abordagens: construção, onde um núcleo é construído a partir de um conjunto conceitual ou explícito de transformações; a condição de Mercer, que exige que um determinado kernel seja simétrico e que uma matriz construída a partir dos valores do kernel seja positiva semidefinida; e, finalmente, uma abordagem de improvisação, onde a viabilidade do kernel é uma preocupação muito prática e duas condições devem ser satisfeitas simultaneamente. Estes são que o kernel é simétrico e a matriz construída a partir dos valores do kernel deve ser semidefinida positiva para qualquer escolha de pontos, conforme exigido pela condição de Mercer.

  • 00:45:00 Nesta seção, o palestrante descreve situações em que os dados não são separáveis linearmente e como aplicar o algoritmo de máquinas de vetores de suporte nesses casos. Pode haver dois cenários de dados não separáveis, um em que a não-separabilidade é leve e o outro em que a não-separabilidade é significativa. Para lidar com dados separáveis não lineares, pode-se cometer erros e aprender com a generalização, em vez de tentar usar espaços complexos excessivamente dimensionais que contenham todos os pontos de dados, mantendo assim o erro baixo. No caso de não separabilidade grave, deve-se optar por uma transformação não linear e usar kernels ou máquinas de vetores de suporte de margem suave. O palestrante então fala sobre a ideia de violação de margem e como quantificá-la para contabilizar erros de classificação.

  • 00:50:00 Nesta seção, o palestrante introduz o conceito de folga e quantifica a violação de margem no SVM. Ele explica que vai introduzir uma folga para cada ponto que mede a violação de margem, e vai penalizar a violação total feita somando essas folgas. Ele escolhe essa medida de erro, que é razoável e mede a violação da margem, ao invés de outras. Ele então apresenta a nova otimização, que está minimizando o termo de erro de violação de margem, juntamente com a maximização da margem. A constante C dá a importância relativa deste termo de violação de margem versus o termo anterior que maximiza a margem. Dependendo do valor de C, o resultado final pode ser um dado linearmente separável ou um compromisso, pois representa a compensação entre margem e folga. Finalmente, ele revisa a formulação lagrangiana com a adição dos novos termos.

  • 00:55:00 Nesta seção, o palestrante explica o novo problema de programação quadrática introduzido adicionando a variável xi para penalizar violações de margem. O Lagrangeano inclui novas restrições em xi que devem ser resolvidas para usar os multiplicadores de Lagrange, beta. O palestrante então mostra como a minimização de w e b permanece inalterada e descobre que a solução para xi resulta em uma quantidade que é sempre zero. Essa descoberta leva ao abandono de beta do lagrangiano, deixando a mesma solução de antes, com a única ramificação sendo que alfa agora não é apenas maior ou igual a zero, mas também menor ou igual a C.

  • 01:00:00 Nesta seção do vídeo, o palestrante aborda o conceito de máquinas vetoriais de suporte de margem suave, que permitem alguns erros de classificação, mantendo uma margem ampla. A solução envolve uma restrição adicional que exige que alfa seja no máximo C, juntamente com a restrição de igualdade já existente. As máquinas de vetores de suporte de margem suave incluem vetores de suporte de margem e não margem, sendo estes últimos os pontos que violam a margem, causando uma folga que é representada pelo valor xi. O valor de C é um parâmetro importante que determina quanta violação pode ocorrer, e isso geralmente é determinado por meio de validação cruzada.

  • 01:05:00 Nesta seção, o palestrante discute pontos práticos sobre o uso de máquinas de vetores de suporte (SVMs) e métodos de kernel. Ele explica que, se os dados não forem linearmente separáveis, a programação quadrática pode não convergir, levando a uma situação em que não há solução viável. No entanto, ele encoraja os usuários a serem preguiçosos e ainda passar alfas da programação quadrática de volta para a solução para avaliar se ela separa ou não os dados. Além disso, ele aborda preocupações sobre a coordenada constante, 1, que é transformada com os dados, explicando que ela efetivamente desempenha o mesmo papel que o termo de viés, b, e que os usuários não precisam se preocupar em ter várias coordenadas com o mesmo papel.

  • 01:10:00 Nesta seção, o professor explica que a linearidade das máquinas de vetores de suporte (SVMs) depende de certas suposições e pode ser melhor que linear em alguns casos. A dimensão dos dados pode afetar a eficácia do SVM, mas o kernel RBF pode lidar com dimensões infinitas se os termos de ordem superior decaírem rapidamente. Um kernel válido precisa ter um produto interno bem definido, que depende da convergência. O professor não toca em SVMs generalizados para casos de regressão, pois exigem mais detalhes técnicos, e o maior sucesso dos SVMs está na classificação. Por fim, pode haver reclamações de pacotes de programação quadrática por não serem positivos definidos, mas as soluções ainda podem ser boas com certa confiabilidade.

  • 01:15:00 Nesta seção, o professor discute a possibilidade de combinar kernels para produzir novos kernels e a exigência da combinação para manter um produto interno em um espaço Z. Ele também menciona que o problema de programação quadrática é o gargalo na resolução de problemas com SVMs e dá uma estimativa do número de pontos que podem ser tratados pela programação quadrática. Além disso, ele sugere métodos heurísticos que podem ser usados quando a programação quadrática falha na resolução de SVMs com muitos pontos de dados.
Lecture 15 - Kernel Methods
Lecture 15 - Kernel Methods
  • 2012.05.24
  • www.youtube.com
Kernel Methods - Extending SVM to infinite-dimensional spaces using the kernel trick, and to non-separable data using soft margins. Lecture 15 of 18 of Calte...