Aprendizado de máquina e redes neurais - página 46

 

CS480/680 Introdução ao aprendizado de máquina - primavera de 2019 - Universidade de Waterloo


CS480/680 Aula 1: Introdução ao Curso

Esta palestra apresenta o conceito de aprendizado de máquina, que é um novo paradigma na ciência da computação, onde os computadores podem ser ensinados a realizar tarefas complexas sem a necessidade de escrever instruções. Este vídeo fornece um breve histórico do aprendizado de máquina e apresenta os três principais componentes de um algoritmo de aprendizado de máquina - dados, tarefa e desempenho.

  • 00:00:00 Esta palestra apresenta o conceito de aprendizado de máquina, que é um novo paradigma na ciência da computação, onde os computadores podem ser ensinados a realizar tarefas complexas sem a necessidade de escrever instruções.

  • 00:05:00 Este vídeo fornece um breve histórico do aprendizado de máquina e apresenta os três principais componentes de um algoritmo de aprendizado de máquina - dados, tarefa e desempenho.

  • 00:10:00 Esta palestra discute os três principais tipos de algoritmos de aprendizado de máquina: aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço. O aprendizado supervisionado é quando o computador recebe um conjunto de dados que inclui tanto a entrada quanto a saída, enquanto o aprendizado não supervisionado é quando o computador recebe dados, mas não recebe nenhuma resposta de antemão. O aprendizado por reforço é um meio-termo, em que o computador recebe feedback indicando como
    bem, está indo, mas não tem uma resposta definida para qual é a resposta certa.

  • 00:15:00 O vídeo discute o problema de reconhecer dígitos manuscritos como parte de um código postal e apresenta uma solução baseada na memorização. A abordagem sugerida é comparar um bitmap de consulta com aqueles que já estão na memória e encontrar uma correspondência. Isso seria uma instância de memorização, mas estaria suscetível a erros devido ao número de bitmaps possíveis.

  • 00:20:00 O aprendizado supervisionado é uma técnica usada para encontrar uma função que se aproxime de uma função conhecida. Isso é feito treinando um modelo de aprendizado de máquina em um conjunto de exemplos e, em seguida, tentando encontrar uma função que se ajuste aos dados o mais próximo possível.

  • 00:25:00 Este vídeo discute as diferentes curvas que podem ser usadas para representar dados e explica o "teorema do almoço grátis". Isso mostra que não existe uma curva perfeita que possa ser usada para representar dados e que diferentes curvas podem ser justificadas com base nas suposições de uma pessoa.

  • 00:30:00 O aprendizado de máquina é difícil, mas poderoso porque nos permite aprender com os dados sem precisar especificar explicitamente as regras que regem esses dados. No aprendizado supervisionado, usamos dados de um conjunto conhecido de exemplos para treinar um modelo que pode ser usado para fazer previsões para novos dados. No aprendizado não supervisionado, usamos dados sem especificar uma regra que os regule. A generalização é um critério chave para julgar a eficácia de um algoritmo e é medida pelo desempenho dele em relação a exemplos não vistos.

  • 00:35:00 Neste vídeo, o autor apresenta o conceito de aprendizado de máquina, que é o processo de treinar um computador para reconhecer padrões nos dados. O aprendizado não supervisionado é uma forma mais difícil de aprendizado de máquina, em que o computador não possui rótulos (a classe correta para cada imagem). Autoencoders são um exemplo de uma técnica de aprendizado de máquina que pode ser usada para compactar dados.

  • 00:40:00 Esta palestra apresenta o conceito de aprendizado de máquina não supervisionado, que se refere a um tipo de aprendizado de máquina em que os dados de treinamento não são rotulados. Ele mostra como uma rede neural pode ser projetada para detectar automaticamente recursos em imagens e discute como isso pode ser usado para reconhecimento facial e outras tarefas.

  • 00:45:00 Esta palestra aborda os fundamentos do aprendizado de máquina, incluindo uma discussão sobre aprendizado supervisionado e não supervisionado, aprendizado por reforço e as diferenças entre essas três formas de aprendizado. Ele também cobre a teoria por trás do aprendizado por reforço e como ele pode ser implementado em computadores.

  • 00:50:00 O vídeo apresenta o conceito de aprendizado por reforço, que é um método de aprendizado que se baseia em feedback positivo e negativo para modificar o comportamento. O programa AlphaGo da DeepMind foi capaz de derrotar um jogador humano de ponta usando esse método, aprendendo a jogar em um nível que os humanos não podiam.

  • 00:55:00 Esta palestra explica como o aprendizado por reforço é usado para alcançar melhores resultados do que um ser humano em alguns casos, como no xadrez. O AlphaGo conseguiu isso por meio de uma combinação de aprendizado supervisionado e por reforço. Enquanto a parte do aprendizado supervisionado era necessária para fornecer uma linha de base, o aprendizado por reforço era necessário para encontrar a melhor solução.

  • 01:00:00 Esta palestra fornece uma breve introdução ao aprendizado de máquina supervisionado e não supervisionado, com foco no jogo Alphago. Ele explica que a mudança foi vista como uma boa jogada por muitos na época em que foi feita e aponta que o aprendizado por reforço pode nos ajudar a aprender a tomar melhores decisões no futuro.
 

CS480/680 Aula 2: K vizinhos mais próximos


CS480/680 Aula 2: K vizinhos mais próximos

Este vídeo aborda os fundamentos do aprendizado supervisionado, incluindo as diferenças entre classificação e regressão. Ele também fornece uma breve introdução ao aprendizado de máquina e explica como funciona o algoritmo do vizinho mais próximo. Por fim, discute como avaliar um algoritmo usando validação cruzada e como o underfitting pode afetar o aprendizado de máquina. Esta palestra discute como usar o algoritmo k-vizinhos mais próximos para regressão e classificação, bem como ponderar os vizinhos com base em sua distância. A validação cruzada é usada para otimizar o hiperparâmetro e todo o conjunto de dados é usado para treinar o modelo.

  • 00:00:00 Esta palestra aborda os fundamentos do aprendizado supervisionado, incluindo indução e dedução, e a principal diferença entre classificação e regressão.

  • 00:05:00 Nesta palestra, o autor discute as diferenças entre classificação e regressão e fornece exemplos de ambas. Ele também fornece uma breve introdução ao aprendizado de máquina, destacando a importância da distinção entre esses dois tipos de aprendizado.

  • 00:10:00 Os dois primeiros exemplos são problemas de classificação e os próximos dois são problemas de regressão.

  • 00:15:00 A palestra discute diferentes tipos de reconhecimento de fala e passa a discutir o reconhecimento de dígitos. Note-se que este é tipicamente um problema de classificação, pois não há uma boa maneira de ordenar os valores discretos que representam as palavras digitais.

  • 00:20:00 Nesta palestra, são discutidos os quatro exemplos de problemas que podem ser resolvidos usando K-vizinhos mais próximos. O primeiro exemplo é um problema de classificação, onde a entrada é uma imagem bitmap e a saída é uma classificação de dígitos. O segundo exemplo é um problema de regressão, onde a entrada é um conjunto de características relacionadas a uma casa e a saída é um valor em dólares. O terceiro exemplo é um clima
    problema de previsão, onde a entrada são dados do sensor e imagens de satélite e a saída é uma previsão de chuva ou não. O quarto exemplo é um problema em que a entrada é uma pergunta sobre os hábitos de sono de uma pessoa e a saída é uma previsão de se a pessoa terá ou não um bom sono.

  • 00:25:00 Nesta palestra, o professor explica como funciona o aprendizado de máquina e como ele difere da otimização pura. Ele passa a discutir como o aprendizado de máquina pode ser usado para resolver problemas como classificação e regressão.

  • 00:30:00 Este vídeo discute o objetivo da palestra, que é encontrar uma hipótese que generalize bem. O exemplo dado é tentar encontrar uma função que não faz parte de um espaço de polinômios de graus finitos.

  • 00:35:00 O palestrante discute as dificuldades de tentar encontrar uma função que preveja dados com precisão quando os dados são ruidosos. Essa dificuldade é agravada pelo fato de que a maioria dos dados é complexa e inexpressiva. Ele sugere que, na prática, muitas vezes é necessário um compromisso entre a expressividade e a complexidade de um espaço hipotético.

  • 00:40:00 O classificador de vizinho mais próximo divide um espaço de dados em regiões de acordo com uma medida de distância e retorna o rótulo do ponto mais próximo em cada região. Isso nos permite entender mais claramente o que está acontecendo com o classificador vizinho mais próximo. É instável, no entanto, e pode ser enganado por ruído nos dados.

  • 00:45:00 Nesta palestra, o palestrante discute o algoritmo do vizinho mais próximo K, que é uma generalização simples do algoritmo do vizinho mais próximo. Ele então mostra como o algoritmo particiona um conjunto de dados em regiões com base na classe mais frequente. Por fim, ele demonstra como o aumento do número de vizinhos mais próximos afeta o particionamento.

  • 00:50:00 Este vídeo discute como avaliar um algoritmo em aprendizado de máquina, usando um procedimento padrão chamado "validação cruzada". O procedimento divide um conjunto de dados em duas partes, treinamento e teste, e treina no conjunto de treinamento e testa no conjunto de teste. A precisão do algoritmo é medida no conjunto de teste e, se a precisão diminuir à medida que o número de vizinhos aumenta, o algoritmo é considerado "tendencioso".

  • 00:55:00 Este vídeo discute o fenômeno do underfitting e seus efeitos no aprendizado de máquina. Ele explica que o underfitting ocorre quando um algoritmo encontra uma hipótese inferior à precisão futura de outra hipótese. Isso pode ser causado pelo classificador não ser expressivo o suficiente, o que significa que o espaço de hipóteses não é expressivo o suficiente.

  • 01:00:00 Neste vídeo, o autor explica como o overfitting e o underfitting podem ser determinados matematicamente. O overfitting ocorre quando um algoritmo encontra os valores de potência Eh mais altos nos dados, enquanto o underfitting ocorre quando a diferença entre a precisão do treinamento e a precisão futura é menor que o valor máximo possível. O teste no conjunto de treinamento pode ser enganoso, pois não reflete com precisão a quantidade de overfitting.

  • 01:05:00 Nesta palestra, o professor discute como escolher uma chave para um algoritmo de aprendizado de máquina, lembrando que é importante obedecer ao princípio do menor privilégio. Ele também observa que é possível violar esse princípio otimizando hiperparâmetros em relação ao conjunto de teste, que não pode mais ser confiável. Para evitar isso, ele sugere dividir os dados em três conjuntos e treinar cada conjunto por vez.

  • 01:10:00 Nesta palestra, o palestrante discute o conceito de "k-vizinhos mais próximos" e como selecionar o melhor K para um determinado problema. Ele também discute o uso de validação cruzada para garantir que os dados usados para treinamento e validação sejam tão representativos quanto possível.

  • 01:15:00 Neste vídeo, o instrutor demonstra o uso da validação cruzada quádrupla para validar e treinar um modelo.

  • 01:20:00 Esta palestra discute as etapas envolvidas na otimização de um hiperparâmetro usando K-vizinho mais próximo (KNN) com validação cruzada. O hiperparâmetro é avaliado usando um subconjunto dos dados e uma hipótese é retornada se o melhor KNN atingir a precisão desejada. Finalmente, todo o conjunto de dados é usado para treinar o hiperparâmetro.

  • 01:25:00 Nesta palestra, o instrutor explica como usar K vizinhos mais próximos para regressão e classificação. Ele também discute como ponderar os vizinhos mais próximos com base em sua distância.
 

CS480/680 Aula 3: Regressão Linear



CS480/680 Aula 3: Regressão Linear

A palestra sobre Regressão Linear começa com uma introdução ao problema de encontrar a melhor reta que se aproxime o máximo possível de um determinado conjunto de pontos. O palestrante explica que as funções lineares podem ser representadas por uma combinação de entradas ponderadas. A regressão linear pode ser resolvida via otimização, com o objetivo de minimizar a perda euclidiana variando o vetor de peso, o que pode ser feito de forma eficiente usando problemas de otimização convexa. O processo de resolução de uma equação de regressão linear envolve encontrar a variável W, ou pesos, que fornecerá o mínimo global para a função objetivo, o que pode ser feito usando técnicas como inversão de matriz ou métodos iterativos. A importância da regularização na prevenção do overfitting também é discutida, com um termo de penalidade adicionado à função objetivo para restringir a magnitude dos pesos e forçá-los a serem os menores possíveis. A palestra termina discutindo a importância de abordar a questão do overfitting na regressão linear.

  • 00:00:00 Nesta seção, o instrutor apresenta a regressão linear, que é uma técnica de aprendizado de máquina padrão para regressão, e explica o problema intuitivamente. O problema é encontrar a melhor reta que chegue o mais próximo possível de um dado conjunto de pontos. Os dados consistem em recursos de entrada, X, e saída de destino, T. O objetivo é encontrar uma hipótese H que mapeie X para T, assumindo que H é linear. As funções lineares sempre podem ser representadas na forma de uma combinação ponderada das entradas onde os pesos são multiplicados pelas entradas e depois somados.

  • 00:05:00 Nesta seção, o palestrante discute o espaço das funções lineares e o objetivo de encontrar as melhores funções lineares para minimizar uma função de perda. A função de perda euclidiana é usada, onde a distância ao quadrado é obtida subtraindo a previsão do alvo. O palestrante explica que Y é a saída do preditor, que é uma função linear, e T1 é o preço pelo qual a casa é vendida, que é a verdade básica. Múltiplas características, como o número de banheiros e quartos, são levadas em consideração na avaliação da casa, resultando em um vetor de tamanho 25-30. O palestrante também discute a notação usada nos slides e menciona que a divisão por dois não é necessariamente necessária em teoria.

  • 00:10:00 Nesta seção da palestra, o professor discute a notação que usará ao longo do curso ao se referir à regressão linear. Ele introduz as variáveis H para a hipótese, X para pontos de dados, Y para o vetor de saídas para todos os pontos de dados e W para vetor de peso. Ele também menciona o uso da barra X para representar um ponto de dados concatenado com um escalar. O professor segue explicando que a regressão linear pode ser resolvida via otimização, com o objetivo de minimizar a perda euclidiana variando os W's. Ele observa que esse problema de otimização é fácil porque é convexo, o que significa que há um mínimo e o ótimo global pode ser encontrado com segurança.

  • 00:15:00 Nesta seção da palestra sobre regressão linear, o palestrante explica como problemas de otimização convexa podem ser resolvidos de forma eficiente usando gradiente descendente, que envolve seguir a curvatura da função até chegar ao mínimo. No entanto, o palestrante também observa que os objetivos não convexos podem ter vários mínimos, dificultando a localização confiável do ótimo global. O objetivo na regressão linear é convexo e, portanto, uma solução mais eficiente é calcular o gradiente, defini-lo como zero e resolver o único ponto que satisfaça essa equação, que é necessária e suficiente para garantir o mínimo.

  • 00:20:00 Nesta seção da palestra, o professor explica o processo de resolução de uma equação de regressão linear para encontrar a variável W, ou pesos, que fornecerá o mínimo global para a função objetivo. O sistema de equações lineares pode ser reescrito na forma de W igual a B isolando W e, em seguida, a matriz A, que representa os dados de entrada, pode ser invertida para resolver W. No entanto, existem outras técnicas, como eliminação gaussiana, gradiente conjugado e métodos iterativos que podem ser mais rápidos e eficientes. O professor também faz um desenho para demonstrar o conceito de encontrar uma linha que minimize a distância euclidiana em relação à saída, ou eixo Y, diminuindo as distâncias verticais entre os pontos de dados e a linha.

  • 00:25:00 Nesta seção, o palestrante explica a intuição por trás da minimização da distância vertical na regressão linear para obter uma única solução. A função objetivo é convexa e a função em forma de bola tem um único mínimo. No entanto, a solução obtida minimizando o objetivo de mínimos quadrados não é estável, o que pode levar ao overfitting. O palestrante ilustra isso com dois exemplos, um dos quais perturba a entrada por epsilon. A palestra também discute o importante problema de não conseguir inverter a matriz A devido à singularidade ou proximidade da singularidade.

  • 00:30:00 Nesta seção da palestra, o instrutor fornece dois exemplos numéricos de regressão linear com a mesma matriz A, mas diferentes valores-alvo, B. O primeiro exemplo tem um valor-alvo de exatamente 1 para o primeiro ponto de dados, enquanto o segundo exemplo tem um valor alvo de 1 mais epsilon para o mesmo ponto de dados. A diferença nos valores alvo resulta em uma mudança significativa na saída, apesar de epsilon ser um valor muito pequeno. O instrutor ilustra o problema com uma representação gráfica, destacando a importância das mudanças nos valores de entrada e por que isso representa um desafio na regressão linear.

  • 00:35:00 Nesta seção, o palestrante explica a regressão linear com a ajuda de dois pontos de dados. X tem duas entradas, mas a segunda dimensão é a que varia e a primeira entrada é ignorada. O palestrante desenha dois pontos de dados, um com X como 0 e o alvo como 1 + Epsilon, e outro com X como Epsilon e o alvo como 1. Uma linha traçada através desses pontos muda sua inclinação de 0 para -1 quando o alvo do primeiro ponto de dados é aumentado de 1 para 1 + Epsilon, mostrando overfitting devido a dados insuficientes e ruído. A solução é instável, mesmo que haja mais dados ou dimensões maiores.

  • 00:40:00 Nesta seção, o conceito de regularização em regressão linear é introduzido. A regularização adiciona um termo de penalidade que restringe a magnitude dos pesos, forçando-os a serem os menores possíveis. Este termo de penalidade é adicionado ao objetivo original de minimizar a distância euclidiana entre a saída e o alvo. O uso da regularização faz sentido tanto do ponto de vista numérico quanto do ponto de vista estatístico, o que será explicado na próxima aula. Dependendo do problema, o hiperparâmetro lambda, que determina a importância do termo de penalidade, precisará ser ajustado por validação cruzada. A regularização na regressão linear muda o sistema de equações lineares para lambda I + A vezes W igual a B. Através da regularização, os autovalores do sistema linear são forçados a serem pelo menos lambda, o que os afasta de 0, evitando instabilidade numérica e erros.

  • 00:45:00 Nesta seção, o palestrante discute a aplicação da regularização na regressão linear para evitar o overfitting. A ideia de regularização envolve adicionar um termo de penalidade à função objetivo e introduzir um parâmetro lambda para controlar a quantidade de peso atribuída ao termo de penalidade. O palestrante explica como funciona essa técnica de regularização do ponto de vista da álgebra linear. Além disso, um exemplo é fornecido para ilustrar como a regularização pode estabilizar as soluções obtidas na regressão linear e evitar o overfitting. O exemplo mostra que minimizando os pesos e adicionando um termo de penalidade, podem ser obtidas soluções mais próximas umas das outras.

  • 00:50:00 Nesta seção, o palestrante discute a importância da regularização para mitigar o problema de overfitting na regressão linear. O overfitting é um problema comum em que um modelo funciona bem nos dados de treinamento, mas mal nos dados de teste. A regularização é uma forma de abordar esse problema, e o curso também abordará outras abordagens. Na próxima aula, o tema será abordado sob uma perspectiva estatística.
 

CS480/680 Aula 4: Aprendizagem Estatística



CS480/680 Aula 4: Aprendizagem Estatística

Nesta palestra sobre aprendizado estatístico, o professor explica vários conceitos, como regra de marginalização, probabilidade condicional, probabilidade conjunta, regra de Bayes e aprendizado bayesiano. Esses conceitos envolvem o uso de distribuições de probabilidade e sua atualização para reduzir a incerteza no aprendizado. A palestra enfatiza a importância de entender esses conceitos para justificar e explicar vários algoritmos. A palestra também destaca as limitações desses conceitos, principalmente ao lidar com grandes espaços de hipóteses. Apesar dessa limitação, o aprendizado bayesiano é considerado ótimo desde que a priori esteja correta, fornecendo informações significativas aos usuários.

Nesta palestra, o instrutor explica o conceito de aprendizado bayesiano aproximado como uma solução para o problema de tratabilidade com o aprendizado bayesiano. A máxima verossimilhança e o máximo a posteriori são aproximações comumente usadas no aprendizado estatístico, mas elas vêm com seu próprio conjunto de fraquezas, como superajuste e previsões menos precisas do que o aprendizado bayesiano. A palestra também aborda o problema de otimização decorrente da maximização da verossimilhança, a quantidade de dados necessária para diferentes problemas e a importância dos próximos slides para a tarefa do curso. O instrutor conclui enfatizando que o algoritmo irá convergir para a melhor hipótese dentro do espaço dado, mesmo que algumas razões não sejam realizáveis.

  • 00:00:00 Nesta seção da palestra, o professor apresenta o tópico de aprendizagem estatística, que envolve o uso de estatística e teoria da probabilidade para capturar e reduzir a incerteza durante a aprendizagem. A ideia é usar distribuições de probabilidade para quantificar a incerteza e atualizá-las à medida que o aprendizado avança. A palestra também fornece uma revisão das distribuições de probabilidade e o conceito de distribuição de probabilidade conjunta sobre múltiplas variáveis aleatórias. Em última análise, o aprendizado estatístico ajuda a explicar e justificar algoritmos, incluindo regularização, de uma perspectiva estatística.

  • 00:05:00 Nesta seção, o palestrante explica como usar a regra de marginalização para extrair uma determinada distribuição de uma distribuição conjunta. Ele fornece um exemplo em que é fornecida uma distribuição conjunta sobre três variáveis de condições climáticas, condições de dor de cabeça e uma probabilidade para cada dia. Ele demonstra o cálculo de probabilidades usando distribuições marginais, mostrando como é possível encontrar uma probabilidade conjunta ou as probabilidades de cenários específicos de clima ou dor de cabeça. Ao usar esse método, ele chega à festa da dor de cabeça ou do sol que chega ao ponto vinte e oito, mostrando assim como extrair uma distribuição específica de uma distribuição conjunta.

  • 00:10:00 Nesta seção, o conceito de probabilidade condicional é discutido, que é denotado pela probabilidade de uma variável dada outra variável. A barra vertical representa a referência para a fração e o numerador representa os mundos em que ambas as variáveis são verdadeiras. Uma representação gráfica é usada para explicar este conceito onde a razão do número de pessoas que possuem ambas as variáveis é levada em consideração. Este conceito é usado para determinar ocorrências raras de eventos, como a probabilidade de ter uma dor de cabeça devido à gripe.

  • 00:15:00 Nesta seção, o palestrante explica como calcular probabilidades condicionais usando métodos de contagem e visualização. A equação geral para probabilidade condicional é uma fração de duas áreas representando o número de mundos com variáveis específicas. O conceito de probabilidades conjuntas e probabilidades marginais é introduzido, e a equação da regra da cadeia é explicada, o que nos permite fatorar uma distribuição conjunta em uma probabilidade condicional e uma probabilidade marginal. O palestrante também alerta sobre o erro comum de supor que a probabilidade de ter gripe devido a uma dor de cabeça é igual à probabilidade de ter dor de cabeça devido a uma gripe e explica por que isso é incorreto.

  • 00:20:00 Nesta seção, o palestrante explora a probabilidade condicional no contexto do diagnóstico de uma doença com base nos sintomas. A ordem dos argumentos em uma probabilidade condicional é importante porque o lado esquerdo é o que está sendo estimado e o lado direito é o contexto. O palestrante ilustra isso com o exemplo de calcular a probabilidade de ter gripe devido a dor de cabeça. A probabilidade conjunta de ter gripe e dor de cabeça é calculada usando a regra da cadeia e, em seguida, a probabilidade condicional é obtida dividindo a probabilidade conjunta pela probabilidade marginal de ter dor de cabeça. Outro exemplo é dado com as três variáveis aleatórias de dor de cabeça, sol e frio. As probabilidades condicionais de dor de cabeça e resfriado dado o sol são computadas, bem como a probabilidade condicional reversa do sol dado a dor de cabeça e o frio.

  • 00:25:00 Nesta seção da palestra, o instrutor explica o cálculo de probabilidades conjuntas para vários eventos em um contexto específico e discute por que as probabilidades podem não somar um em determinadas situações. Os exemplos dados envolvem a probabilidade de ter uma dor de cabeça e um resfriado dado se o dia está ensolarado ou não. O instrutor então enfatiza a importância de considerar todos os resultados no lado esquerdo da barra vertical para determinar se as probabilidades devem somar um, e adverte contra o erro comum de supor que a mudança do contexto dos eventos resultará em probabilidades que somam um.

  • 00:30:00 Nesta seção, o instrutor explica a Regra de Bayes, usada para aprendizado de máquina e inferência. A Regra de Bayes permite calcular a relação entre duas probabilidades condicionais por meio da troca de argumentos. É usado com uma distribuição a priori que captura a incerteza inicial, seguida pela evidência ou conjunto de dados que é usado para revisar a distribuição a priori para obter a distribuição posterior. Essa regra também pode ser usada para medir a probabilidade de obtenção de determinados conjuntos de dados e pode ser uma ferramenta eficaz para aprender revisando distribuições que quantificam a incerteza. A equação para a Regra de Bayes envolve multiplicar o anterior pela verossimilhança e uma constante em vez de dividi-lo pela evidência.

  • 00:35:00 Nesta seção da palestra, o palestrante explica que a propriedade da evidência é uma constante de normalização do ponto de vista da aprendizagem. Ele tem a finalidade de normalizar o numerador para que os números resultantes fiquem entre 0 e 1. O processo de aprendizado bayesiano dá uma distribuição a posteriori, mas na prática o que se deseja é uma hipótese para fazer previsões. Para fazer isso, uma combinação ponderada de hipóteses é usada para fazer previsões ponderando-as de acordo com sua probabilidade posterior correspondente.

  • 00:40:00 Nesta seção, o conceito de usar distribuição posterior para definir pesos para diferentes hipóteses para aprendizado de máquina é discutido. É dado um exemplo de uso do aprendizado bayesiano para estimar a proporção de sabores em um saco de doces, onde a distribuição a priori é uma suposição feita no início e a evidência corresponde aos dados obtidos ao comer os doces. A distribuição posterior é usada para reduzir a incerteza e aprender sobre a proporção de sabores. A crença inicial é subjetiva e pode ser baseada em um palpite.

  • 00:45:00 Nesta seção da palestra, o palestrante discute o aprendizado bayesiano para estimar a proporção de sabores em um saco de doces. A distribuição de verossimilhança é calculada com base na suposição de que os doces são distribuídos de forma idêntica e independente. Usando o teorema de Bayes e multiplicando o a priori pela verossimilhança, obtém-se a distribuição a posteriori, dando as probabilidades a posteriori para cada hipótese. O palestrante mostra as distribuições posteriores graficamente e explica como a probabilidade da hipótese com tudo que é limão domina quando todos os doces comidos até agora são de limão.

  • 00:50:00 Nesta seção do vídeo sobre aprendizado estatístico, o apresentador discute os resultados de um experimento com sacolas de doces em que balas são retiradas aleatoriamente de uma sacola e seus sabores anotados. A hipótese sobre a proporção de sabor da sacola é atualizada com base na observação e a probabilidade é calculada. Observa-se que a probabilidade de uma hipótese de que o saco contém apenas cerejas cai para zero quando um limão é observado, enquanto a probabilidade de uma hipótese de 75% de limão e 25% de cereja aumenta com o limão, mas cai novamente após quatro doces. O apresentador também explica que a probabilidade inicial escolhida para cada hipótese representa a crença anterior e a seleção é subjetiva dependendo da crença do especialista. Por fim, o apresentador destaca a importância de fazer previsões usando a distribuição a posteriori para fornecer informações significativas aos usuários.

  • 00:55:00 Nesta seção da palestra, o palestrante discute o aprendizado bayesiano e suas propriedades. O aprendizado bayesiano é considerado ótimo, desde que o anterior esteja correto e forneça uma maneira baseada em princípios de fazer previsões. Além disso, geralmente é imune ao overfitting, que é um problema importante no aprendizado de máquina. No entanto, a principal desvantagem do aprendizado bayesiano é que geralmente é intratável, principalmente quando se lida com grandes espaços de hipóteses. Isso torna o cálculo da distribuição posterior e da previsão problemáticos.

  • 01:00:00 Nesta seção, o conceito de aprendizado bayesiano aproximado é apresentado como uma solução para o problema de tratabilidade com o aprendizado bayesiano. Máximo a-posteriori é uma aproximação comum que envolve selecionar a hipótese com a maior probabilidade a posteriori e fazer previsões com base nisso. Essa abordagem pode controlar, mas não eliminar o overfitting e é menos precisa do que a previsão bayesiana porque se baseia em uma única hipótese. A máxima verossimilhança é outra aproximação que envolve a seleção da hipótese que melhor se ajusta aos dados e não usa probabilidades anteriores, tornando-a mais simples, mas menos precisa do que o aprendizado bayesiano. Ambas as aproximações resolvem o problema de intratabilidade, mas o substituem por problemas de otimização.

  • 01:05:00 Nesta seção do vídeo, o instrutor explica o conceito de máxima verossimilhança, que é a hipótese que melhor se ajusta aos dados. No entanto, isso pode incluir o ajuste de tudo, incluindo o ruído, o que pode levar ao overfitting. Embora a maximização da probabilidade possa simplificar os cálculos, ela leva a previsões menos precisas do que as previsões Bayesianas e MAP. O problema de otimização que surge da maximização da probabilidade ainda pode ser intratável, mas muitos algoritmos no curso maximizarão a probabilidade de uma perspectiva estatística. Por fim, o instrutor discute a questão de quantos dados são necessários para diferentes problemas, que pertence ao campo da teoria da aprendizagem e é subjetivo ao tamanho do espaço de hipóteses.

  • 01:10:00 Nesta seção, o palestrante conclui a palestra, mas menciona que abordará mais alguns slides na próxima palestra que serão importantes para a tarefa. Ele também menciona que, mesmo que algumas das razões não sejam realizáveis, o algoritmo ainda convergirá para a hipótese que é melhor para fazer uma previsão dentro do espaço dado.
 

CS480/680 Aula 5: Regressão Linear Estatística



CS480/680 Aula 5: Regressão Linear Estatística

Nesta palestra sobre regressão linear estatística, o professor aborda vários tópicos, começando com o conceito de máxima verossimilhança e distribuições gaussianas de verossimilhança para dados corrompidos e ruidosos. Eles explicam o uso de técnicas de máxima verossimilhança para encontrar os pesos que dão a máxima probabilidade para todos os pontos de dados no conjunto de dados. A palestra então se aprofunda na ideia de máximo a posteriori (MAP), gaussiano esférico e a matriz de covariância. O palestrante também discute o uso da informação a priori e a regularização. O erro esperado na regressão linear é então dividido em dois termos: um responsável pelo ruído e outro dependente do vetor de ponderação, W, que pode ainda ser dividido em viés e variância. A palestra termina com uma discussão sobre o uso do aprendizado bayesiano para calcular a distribuição a posteriori. No geral, a palestra abrange uma ampla gama de tópicos relacionados à regressão linear estatística e fornece informações valiosas sobre a otimização de modelos para reduzir o erro de previsão.

A palestra se concentra na regressão bayesiana, que estima uma distribuição posterior que converge para o verdadeiro conjunto de pesos à medida que mais pontos de dados são observados. A distribuição a priori é mostrada como uma distribuição sobre pares de W nada e W1 e é uma distribuição de linhas. Depois de observar um ponto de dados, a distribuição posterior é calculada usando distribuições anteriores e de probabilidade, resultando em uma crença atualizada sobre a posição da linha. Para fazer previsões, uma combinação ponderada das previsões das hipóteses é feita com base na distribuição posterior, levando a uma previsão gaussiana com média e variância dadas por fórmulas específicas. O truque para obter uma previsão de ponto real é obter a média da previsão gaussiana.

  • 00:00:00 Nesta seção, o conceito de máxima verossimilhança e máxima adversária prevê o aprendizado no contexto da regressão linear. Presume-se que os dados venham de medições ruidosas e corrompidas. A saída observada é uma versão corrompida da saída da função subjacente com algum ruído adicionado. Gaussiano é assumido para denotar o ruído. Uma distribuição de probabilidade é expressa para determinar a probabilidade de medir uma determinada saída para cada entrada no conjunto de dados. Esse entendimento ajuda a fazer melhores escolhas para a regularização.

  • 00:05:00 Nesta seção da palestra, o professor discute a distribuição Gaussiana no contexto da regressão linear. Eles explicam que ao assumir que a função subjacente é linear e determinística, a distribuição resultante é Gaussiana com uma média igual a W transposta X e uma variância equivalente ao quadrado Sigma. Eles então desenham um gráfico da distribuição Gaussiana para ilustrar que a probabilidade de medir valores em torno da média é maior, com a largura da curva determinada pelo quadrado Sigma. O professor observa que esta é a função de verossimilhança, e podemos usar técnicas de verossimilhança máxima para encontrar o W que dá a probabilidade máxima para todos os pontos de dados em nosso conjunto de dados.

  • 00:10:00 Nesta seção, o palestrante explica como selecionar o melhor modelo para regressão linear estatística, começando com a otimização da probabilidade de Y's observados dados entrada X's específicos e um nível de ruído com variância Sigma. O palestrante então mostra uma derivação de como simplificar e redimensionar essa expressão para um objetivo convexo tomando o logaritmo natural e removendo fatores irrelevantes. O resultado é o problema original dos mínimos quadrados, demonstrando a abordagem intuitiva para minimizar a distância entre os pontos e a reta na regressão linear.

  • 00:15:00 Nesta seção, o palestrante discute a perspectiva estatística e como encontrar o W que daria a maior probabilidade de observar as medições assumindo um modelo com ruído gaussiano. O problema de otimização é equivalente matematicamente, dando maior confiança nessa abordagem. Remover Sigma de cada termo no somatório é matematicamente equivalente a retirá-lo do somatório e permite supor que o mesmo ruído está presente para cada medição quando W é selecionado. O palestrante também menciona que é importante ter um modelo para o ruído para encontrar a melhor solução e estimar o Sigma com base em experimentos repetidos para mantê-lo fixo. A distribuição posterior é calculada encontrando o W que tem a maior probabilidade no posterior calculando o posterior como o produto do anterior pela probabilidade e uma constante de normalização.

  • 00:20:00 Nesta seção da palestra, o instrutor discute o conceito de máximo a posteriori (MAP) e como ele difere da máxima verossimilhança. O MAP envolve a inclusão da distribuição anterior no cálculo para refinar a distribuição da hipótese, o que reduz a incerteza. O instrutor explica como definir uma distribuição a priori gaussiana para o vetor de pesos (W) e como calcular o PDF do gaussiano multivariado. O instrutor também fornece um exemplo de desenho de linhas de contorno para ilustrar a forma da distribuição gaussiana.

  • 00:25:00 Nesta seção da palestra, o instrutor explica o conceito de gaussiano esférico e como ele se relaciona com a matriz de covariância. As entradas diagonais da matriz de covariância representam a variância de cada peso, enquanto as entradas fora da diagonal representam a covariância entre os pesos. O instrutor então mostra como encontrar o máximo da posterior usando uma derivação, assumindo que o inverso da matriz de covariância é igual a lambda vezes a matriz de identidade. Dessa forma, a expressão equivale ao problema dos mínimos quadrados regularizado, com o termo de penalidade sendo lambda vezes a norma ao quadrado de W. O termo de regularização agora pode ser interpretado de uma nova forma, deixando claro que vem da distribuição anterior e que minimizar a norma de W equivale a tornar os pesos mais próximos da média da distribuição.

  • 00:30:00 Nesta seção, o palestrante discute o uso de informações a priori para escolher uma matriz de covariância em regressão linear estatística. Se houver informações sugerindo que as soluções devem ser próximas de zero, então um prior de zero-mean é usado com uma matriz de covariância definida por uma distribuição em forma de sino com uma certa dispersão. Maximizar a verossimilhança equivale a minimizar o objetivo regularizado com o termo de penalidade ao usar este prior. Nas situações em que o Gaussiano não tem uma forma esférica, mas uma forma mais geral, o raio para cada dimensão é diferente, significando que existem valores diferentes nas entradas diagonais. É razoável assumir que uma matriz de covariância tem uma forma diagonal, com a mesma largura em todas as direções, o que tende a funcionar bem na prática.

  • 00:35:00 Nesta seção, o palestrante discute como as abordagens de minimizar a perda quadrada com um termo organizacional e maximizar a hipótese a posteriori podem levar a resultados de perda potencialmente diferentes. A seção analisa a função de perda e divide a perda esperada em dois termos diferentes. A escolha do lambda afeta a solução e, portanto, a perda esperada. O palestrante então mostra a derivação matemática de como um dado W pode levar a uma perda esperada e como essa perda pode ser decomposta em dois termos diferentes. A análise é baseada em um conjunto de dados de amostra e na distribuição subjacente, e os resultados podem ser usados para entender a perda esperada de um determinado W e o impacto da variação de lambda.

  • 00:40:00 Nesta seção da palestra, o palestrante explica a derivação do erro esperado em um modelo de regressão linear. O erro esperado é dividido em dois termos: um que leva em conta o ruído e outro que depende do vetor de peso, W. Esse segundo termo pode ser expandido para mostrar que pode ser decomposto no quadrado do viés e na variância . O viés mede a diferença média entre a saída do modelo e a verdadeira função subjacente que está sendo aproximada, enquanto a variância mede a variabilidade das saídas do modelo em torno de sua média. Ao entender as contribuições de viés e variância para o erro esperado, os cientistas de dados podem otimizar melhor seus modelos para reduzir o erro de previsão.

  • 00:45:00 Nesta seção da palestra, o professor explica a decomposição da perda esperada em três termos: ruído, variância e viés ao quadrado. Isso leva a um gráfico em que o eixo x é lambda, o peso do termo de regularização na atribuição. À medida que lambda aumenta, o erro diminui inicialmente e depois aumenta novamente. A perda esperada é composta pelo ruído mais a variância mais o viés ao quadrado. O gráfico mostra que a curva de variância mais bias ao quadrado é a soma das curvas individuais de variância e bias ao quadrado. A validação cruzada é usada para encontrar o melhor valor de lambda, que pode controlar o erro alcançado, enquanto a diferença entre a perda esperada e a perda real é o ruído que está presente em todos os casos.

  • 00:50:00 Nesta seção, o palestrante dá um exemplo de regressão não linear para ilustrar como diferentes curvas obtidas a partir da aplicação do aprendizado a posteriori máximo com diferentes conjuntos de dados se relacionam com viés e variância. O palestrante explica que, à medida que o lambda diminui, o viés diminui e a variância aumenta. O objetivo é encontrar um lambda que forneça a melhor compensação entre viés e variância, conforme mostrado na curva. O palestrante menciona ainda que o erro é medido em termos de distância ao quadrado e que lambda é um parâmetro utilizado na regularização.

  • 00:55:00 Nesta seção, o palestrante discute a ideia de minimizar as distâncias ao quadrado e adicionar um termo de penalidade, onde lambda é o peso do termo de penalidade. A variação de lambda influencia o viés e a variância, levando a diferentes valores W ideais, e a perda esperada pode ser considerada como uma função de lambda. O aprendizado bayesiano envolve o cálculo da distribuição posterior começando com um anterior e reduzindo a incerteza por meio do aprendizado de máquina. A distribuição posterior é calculada multiplicando um Gaussiano a priori e uma probabilidade Gaussiana, resultando em um Gaussiano posterior.

  • 01:00:00 Nesta seção, o conceito de regressão bayesiana é explicado com a ajuda de uma distribuição a priori gaussiana no espaço de w's, que pode representar uma linha. A distribuição a priori é mostrada como uma distribuição sobre pares de w nada e w1 e é uma distribuição de linhas. Então, depois de observar um único ponto de dados, uma distribuição posterior é calculada multiplicando as distribuições anteriores e de probabilidade. A distribuição posterior resultante é alongada ao longo do cume e um tanto arredondada e, portanto, torna-se a crença atualizada sobre a posição da linha.

  • 01:05:00 Nesta seção, o palestrante explica como o aprendizado bayesiano estima uma distribuição posterior que converge para o verdadeiro conjunto de pesos à medida que mais pontos de dados são observados. As linhas vermelhas representam amostras da distribuição posterior correspondente, que é uma distribuição em relação aos pesos que definem uma linha correspondente no espaço de dados. No entanto, ainda há uma questão de como fazer previsões com base na distribuição a posteriori final.

  • 01:10:00 Nesta seção, o palestrante explica como fazer previsões usando o aprendizado bayesiano, que envolve uma combinação ponderada das previsões feitas por cada hipótese. A previsão é feita para uma nova entrada e os pesos são determinados pela distribuição posterior. O falante usa um posterior gaussiano e probabilidade para chegar a uma previsão gaussiana, com média e variância dadas por fórmulas específicas. Finalmente, um truque comum para obter uma previsão de ponto real é obter a média da previsão gaussiana.
 

CS480/680 Aula 6: Ferramentas para pesquisas (Paulo Pacheco)



CS480/680 Aula 6: Ferramentas para pesquisas (Paulo Pacheco)

Neste vídeo, Paulo Pacheco apresenta duas ferramentas acadêmicas para pesquisas: Google Scholar e RefWorks. Ele explica como pesquisar trabalhos acadêmicos e classificá-los por citações usando o Google Scholar e sugere filtrar artigos mais antigos para os mais recentes. Pacheco enfatiza a importância de exportar e gerenciar citações e apresenta o RefWorks como uma ferramenta para essa tarefa. Ele também fornece dicas para acessar publicações acadêmicas, incluindo o uso de pesquisas de palavras-chave criativas e a possível necessidade de acesso à rede da universidade ou VPN.

  • 00:00:00 Nesta secção, Paulo Pacheco apresenta duas ferramentas para a realização de inquéritos: o Google Scholar e o RefWorks da biblioteca. Ele explica como o Google Scholar pode ser usado para pesquisar trabalhos acadêmicos e ordená-los aproximadamente por citações. Ele também sugere como filtrar artigos mais antigos e focar nos mais recentes. Pacheco destaca a importância de exportar e gerenciar citações para trabalhos acadêmicos e cita o RefWorks como uma ferramenta que pode auxiliar nesse processo.

  • 00:05:00 Nesta seção, o palestrante discute várias ferramentas e dicas para acessar publicações acadêmicas, especificamente por meio do Google Scholar e da biblioteca da Universidade de Waterloo. Ele explica como o Google Scholar pode ser usado para encontrar artigos relevantes e classificá-los por ano ou número de citações, e também observa que o acesso a textos completos pode exigir acesso à rede da universidade ou o uso de uma VPN. Além disso, ele sugere o uso de uma pesquisa de palavra-chave criativa como "conjuntos de dados incríveis para PNL" ou "links incríveis para visão computacional" para encontrar inspiração e recursos de alta qualidade.
 

CS480/680 Aula 6: Conjuntos de dados Kaggle e competições



CS480/680 Aula 6: Conjuntos de dados Kaggle e competições

A palestra discute Kaggle, uma comunidade para profissionais de ciência de dados competirem em competições patrocinadas usando conjuntos de dados fornecidos para um prêmio em dinheiro, oferecendo kernels para treinamento de modelo de aprendizado de máquina e extração de recursos de dados e uma vasta seleção de quase 17.000 conjuntos de dados para uso no design de algoritmos. O palestrante também observa que os repositórios GitHub da empresa podem fornecer conjuntos de dados, códigos e artigos publicados valiosos para competições.

  • 00:00:00 Nesta seção, o palestrante fala sobre Kaggle, uma comunidade de ciência de dados onde os profissionais de ciência de dados podem competir em competições patrocinadas por empresas privadas, onde fornecem um conjunto de dados e um prêmio em dinheiro. Os participantes podem baixar os dados, treinar algoritmos de aprendizado de máquina e enviar previsões para a competição para vencer se suas previsões forem as melhores para o conjunto de dados. O Kaggle também fornece kernels, trechos de código enviados por diferentes usuários que são úteis para extração de recursos ou treinamento de um tipo específico de modelo em alguns dados. Além de competições e kernels, o Kaggle fornece quase 17.000 conjuntos de dados que cobrem qualquer disciplina que você possa imaginar. Os usuários podem pesquisar um pouco para encontrar um conjunto de dados que atenda às suposições de que precisam para projetar um algoritmo.

  • 00:05:00 Nesta seção, o palestrante discute algumas fontes de onde se pode encontrar conjuntos de dados para várias competições. Ele menciona o Kaggle como uma grande fonte de conjuntos de dados. Ele também sugere procurar nos repositórios GitHub da empresa, onde códigos pagos e artigos publicados estão disponíveis, juntamente com dados que podem ser usados para executar o código. Isso pode ser um recurso valioso para obter conjuntos de dados de alta qualidade.
 

CS480/680 Aula 6: Normalizando fluxos (Priyank Jaini)



CS480/680 Aula 6: Normalizando fluxos (Priyank Jaini)

O vídeo fornece uma introdução à normalização de fluxos em modelos generativos profundos, uma técnica que aprende uma função para transformar uma distribuição em outra, com o objetivo de transformar uma distribuição conhecida em uma distribuição desconhecida de interesse. O vídeo também discute possíveis projetos de pesquisa relacionados à normalização de fluxos, incluindo a realização de um levantamento de diferentes trabalhos e avanços relacionados à normalização de fluxos e análise da transformação de um único gaussiano em uma mistura de gaussianos. O palestrante incentiva a exploração das diversas aplicações de normalização de fluxos.

  • 00:00:00 Nesta seção, o palestrante fornece uma introdução à normalização de fluxos em modelos generativos profundos. Aprender uma distribuição é um aspecto fundamental do aprendizado de máquina, e o palestrante explica que a normalização de fluxos é uma técnica que aprende uma função para transformar uma distribuição em outra. O objetivo é transformar uma distribuição conhecida, como uma distribuição gaussiana, em uma distribuição desconhecida de interesse. Na prática, uma rede neural é utilizada para essa transformação e o foco da pesquisa tem sido projetar redes neurais para obter a distribuição desejada.

  • 00:05:00 Nesta seção, o palestrante discute possíveis projetos de pesquisa relacionados à normalização de fluxos, que é um tópico importante em aprendizado de máquina que ganhou muita atenção nos últimos anos. Uma ideia do projeto é realizar um levantamento sobre os diferentes trabalhos e avanços relacionados à normalização de fluxos, que poderiam ser publicados. Outra ideia é analisar a transformação de uma única gaussiana em uma mistura de gaussianas usando certas funções e como isso pode ser estendido para outras distribuições, como distribuições exponencial e T de estudante. O palestrante também destaca questões teoricamente em aberto na captura do comportamento de cauda pesada nos mercados de capitais financeiros. No geral, o palestrante incentiva a exploração das diversas aplicações de fluxos de normalização e convida os alunos interessados a contatá-los para obter mais conhecimento sobre o t
 

CS480/680 Aula 6: Tradução de palavras não supervisionada (Kira Selby)



CS480/680 Aula 6: Tradução de palavras não supervisionada (Kira Selby)

O vídeo discute a tradução de palavras não supervisionada, que envolve o treinamento de um modelo de aprendizado de máquina para traduzir de e para um idioma sem nenhuma informação multilíngue ou correspondência de dicionário. O modelo Muse é apresentado como uma abordagem que pode atingir precisão de ponta em centenas de idiomas sem nenhuma informação multilíngue e se aproxima de modelos supervisionados em desempenho. O processo de tradução não supervisionada de palavras emprega uma matriz que traduz os espaços de incorporação de palavras de diferentes idiomas, usando GAN ou redes adversárias generativas. Ao treinar esses dois modelos um contra o outro, cria-se uma forma de mapear duas distribuições para um espaço, proporcionando melhores resultados de tradução. Os modelos podem atingir 82,3% de precisão em traduções palavra a palavra.

  • 00:00:00 Nesta seção, o palestrante discute o tópico da tradução de palavras não supervisionada, que envolve o treinamento de um modelo de aprendizado de máquina para traduzir de e para um idioma sem nenhuma informação multilíngue ou correspondência de dicionário. O palestrante explica o conceito de word embeddings, onde as palavras são transformadas em vetores que podem se tornar parte de um modelo. O palestrante apresenta o modelo Muse, que usa uma hipótese simples de que uma transformação linear pode conectar espaços vetoriais de diferentes linguagens. O Muse pode alcançar precisão de ponta em centenas de idiomas sem nenhuma informação multilíngue e chega perto de modelos supervisionados em desempenho.

  • 00:05:00 Nesta seção, Kira Selby explica o processo de tradução de palavras sem supervisão usando uma matriz que traduz os espaços de incorporação de palavras de diferentes idiomas. A matriz pode comparar um monte de vetores de um espaço linguístico transformado em outro espaço linguístico. O objetivo é alcançar espaços linguísticos coincidentes para realizar traduções. Este processo emprega GAN ou redes adversárias generativas nas quais o gerador é a matriz u que recebe um vetor de espaço de origem e fornece um vetor de espaço de destino. Enquanto isso, o discriminador aprende a dizer se um conjunto de vetores é de dados franceses reais ou dados franceses aproximados gerados pelo modelo. Ao treinar esses dois modelos um contra o outro, cria-se uma forma de mapear duas distribuições para um espaço, proporcionando melhores resultados de tradução. Os modelos podem atingir 82,3% de precisão nas traduções palavra a palavra, embora ainda não converjam em vários idiomas, como inglês para farsi, hindi, japonês e vietnamita.
 

CS480/680 Aula 6: Verificação de fatos e aprendizado por reforço (Vik Goel)



CS480/680 Aula 6: Verificação de fatos e aprendizado por reforço (Vik Goel)

O cientista da computação Vik Goel discute a aplicação do aprendizado por reforço em notícias on-line de verificação de fatos e propõe o uso de um sistema de recomendação para inserir evidências de suporte em tempo real. Ele sugere usar um grande corpus de trabalhos acadêmicos como fonte de dados para treinar um classificador para prever onde uma citação é necessária. Além disso, Goel explica como os pesquisadores começaram a codificar antecedentes humanos em modelos de aprendizado por reforço para acelerar o processo e reconhecer diferentes objetos em videogames. Isso apresenta uma área de pesquisa promissora em que prévias adicionais podem melhorar o processo de aprendizado.

  • 00:00:00 Nesta seção da palestra, Vik Goel discute a ideia de usar o aprendizado por reforço para checar notícias online. Ele explica que o Google compilou um conjunto de dados de sites de verificação de fatos que podem ser usados para treinar modelos de classificação para determinar a veracidade de artigos de notícias. No entanto, como a maioria dos artigos de notícias carece de citações no texto, Goel sugere o desenvolvimento de um sistema de recomendação para inserir evidências de apoio em tempo real. Ele propõe usar um grande corpus de trabalhos acadêmicos como fonte de dados e treinar um classificador para prever onde em cada artigo é necessária uma citação. A aplicação de um sistema de recomendação pode então sugerir quais fontes devem ser citadas, ajudando a prevenir a disseminação de desinformação online.

  • 00:05:00 Nesta seção, o cientista da computação Vik Goel explica o conceito de aprendizado por reforço, em que um agente tenta atingir um objetivo maximizando as recompensas em um ambiente. Os modelos atuais exigem milhões de interações com o ambiente, tornando desafiador aprender a jogar videogames. Para acelerar o processo, os pesquisadores começaram a explorar a codificação de antecedentes humanos em modelos, permitindo que os agentes entendam e reconheçam diferentes objetos no jogo. Esta abordagem apresenta uma ampla área de pesquisa aberta onde os cientistas podem adicionar mais priores para melhorar drasticamente o processo de aprendizagem.