Aprendizado de máquina e redes neurais - página 19

 

Aula 13. Aprendizagem: Algoritmos Genéticos



13. Aprendizagem: Algoritmos Genéticos

Este vídeo discute o conceito de algoritmos genéticos, que imitam a evolução e nos permitem resolver problemas complexos. O processo de herança genética através dos cromossomos é dividido e simulado usando cromossomos binários com opções para mutações e cruzamentos. As probabilidades de sobrevivência e classificação dos candidatos são explicadas com um exemplo, mostrando a eficácia quando executado corretamente. O desafio de superar máximos locais e a introdução da técnica de recozimento simulado são discutidos. São apresentadas aplicações práticas de algoritmos genéticos, incluindo um projeto de construção de um sistema especialista baseado em regras e a evolução de criaturas compostas de objetos semelhantes a blocos. O palestrante reflete sobre as origens e o sucesso dos algoritmos genéticos, observando que a diversidade é um componente chave para o seu sucesso.

  • 00:00:00 Nesta seção, o professor Patrick Winston, do MIT, fala sobre como imitar a evolução por meio de algoritmos genéticos. Ele começa falando sobre os fundamentos da mitose e da reprodução. Ele então introduz o conceito de algoritmos genéticos, que são tentativas ingênuas de imitar a evolução. Esses algoritmos nos permitem resolver questões complexas imitando o padrão de evolução. Ele diz que os alunos não verão isso no próximo teste, mas terão perguntas relacionadas a isso no exame final para testar se estiveram presentes na aula e acordados.

  • 00:05:00 Nesta seção do vídeo, o palestrante explica os fundamentos dos algoritmos genéticos ao detalhar o processo de herança genética por meio dos cromossomos. Ele compara o processo de herança genética com algoritmos genéticos e explica como simplifica e simula cromossomos com o objetivo de construir um sistema que imite o processo de herança genética usando cromossomos binários. Ele passa a explicar como as escolhas podem ser feitas nesse processo, como quantas mutações ou cruzamentos são permitidos por cromossomo, levando a uma população de cromossomos modificados. O próximo passo é ir da transição do genótipo para o fenótipo.

  • 00:10:00 Nesta seção, aprendemos como o genótipo determina o fenótipo e a variação de aptidão que vem com cada indivíduo. Uma vez que as aptidões são pontuadas, os cientistas da computação podem usar números para calcular as probabilidades de sobrevivência na próxima geração. Para garantir que as probabilidades somam um, precisamos de uma medida de probabilidade produzida a partir dos valores adaptativos. Ao construir um algoritmo genético que busca valores ótimos em um espaço com uma função de x e y, a aptidão é determinada pelo seno de alguma constante vezes x, quantidade ao quadrado, vezes o seno de alguma constante y, quantidade ao quadrado, e para o mais x mais y dividido por alguma constante.

  • 00:15:00 Nesta seção, Patrick Winston explica como os algoritmos genéticos funcionam e como eles evoluem. Ele descreve o processo de mutação e cruzamento e como eles podem ser usados para evoluir populações para cima no gráfico de aptidão. Usando um exemplo, ele demonstra como os algoritmos genéticos podem ficar presos em máximos locais devido ao seu mecanismo fundamental de subida de encosta. Os alunos sugerem o uso de crossover, mas mesmo isso não parece funcionar. Apesar disso, Winston observa a importância de manter a mente aberta para ideias que inicialmente podem não parecer eficazes.

  • 00:20:00 Nesta seção, o palestrante explora o conceito de traduzir aptidão em probabilidade de sobrevivência, destacando que o uso de uma característica de aptidão real pode não ser necessariamente eficaz. Portanto, ele propõe que classificar os candidatos com base em seu nível de condicionamento físico pode ser uma abordagem melhor. Ele explica esse mecanismo em detalhes, afirmando que a probabilidade de o indivíduo de classificação mais alta entrar na próxima geração é determinada por uma constante. Além disso, ele executa 100 gerações para testar esse método e explica os resultados, mostrando a eficácia da estratégia quando executada corretamente.

  • 00:25:00 Nesta seção, o vídeo discute como os algoritmos genéticos às vezes ficam presos em máximos locais e precisam de uma maneira de aumentar a diversidade para encontrar uma solução melhor. Isso é semelhante a como algumas espécies ficam presas sem evoluir por milhões de anos. A técnica de recozimento simulado é então introduzida para reduzir gradualmente o tamanho do passo e permitir que uma solução seja encontrada. No entanto, o vídeo demonstra que às vezes o recozimento simulado não é suficiente para escapar de um máximo local, e um novo mecanismo é necessário para aumentar a diversidade dentro da população. O vídeo sugere medir a diversidade da população e selecionar indivíduos com base não apenas em sua aptidão, mas também em sua singularidade em relação a outros indivíduos já selecionados.

  • 00:30:00 Nesta seção, o palestrante usa uma combinação de classificação de aptidão e classificação de diversidade para demonstrar como os algoritmos genéticos funcionam usando um tamanho de passo pequeno e executando-o por 100 gerações. Ao rastejar até o canto superior direito, a peça de diversidade mantém as coisas espalhadas enquanto encontra alta aptidão. Quando a diversidade é desligada, leva 600 milhões de anos. No entanto, funciona bem ao lidar com o problema do fosso, pois possui o mecanismo de cruzamento para combinar o melhor dos x e dos y. O palestrante explica como a mutação basicamente faz a escalada e que existem opções de como lidar com isso, incluindo quanto cruzamento fazer. Mas o palestrante observa que os algoritmos genéticos capturam apenas uma ideia muito ingênua de evolução que ainda há muita mágica na transição do genótipo para o fenótipo que ninguém entende completamente, o que deixa muita intervenção para os projetistas.

  • 00:35:00 Nesta seção, o palestrante discute algumas aplicações práticas de algoritmos genéticos. Um exemplo está no planejamento, onde dois conjuntos de etapas podem ser combinados para produzir um novo plano. Outro exemplo é o projeto de um aluno para construir um sistema especialista baseado em regras que prevê os vencedores de corridas de cavalos, usando mutações e cruzamentos para evoluir as regras. O palestrante também demonstra a evolução de criaturas formadas por objetos semelhantes a blocos, onde diferentes bits do cromossomo são interpretados como número, tamanho, estrutura e controle dos objetos. A diversidade das criaturas é medida calculando a distância métrica de todos os candidatos para a próxima geração.

  • 00:40:00 Nesta seção, Patrick Winston explica como os algoritmos genéticos funcionam combinando a probabilidade de sobrevivência e a probabilidade de ser classificado com base em quão diferentes eles são dos indivíduos da próxima geração. Ele então demonstra um exemplo desses algoritmos com um vídeo de criaturas nadadoras evoluídas de acordo com a velocidade com que podem ir e como se movem em terra. O vídeo mostra criaturas evoluindo juntas e competindo por comida. Algumas criaturas conseguiram desenvolver métodos exóticos, mas outras se confundiram e esqueceram da comida. O vídeo é um exemplo do que pode ser feito com computadores superpoderosos como os da empresa que criou o vídeo.

  • 00:45:00 Nesta seção, o palestrante reflete sobre as origens dos algoritmos genéticos e seu sucesso na geração de soluções para vários problemas. Ele observa que, embora os algoritmos sejam impressionantes, o verdadeiro crédito pode estar na riqueza do espaço da solução e na engenhosidade do programador. A diversidade também é destacada como um componente chave em cálculos bem-sucedidos de algoritmos genéticos.
 

Aula 14. Aprendizagem: Espaços Esparsos, Fonologia



14. Aprendizagem: Espaços Esparsos, Fonologia

Nesta seção do vídeo, o professor Winston apresenta o conceito de espaços esparsos e fonologia como mecanismos relacionados à pesquisa sobre como os humanos aprendem. Ele discute a interação entre o que vemos e o que ouvimos quando se trata de aprendizagem de línguas, usando exemplos para ilustrar como pistas visuais podem influenciar o que percebemos na linguagem. O orador explica os elementos e as conexões de uma máquina projetada para reconhecer e produzir sons da fala, incluindo registros, um conjunto de palavras, restrições e um buffer para fonemas. Ele também explica a técnica de generalização de padrões em fonologia usando exemplos positivos e negativos para aprender, usando um exemplo de sala de aula observando os traços distintivos associados às palavras "gatos" e "cachorros". Finalmente, ele discute a importância de criar restrições que correspondam à função do mecanismo e incorporar uma representação visual para melhor entender e resolver um problema.

  • 00:00:00 Nesta seção do vídeo, o professor Winston apresenta dois mecanismos ou ideias relacionadas ao aprendizado, Espaços Esparsos e Fonologia. Antes de discuti-los, ele revisa brevemente alguns métodos básicos, incluindo vizinhos mais próximos e árvores de identificação, e algumas imitações biológicas, como redes neurais e algoritmos genéticos. Ele explica que, embora os últimos nem sempre sejam eficazes, ainda vale a pena aprender sobre eles. O professor Winston então se concentra nos mecanismos relacionados à pesquisa sobre como os humanos aprendem e, em particular, como somos capazes de identificar e criar palavras plurais em idiomas que aprendemos mais tarde na vida. Ele usa exemplos para ilustrar que indivíduos como Krishna podem pluralizar palavras em inglês sem nem mesmo perceber que estão fazendo isso corretamente, e então ele fala sobre como tais fenômenos podem ser abordados do ponto de vista da engenharia.

  • 00:05:00 Nesta seção, aprendemos sobre as regras fonológicas e como elas são adquiridas por uma máquina. A fonologia lida com sons silábicos e subsilábicos, e as regras fonológicas determinam qual fonema ou combinação de características binárias uma pessoa está dizendo. Existem cerca de 14 características distintas que podem determinar qual telefone está sendo dito, produzindo cerca de 16.000 combinações possíveis em um idioma. No entanto, nenhum idioma tem mais de 100 telefones e algumas opções são excluídas por motivos físicos, o que é estranho porque a maioria delas não é. É fascinante ver quantas dessas características distintivas são alucinadas ou injetadas no ciclo de feedback de outras modalidades, e o Efeito McGurk mostra como muitas vezes há uma desconexão entre a fala e o vídeo.

  • 00:10:00 Nesta seção, o palestrante explica a interação entre o que vemos e o que ouvimos quando se trata de aprendizado de idiomas. Ele discute como as dicas visuais podem influenciar o que percebemos, usando exemplos de sons de vacas em alemão e inglês. Ele então fornece informações sobre o que os fonólogos sabem sobre características distintivas que formam sequências fonêmicas para palavras como "maçãs". Abaixo das colunas, contém os traços como sonoro, silábico ou estridente, e atravessando temos o tempo. O locutor também fala sobre a máquina que interpreta sons e coisas que as pessoas veem para produzir sons de linguagem, o que decidiria que existem duas maçãs lá fora, armazenadas em registros que guardam valores para conceitos como substantivo, verbo e plural.

  • 00:15:00 Nesta seção, o palestrante explica os elementos e conexões de uma máquina projetada para reconhecer e produzir sons da fala. A máquina é composta por registradores, um conjunto de palavras, restrições e um buffer para fonemas. A restrição plural é o foco principal, tendo a capacidade de atuar a si mesma ao observar coisas plurais. As informações podem fluir em várias direções através das portas que conectam os elementos. O orador então demonstra como a máquina reage quando apresentada ao conceito de "duas maçãs", descrevendo o fluxo de informações do sistema de visão para o léxico de palavras e registro de plural.

  • 00:20:00 Nesta seção do vídeo, o palestrante explica como uma máquina pode usar regras fonológicas para expressar a ideia de que há maçãs à vista. A máquina usa conexões reversíveis e propagadores expressos em restrições, o que permite que a informação flua em qualquer direção. No entanto, a grande questão é como aprender essas regras. Para isso, o falante fornece um exemplo simples de sala de aula observando os traços distintivos associados às palavras "gatos" e "cachorros", como silábico, sonoro, contínuo e estridente, para fornecer exemplos positivos e negativos para o aprendizado dessas regras.

  • 00:25:00 Nesta seção, o vídeo discute a formação de palavras plurais na língua inglesa, examinando por que algumas palavras têm som de "s" e outras de "z". O vídeo explica que isso se deve à escassez do espaço fonético, com apenas 40 fonemas possíveis entre as 14.000 escolhas possíveis. Além disso, o vídeo explica como o problema foi abordado computacionalmente e, por fim, destilado em um algoritmo que envolveu a coleta de exemplos positivos e negativos para aprender.

  • 00:30:00 Nesta seção, o palestrante explica um método para generalizar padrões em fonologia usando um exemplo positivo chamado semente, e gradualmente transformando alguns elementos em símbolos irrelevantes até que um exemplo negativo seja coberto. A técnica é escolher lugares na matriz de fonemas que não importam e que são menos prováveis de influenciar o resultado da pluralização. Uma técnica de busca é usada para decidir qual dessas generalizações fazer, sendo os fonemas adjacentes os mais influentes. Um exemplo fonológico é fornecido a partir de uma matriz com 14 traços distintivos, onde o traço determinante que separa exemplos positivos e negativos é o traço não sonoro e não estridente do último fone da palavra que está sendo pluralizada, o que resulta em um "ss" som.

  • 00:35:00 Nesta seção, o palestrante discute outras experiências com o sistema e explica que, usando uma busca de feixe, ele controla um espaço esparso de alta dimensão. Essa técnica é usada para separar conjuntos de exemplos positivos de exemplos negativos e ensinar o sistema a lidar com diferentes cenários de pluralização em fonética. Essa abordagem é explicada pelo uso de vários exemplos, como espaços unidimensionais, bidimensionais e tridimensionais, e como um hiperplano em tais exemplos pode ser usado para separar conjuntos variados de dados.

  • 00:40:00 Nesta seção, Sussman e Yip sugerem que a linguagem humana usa um esparso espaço de fonemas. Isso ocorre porque aumenta a capacidade de aprendizado e, quando a linguagem é distribuída uniformemente ao acaso, garante que os fonemas sejam facilmente separados. No entanto, as vogais são difíceis de separar porque têm apenas uma característica distintiva em comparação com os sons constantes. Este exemplo mostra como fazer a IA de maneira congruente com o catecismo de Marr, começando com o problema, trazendo recursos exclusivos para o problema, criando uma abordagem, escrevendo um algoritmo e, finalmente, conduzindo um experimento.

  • 00:45:00 Nesta seção do vídeo, o palestrante explica como forçar um mecanismo como redes neurais a resolver um problema específico que não corresponde à sua função não funcionará bem. A chave para encontrar uma boa representação é criar restrições expostas pela representação, o que permite um melhor processamento e um caminho mais claro para uma solução. Além disso, é fundamental ter uma representação que incorpore um critério de localidade, ou seja, que a descrição da resposta seja visível por meio de um canudinho de refrigerante, facilitando a compreensão do problema. Em última análise, ter uma boa representação torna o engenheiro e o cientista mais inteligentes, evitando estudar mecanismos de maneira ingênua, que nunca levará a soluções satisfatórias.
 

Aula 15. Aprendizado: quase acidentes, condições de felicidade



15. Aprendizado: quase acidentes, condições de felicidade

Neste vídeo, o professor Patrick Winston discute o conceito de aprender com quase erros e condições de felicidade. Ele usa diferentes exemplos, incluindo a construção de um arco e a identificação das restrições específicas necessárias para que seja considerado um arco. Ele também explica como um programa de computador pode identificar os principais recursos de um trem usando o aprendizado heurístico. O palestrante enfatiza a importância da auto-explicação e da narrativa, especialmente como incorporar ambos em apresentações pode fazer uma ideia se destacar e se tornar famosa. Em última análise, ele acredita que as ideias de embalagem não são apenas sobre IA, mas também sobre fazer boa ciência, tornar-se mais inteligente e tornar-se mais famoso.

  • 00:00:00 Nesta seção, o professor Patrick Winston explica uma nova maneira de aprender com um único exemplo de uma só vez. O exemplo de um arco em sala de aula é usado para demonstrar como é possível aprender algo definido a partir de cada exemplo usando um modelo e o que ele chama de "near miss". Esse processo envolve a abstração de todos os detalhes que não importam, como altura e material, para suprimir informações sobre manchas na superfície e tornar a estrutura explícita. Essa abordagem, em última análise, leva a um aprendizado mais eficiente e tem implicações para o aprendizado humano e para se tornar mais inteligente.

  • 00:05:00 Nesta seção, o conceito de aprender com quase erros e condições de felicidade é discutido. O orador usa o exemplo da construção de um arco para ilustrar o ponto. À medida que passam por diferentes exemplos de arcos e quase acidentes, eles começam a identificar as restrições específicas necessárias para que algo seja realmente considerado um arco. Da presença de relações de apoio à proibição de relações de toque, o orador delineia os elementos-chave da construção de arcos. Além disso, a cor do topo do arco é identificada como um imperativo. Por meio desse processo de identificação do que é necessário e do que não é, o palestrante destaca como as restrições podem ser aprendidas em questão de etapas, em vez de inúmeras tentativas.

  • 00:10:00 Nesta seção, o palestrante explica como fazer um novo modelo considerando a natureza do mundo em que se está trabalhando. Por exemplo, em um mundo de bandeiras onde apenas três cores estão disponíveis, se todas as cores foram visto, o modelo em evolução é ajustado de acordo. O palestrante apresenta exemplos de bloqueios infantis e explica como a hierarquia das partes pode ser representada para fazer uma generalização conservadora. O palestrante então compara esse tipo de aprendizado com redes neurais e apresenta uma tarefa de exemplo para os humanos realizarem, que envolve dar uma descrição dos trens superiores que os distinguem e os separam dos trens inferiores.

  • 00:15:00 Nesta seção, o palestrante explica como um programa de computador pode identificar as principais características de um trem com capota fechada por meio de um processo de aprendizado heurístico. O programa recebe conjuntos de exemplos positivos e negativos e um exemplo "semente" é escolhido para começar a construir uma descrição que cobre tantos exemplos positivos quanto possível, excluindo os negativos. As heurísticas, ou regras, aplicadas à semente podem ser combinadas de diferentes formas para formar uma grande árvore de soluções possíveis, que devem ser mantidas sob controle por meio de técnicas como busca de feixes. O palestrante também apresenta um vocabulário para a heurística desenvolvida por seu amigo, incluindo a heurística "requer link" que ajuda a identificar características essenciais de um modelo.

  • 00:20:00 Nesta seção, o professor Patrick Winston explica como as diferentes heurísticas, como "proibir link", "estender conjunto", "drop link" e "subir árvore", podem ser usadas para especializar ou generalizar no aprendizado . Ele também aborda a ideia de quase erros e exemplos e como eles estão conectados à generalização e especialização. O uso dessas heurísticas pode ajudar no pareamento de mais ou menos coisas e, dependendo do problema, pode ser mais adequado para humanos ou para computadores com memórias maiores. A maneira de determinar qual método é melhor dependeria do problema específico que se está tentando resolver.

  • 00:25:00 importância dos quase erros e condições de felicidade no processo de aprendizagem. Nesta seção, o professor Patrick Winston explica como o professor e o aluno devem estabelecer acordos entre eles para transformar o estado inicial de conhecimento do aluno em um novo estado de conhecimento. Com o uso de um modelo de rede que representa o estado de conhecimento do aluno, o professor pode identificar os tipos de erros cometidos pelo aluno e fornecer feedback de acordo. Ao fazer isso, o professor pode efetivamente expandir a frente de onda do conhecimento do aluno e aprimorar a capacidade do aluno de aprender e aplicar novas informações.

  • 00:30:00 Nesta seção, o palestrante discute como entender a capacidade computacional do aluno é importante ao ensiná-lo. Isso inclui levar em consideração a capacidade limitada de um aluno da terceira série de armazenar informações em comparação com um computador. Eles também falam sobre como os convênios, como confiança e compreensão do estilo do professor, são necessários para que o aluno aprenda com eficácia. O orador explica ainda como falar consigo mesmo, ou construir descrições, é crucial para a aprendizagem. Um experimento conduzido por Michelene Chi mostrou as vantagens de falar sozinho quando se trata de aprender física elementar.

  • 00:35:00 Nesta seção, o foco está em como a auto-explicação pode afetar a capacidade de resolução de problemas. Os indivíduos mais inteligentes, que pontuaram duas vezes mais que os menos inteligentes, conversaram consigo mesmos três vezes mais do que os participantes do grupo de pontuação mais baixa. A auto-explicação pode ser dividida em duas categorias, aquelas relacionadas à física e outras relacionadas ao monitoramento em vez da física. Quanto mais alguém fala consigo mesmo, melhor ele parece pontuar na resolução de problemas. Embora não haja indicação clara de que falar sozinho para encorajar melhores pontuações funcione, evidências anedóticas sugerem que falar mais consigo mesmo pode ajudar. Por fim, a discussão passa para ideias de embalagens, particularmente úteis se você deseja que sua ideia seja bem conhecida, e cinco qualidades que auxiliam o processo, começando com a necessidade de um símbolo ou identificador visual associado ao seu trabalho.

  • 00:40:00 Nesta seção, o professor Patrick Winston discute a importância de uma surpresa e um ponto importante para tornar uma ideia bem conhecida. Ele explica que uma boa ideia deve ter algo que se destaque para se tornar famosa, e é fundamental incorporar uma história em apresentações que possam atrair o público. Além disso, ele esclarece o termo “saliente” ao afirmar que, embora indique importância, significa explicitamente “sobressair”. Ele sugere que a educação é essencialmente sobre contar histórias e incentiva os indivíduos a considerar a incorporação dessas qualidades em suas apresentações para torná-las mais eficazes. Em última análise, ele acredita que ser famoso não é imoral, desde que as ideias sejam bem embaladas para ter a melhor chance de sucesso.

  • 00:45:00 Nesta seção, o palestrante conta uma história sobre sentar ao lado de Julia Child e perguntar a ela sobre ser famosa. Child respondeu que a gente se acostuma, o que fez o locutor pensar na experiência oposta de ser ignorado. Ele enfatiza a importância de empacotar ideias e como não se trata apenas de IA, mas também de fazer boa ciência, tornando-se mais inteligente e mais famoso.
 

Aula 16. Aprendizagem: Support Vector Machines



16. Aprendizado: Máquinas de Vetores de Suporte

No vídeo, Patrick Winston discute como as máquinas de vetores de suporte (SVM) funcionam e como elas podem ser usadas para otimizar uma regra de decisão. Ele explica que o algoritmo SVM usa uma transformação, Phi, para mover um vetor de entrada, x, para um novo espaço onde é mais fácil separar dois vetores semelhantes. A função kernel, k, fornece o produto escalar de x sub i e x sub j. Tudo o que é necessário é a função, k, que é uma função do kernel. Vapnik, um imigrante soviético que trabalhou no SVM no início dos anos 1990, é creditado por reviver a ideia do kernel e torná-lo uma parte essencial da abordagem do SVM.

  • 00:00:00 As máquinas de vetores de suporte são uma forma sofisticada de dividir um espaço para determinar limites de decisão. Eles foram desenvolvidos por Vladimir Vapnik e são um grande negócio porque permitem uma tomada de decisão mais precisa.

  • 00:05:00 O vídeo discute como as máquinas de vetores de suporte funcionam e fornece uma regra de decisão para quando uma amostra é positiva ou negativa.

  • 00:10:00 Neste vídeo, Patrick Winston apresenta o conceito de uma máquina de vetor de suporte (SVM), que é um algoritmo de aprendizado de máquina que ajuda a encontrar uma solução ideal para um problema. A primeira equação em um SVM é uma função de custo, que é uma função que recebe um vetor de variáveis e gera um número. A função de custo é multiplicada por um vetor de peso, que é um vetor que corresponde à importância de cada variável na função de custo. A segunda equação em um SVM é o problema de otimização, que é uma função que recebe a função de custo e um vetor de peso e tenta encontrar a melhor solução. O problema de otimização é resolvido minimizando a função de custo. A equação final em um SVM é o vetor de saída, que é a saída do SVM.

  • 00:15:00 O vídeo aborda o uso de máquinas de vetores de suporte (SVM) para resolver problemas e demonstra como calcular a largura de uma rua usando essa técnica.

  • 00:20:00 Neste vídeo, Patrick Winston discute como os multiplicadores de Lagrange funcionam para otimizar uma função com restrições. O vídeo também aborda como os multiplicadores de Lagrange são usados para encontrar o extremo de uma função com restrições.

  • 00:25:00 Neste vídeo, descobriu-se que uma soma linear de amostras é igual a uma soma linear dos componentes das amostras. Além disso, diferenciam-se as derivadas do Lagrangiano em relação a diferentes variáveis, e mostra-se que a soma do alfa i vezes y sub i é igual a 0, o que implica que o vetor w é igual à soma de algum alfa i, alguns escalares, vezes isso menos 1 ou mais 1 variável vezes x sub i sobre i.

  • 00:30:00 Neste vídeo, ele explica como resolver um problema de otimização quadrática usando máquinas de vetores de suporte. É explicado que o vetor de decisão é uma soma linear das amostras e que a álgebra é fácil. O aluno explica que, para cada termo do problema, a álgebra é simplificada tomando a soma do alfa i vezes y sub i vezes x sub i.

  • 00:35:00 Neste vídeo, um matemático explica como a otimização de uma regra de decisão depende apenas do produto escalar de pares de amostras. Isso demonstra que a análise matemática é viável e que o algoritmo de otimização encontrará uma linha reta separando as duas soluções ótimas.

  • 00:40:00 Em máquinas de vetores de suporte, uma transformação, Phi, é usada para mover um vetor de entrada, x, para um novo espaço onde é mais fácil separar dois vetores semelhantes. A função kernel, k, fornece o produto escalar de x sub i e x sub j. Tudo o que é necessário é a função, k, que é uma função do kernel.

  • 00:45:00 O vídeo discute como as máquinas de vetores de suporte (SVM) funcionam e como um kernel pode ser usado para melhorar o desempenho do SVM. Vapnik, um imigrante soviético que trabalhou no SVM no início dos anos 1990, é creditado por reviver a ideia do kernel e torná-lo uma parte essencial da abordagem do SVM.
 

Aula 17. Aprendizagem: Impulsionando



17. Aprendizado: Impulsionando

O vídeo discute a ideia de boosting, que é combinar vários classificadores fracos para criar um classificador forte. A ideia é que os classificadores fracos votem, e o classificador forte seja aquele com mais votos. O vídeo explica como usar um algoritmo de reforço para melhorar o desempenho de classificadores individuais.

  • 00:00:00 O vídeo discute a ideia de boosting, que é combinar vários classificadores fracos para criar um classificador forte. A ideia é que os classificadores fracos votem, e o classificador forte seja aquele com mais votos.

  • 00:05:00 O vídeo do YouTube explica como usar um algoritmo de reforço para melhorar o desempenho de classificadores individuais. O algoritmo envolve treinar cada classificador em um conjunto de dados diferente e, em seguida, combinar os resultados. O vídeo também explica como evitar o overfitting ao usar esse algoritmo.

  • 00:10:00 No vídeo, o palestrante fala sobre como melhorar a precisão de um algoritmo de aprendizado de máquina "aumentando-o". Boosting envolve olhar para um conjunto distorcido de amostras, onde as que o algoritmo erra têm um efeito exagerado no resultado. Isso permite que o algoritmo aprenda com seus erros e melhore sua precisão.

  • 00:15:00 No vídeo do YouTube, o palestrante explica como o boosting pode ser usado para criar um lote de testes. Ele também explica como a taxa de erro é calculada e como os pesos podem ser usados para exagerar o efeito de alguns erros.

  • 00:20:00 O palestrante explica como construir um classificador combinando vários classificadores, cada um com seu próprio peso. Ele explica que este é o estado da arte para classificadores e que é mais eficaz do que apenas adicionar classificadores.

  • 00:25:00 O vídeo discute as várias etapas envolvidas no algoritmo de aprendizado de reforço. Essas etapas incluem escolher um classificador que minimize a taxa de erro, calcular o valor alfa e usar o classificador para produzir pesos revisados. O objetivo geral do algoritmo é produzir um classificador que produza um conjunto perfeito de conclusões sobre todos os dados da amostra.

  • 00:30:00 O vídeo discute como uma máquina pode ser ensinada a aumentar seu desempenho minimizando as taxas de erro. Ele demonstra isso através de uma série de exemplos, mostrando como a taxa de erro pode ser diminuída exponencialmente.

  • 00:35:00 Neste vídeo, o palestrante explica como usar o valor alfa para calcular novos pesos. Ele fala sobre como o programa funciona e como é preciso saber fazer as contas para encontrar melhores formas de fazer esse tipo de coisa. Ele também explica como a raiz quadrada da taxa de erro dividida por 1 menos a taxa de erro é o multiplicador para o peso se a resposta estiver correta, e a raiz quadrada de 1 menos a taxa de erro dividida pela taxa de erro é o multiplicador para o peso se a resposta estiver incorreta.

  • 00:40:00 A soma dos pesos das amostras classificadas corretamente é 1/2 e a soma dos pesos das amostras classificadas incorretamente é 1/2.

  • 00:45:00 Boosting é um método usado para melhorar o desempenho de modelos de aprendizado de máquina. Funciona combinando vários modelos fracos para criar um modelo mais forte. O reforço é eficaz na redução do overfitting e é frequentemente usado em campos como reconhecimento de escrita e compreensão de fala.

  • 00:50:00 Este vídeo discute o conceito de "boosting", que é um método para melhorar o desempenho dos algoritmos de aprendizado de máquina. Boosting envolve treinar uma série de classificadores fracos e, em seguida, combinar suas previsões. Isso geralmente resulta em uma melhoria de desempenho significativa em relação ao uso de um único classificador forte.
 

Aula 18. Representações: Classes, Trajetórias, Transições



18. Representações: Classes, Trajetórias, Transições

Neste vídeo, o professor Patrick Winston discute o conceito de inteligência humana, a capacidade de formar representações simbólicas e sua relação com a linguagem e o uso de redes semânticas para representar a linguagem e os pensamentos internos. Winston enfatiza a importância de entender padrões fundamentais e desenvolver um vocabulário de mudança para ajudar a entender diferentes objetos e seu comportamento. Além disso, ele discute o uso de frames de trajetória para descrever ações que envolvem movimento de uma origem a um destino e a importância de múltiplas representações para melhor compreensão de uma frase. Finalmente, Winston oferece dicas sobre como melhorar a redação técnica, especialmente para falantes não nativos de inglês, evitando linguagem ambígua, pronomes confusos e troca de palavras.

  • 00:00:00 Nesta seção, Patrick Winston começa refletindo sobre a natureza da inteligência humana em comparação com a inteligência da máquina. Ele explica que, embora as máquinas possam executar tarefas inteligentes por meio de métodos como máquinas de vetor de suporte e reforço, elas não entendem o que estão fazendo e não oferecem informações sobre a inteligência humana. Winston então discute a perspectiva evolutiva da inteligência humana, destacando o aumento do tamanho do cérebro em nossa árvore genealógica. No entanto, ele observa que o tamanho do cérebro não é suficiente para explicar a inteligência humana, pois os neandertais, que tinham cérebros maiores que os humanos modernos, não tiveram muita influência. Em vez disso, foi um grupo de Homo Sapiens na África Austral que desenvolveu algo que ninguém mais tinha e rapidamente assumiu, como evidenciado por ferramentas e obras de arte.

  • 00:05:00 Nesta seção, o palestrante discute a ideia de que a capacidade de formar representações simbólicas permitiu ao ser humano contar e compreender histórias. Essa habilidade, que estava relacionada ao desenvolvimento da linguagem, permitiu que nossa espécie se tornasse especial, pois poderíamos pegar dois conceitos e juntá-los para formar um terceiro, sem limites. Ele também discute o conceito de uma "linguagem interior" - a linguagem com a qual pensamos, que pode não ser a mesma com a qual nos comunicamos. O palestrante propõe o uso de redes semânticas, que são redes de nós e links que transmitem significado, para representar a linguagem e os pensamentos internos. Ele fornece exemplos de redes semânticas, como uma que observa relações de suporte e outra que rastreia os eventos em Macbeth.

  • 00:10:00 Nesta seção, o palestrante discute o conceito de redes semânticas, seus elementos e sua aplicação em inteligência artificial. As redes semânticas são uma forma de representar informações usando nós e links, com links conectando os nós. Eles permitem que as conexões entre links sejam tratadas como objetos que podem ser sujeito ou objeto de outros links. Outro conceito é a "reificação", que é o processo de tratar links como objetos. O palestrante enfatiza a importância de colocar uma camada de localização em cima do conceito de redes combinadoras. O uso da classificação é um dos elementos mais úteis na linguagem interna das redes semânticas, aplicando-se a coisas como pianos, ferramentas e mapas. Há também o risco de uma semântica parasitária, onde projetamos nosso entendimento na máquina, que não está alicerçada em nenhum contato com o mundo físico.

  • 00:15:00 Nesta seção, o professor Patrick Winston discute o conceito de níveis em nossa compreensão dos objetos. Ele enfatiza que sabemos sobre coisas diferentes em níveis diferentes, e alguns objetos são mais fáceis de visualizar do que outros com base na especificidade de sua categorização. Por exemplo, é difícil formar uma imagem de uma ferramenta, mas um martelo de esfera é mais específico e, portanto, mais fácil de visualizar. Winston também observa que usamos elementos em uma hierarquia para pendurar conhecimento sobre objetos, e o nível básico em uma hierarquia é onde penduramos a maior parte de nosso conhecimento, como a palavra "piano". Além disso, Winston discute como falamos sobre objetos em diferentes níveis hierárquicos, usando o exemplo de um carro colidindo contra uma parede, o que envolve pensar em várias coisas, como a velocidade do carro, a distância até a parede e a condição do veículo. carro.

  • 00:20:00 Nesta seção, o palestrante discute como um vocabulário de mudança pode ser usado para entender objetos em diferentes períodos de tempo, como antes, durante e depois de um evento como um acidente de carro. O vocabulário inclui elementos como diminuir, aumentar, mudar, aparecer e desaparecer, todos fortemente conectados com a visão. Analogias também são usadas para ajudar a entender diferentes conceitos, como o funcionamento de uma câmera. O locutor também introduz a trajetória como o terceiro elemento da representação, que envolve objetos que se movem ao longo de trajetórias. De modo geral, o palestrante destaca a importância de entender os padrões fundamentais e desenvolver uma linguagem que possa nos ajudar a entender diferentes objetos e seu comportamento.

  • 00:25:00 Nesta seção, o palestrante discute o uso de quadros de trajetória para descrever ações que envolvem movimento de uma origem a um destino. Esses quadros são compostos por vários elementos, incluindo o objeto, o agente e o instrumento, entre outros. O palestrante observa que as preposições costumam ser usadas para decorar esses elementos em idiomas como o inglês. Além disso, o palestrante discute estruturas de papéis, que carecem de uma trajetória, mas ainda contêm elementos como instrumentos e beneficiários. O palestrante explica que esses frames são comumente encontrados no Wall Street Journal Corpus e podem ser usados para analisar a densidade de transições e trajetórias em um determinado texto. Por fim, o palestrante apresenta o conceito de sequências de histórias e fornece um exemplo de um nome de gênero neutro escolhido para evitar problemas.

  • 00:30:00 Nesta seção, o vídeo discute a importância das representações múltiplas e como elas podem levar a uma melhor compreensão de uma frase. O exemplo dado é de Pat confortando Chris, que pode ser dividido em um quadro de papéis e um quadro de transição que envolve um objeto (Chris) cujo humor é presumivelmente melhorado. O vídeo também explora como mudar a ação para algo negativo (como aterrorizar) afetaria os quadros. Além disso, o vídeo apresenta a ideia de um quadro de trajetória como um tipo de imagem mental que pode ser formada a partir de uma frase como "Pat beijou Chris".

  • 00:35:00 Nesta seção, o professor Jordan Peterson discute como os humanos usam sequências de eventos para criar uma representação de uma história. Ele explica como essa representação pode ir de um simples ato como beijar ou esfaquear até histórias complexas, e como varia dependendo do contexto em que um evento ocorre. Ele também fala sobre a importância da sequência na narrativa e como nossa memória está enraizada na ideia de sequências. Por fim, ele discute como as bibliotecas de histórias podem ajudar os humanos a entender mais sobre as histórias que encontram com base na superclasse a que pertencem, como estruturas de evento, estruturas de desastre e estruturas de festa.

  • 00:40:00 Nesta seção, o palestrante discute como os eventos podem ser agrupados em tipos de quadros, como festas e desastres. Cada quadro possui slots específicos para serem preenchidos com tipos de informações, como fatalidades ou nomes dos noivos. No entanto, a compreensão de histórias pode ser difícil devido a desafios sintáticos em antecedentes de pronomes. O palestrante enfatiza a importância de não adicionar dificuldades sintáticas desnecessárias à narrativa, pois isso pode atrapalhar o entendimento. Os jornalistas de jornais escreveriam histórias de maneira clara e concisa para garantir que os leitores possam entender facilmente as informações.

  • 00:45:00 Nesta seção, Patrick Winston oferece dicas sobre como melhorar a redação técnica, principalmente para escritores russos e alemães que desejam escrever com clareza em inglês. Ele sugere evitar pronomes para reduzir a ambigüidade e a confusão dos leitores, usando substantivos claros. Ele também enfatiza a importância de evitar palavras como "antigo" e "último", que exigem que os leitores voltem para identificar o que significam, e evitar trocar palavras como "pá" e "pá". De acordo com Winston, seguindo essas regras simples, os escritores técnicos podem tornar sua escrita mais clara e fácil para os leitores entenderem.
 

Aula 19. Arquiteturas: GPS, SOAR, Subsunção, Society of Mind



19. Arquiteturas: GPS, SOAR, Subsunção, Society of Mind

Este vídeo discute várias arquiteturas para a criação de sistemas inteligentes, incluindo o solucionador de problemas geral e a arquitetura SOAR, que incorpora fortemente experimentos de psicologia cognitiva e é focada na solução de problemas. O palestrante também discute a "Emotion Machine" de Marvin Minsky, que considera o pensamento em várias camadas, incluindo as emoções, e a hipótese do senso comum que defende equipar os computadores com o senso comum, como os humanos. A arquitetura de subsunção, inspirada na estrutura do cérebro humano, também é discutida, sendo o Roomba um exemplo de sucesso. A capacidade de imaginar e perceber as coisas está ligada à capacidade de descrever eventos e entender a cultura, e a linguagem desempenha um papel crucial na construção de descrições e combinadores. A importância de se envolver em atividades como olhar, ouvir, desenhar e falar para exercitar as áreas de processamento de linguagem do cérebro é destacada, e o orador adverte contra falantes rápidos que podem bloquear o processador de linguagem e levar a decisões impulsivas.

  • 00:00:00 Nesta seção, o professor discute várias arquiteturas alternativas para a criação de um sistema inteligente. Ele começa falando sobre o ataque cibernético da Estônia em 2007 e como nenhum computador pode entender a história por trás dele, exceto por uma que ele demonstrará mais tarde. Ele então fala sobre o solucionador de problemas geral desenvolvido por Newell e Simon na Carnegie Mellon, no qual um sistema inteligente opera medindo a diferença simbólica entre o estado atual e o estado objetivo e selecionando operadores para passar do estado intermediário para um estado intermediário. melhor estado, repetindo o processo até que o objetivo seja alcançado. A seção termina com a explicação da ideia que será abordada na próxima palestra, que focará em como evitar a falência ao abrir uma empresa no ramo de IA.

  • 00:05:00 Nesta seção, aprendemos sobre o conceito de análise meios-fins, que envolve identificar a diferença entre o estado atual e um estado final desejado e selecionar o operador apropriado para minimizar a diferença. O exemplo do uso da análise meios-fins para resolver o problema de voltar para casa do MIT é apresentado, ilustrando o processo recursivo de identificação de diferenças e seleção de operadores até que o estado final desejado seja alcançado. Embora o conceito geral do solucionador de problemas fosse uma ideia empolgante na época, não saiu como esperado devido à dificuldade de construir a tabela que relaciona as diferenças com os operadores. Isso levou ao desenvolvimento da arquitetura SOAR mais recente, que significa "State Operator And Result", embora os proponentes da arquitetura afirmem que é apenas um rótulo e não um acrônimo.

  • 00:10:00 Nesta seção, o foco está na arquitetura SOAR e seus diferentes componentes. O SOAR consiste em memória de curto e longo prazo, um sistema de visão, um sistema de ação e um sistema de preferência. A arquitetura incorpora fortemente experimentos de psicologia cognitiva e seu foco principal é a resolução de problemas. Além disso, o SOAR possui um subsistema elaborado para quebrar laços em sistemas baseados em regras e é centrado na ideia de que as pessoas são manipuladoras de símbolos. O sistema é projetado para resolver problemas sistematicamente e possui um elaborado sistema de preferências para desempate em sistemas baseados em regras.

  • 00:15:00 Nesta seção, o palestrante discute várias arquiteturas fortemente voltadas para a solução de problemas, incluindo SOAR e a arquitetura de Newell. No entanto, a arquitetura mais importante, de acordo com o palestrante, é "The Emotion Machine" de Marvin Minsky, que destaca como a solução de problemas pode vir em camadas. O orador fornece um exemplo da arquitetura de Marvin através de uma pequena vinheta, onde uma mulher atravessa uma estrada. A arquitetura de Marvin destaca os vários níveis de pensamento que a mulher experimenta, desde uma reação instintiva ao ouvir um som até o pensamento reflexivo em um contexto social.

  • 00:20:00 Nesta seção, a arquitetura SOAR se concentra na solução de problemas, enquanto a "Emotion Machine" de Minsky considera o pensamento em muitas camadas, incluindo as emoções. No entanto, o desenvolvimento do bom senso se apresenta como um obstáculo para alcançar tal pensamento, já que os computadores nunca tiveram muito disso. Assim, a hipótese do senso comum argumenta que, para que os computadores tenham processos de pensamento tão inteligentes, eles devem ser equipados com o senso comum como os humanos. Isso gerou o projeto de mente aberta e a coleta de bom senso da rede mundial de computadores como um meio de alcançar o pensamento em camadas. Em contraste, Rod Brooks e sua arquitetura de subsunção acreditam que os robôs não podem fazer muito porque as pessoas estão pensando em construir robôs da maneira errada, com um sistema de visão encapsulado, sistema de raciocínio e sistema de ação. Em vez disso, Brooks sugere ter camadas de abstração focadas em lidar com o mundo, como evitar objetos, vagar, explorar e buscar.

  • 00:25:00 Nesta seção, o palestrante discute a arquitetura proposta por Rodney Brooks que foi inspirada em como o cérebro humano é construído, com as partes antigas bem no fundo e o neocórtex em camadas sobre ele. Brooks levantou a hipótese de que alguém poderia fazer uma máquina agir tão inteligente quanto um inseto sem necessariamente precisar de representação da maneira como focamos na representação no curso. Sua ideia era usar o mundo em vez de um modelo, então tudo o que se faz é reativo, em vez de ter um mapa da sala na cabeça. Os mecanismos em sua forma mais pura são apenas máquinas de estado finito. Brooks nomeou essa ideia de arquitetura de subsunção, que foi usada no robô Roomba que teve grande sucesso. O Roomba usa sensores infravermelhos de proximidade para navegação, o que ajuda a evitar controladores centralizados e a necessidade de um modelo mundial.

  • 00:30:00 Nesta seção do vídeo, o palestrante discute a arquitetura de subsunção, que é exemplificada em um robô capaz de encontrar uma lata e pegá-la. O robô usa um laser para localizar a lata e possui sensores em seu braço para agarrar a lata de uma maneira específica. O robô também usa uma bússola magnética para navegar de volta ao seu ponto de partida. O palestrante também menciona outras arquiteturas como SOAR e GPS e apresenta a arquitetura genesis, que gira em torno da linguagem e orienta os sistemas perceptivos.

  • 00:35:00 Nesta seção, o palestrante discute como a capacidade de imaginar e perceber as coisas está ligada à capacidade de descrever eventos, contar e compreender histórias e, finalmente, entender a cultura. Ele dá exemplos de como as pessoas sabem coisas que não são explicitamente ensinadas a elas, como o perigo de usar luvas ao operar uma serra de mesa. Ele propõe a "hipótese da história forte" como uma possível explicação para o florescimento de nossa espécie há 50.000 anos, que ele acredita que nos deu a capacidade de contar histórias e entendê-las.

  • 00:40:00 Nesta seção, aprendemos sobre um experimento que é considerado a série de experimentos mais importante já realizada em psicologia cognitiva e do desenvolvimento. O experimento envolve colocar comida em cestas em dois cantos opostos de uma sala retangular e girar um rato, uma criança pequena e um adulto para ver para onde vão. Todos tendem a ir para os dois cantos com a comida, exceto quando uma parede é pintada de azul. O rato e a criança ainda vão para os dois cantos diagonais com igual probabilidade, enquanto o adulto vai apenas para o canto com a comida. A criança se torna adulta quando começa a usar as palavras esquerda e direita para descrever o mundo.

  • 00:45:00 Nesta seção, o palestrante conduz um experimento com um voluntário que demonstra como a linguagem desempenha um papel crucial na construção de descrições e combinadores. O experimento envolve a leitura de uma passagem de um livro enquanto o voluntário a repete simultaneamente, bloqueando seu processador de linguagem, o que resulta na incapacidade de conectar certas formas e cores. O palestrante aconselha que praticar atividades como olhar, ouvir, desenhar e falar pode exercitar as mesmas áreas do cérebro responsáveis pelo processamento da linguagem e torná-lo mais inteligente. Além disso, o orador adverte contra falantes rápidos e como eles podem atrapalhar seu processador de linguagem, levando você a tomar decisões impulsivamente.
 

Aula 21. Inferência Probabilística I



21. Inferência Probabilística I

Neste vídeo sobre inferência probabilística, o professor Patrick Winston explica como a probabilidade pode ser usada na inteligência artificial para fazer inferências e calcular probabilidades com base em vários cenários. Ele usa exemplos como o aparecimento de uma estátua, um cachorro latindo para um guaxinim ou um ladrão e a fundação do MIT em 1861 aC para demonstrar o uso de uma tabela de probabilidade conjunta, como calcular probabilidades usando axiomas e a regra da cadeia, e os conceitos de independência e independência condicional. O palestrante enfatiza a necessidade de afirmar corretamente a independência das variáveis e propõe o uso de redes de crenças como forma de representar a causalidade entre as variáveis e simplificar os cálculos de probabilidade.

  • 00:00:00 Nesta seção do vídeo, o professor Patrick Winston discute o uso da probabilidade na inteligência artificial, especificamente no que se refere à observação de eventos aleatórios. Ele usa o exemplo de observar o aparecimento de uma estátua no campus e constrói uma tabela para acompanhar as possíveis combinações de eventos que podem levar ao aparecimento da estátua. Ele observa que o número de linhas na tabela é 2 elevado ao número de variáveis, e que longos períodos de observação podem ser usados para determinar a probabilidade de ocorrência de cada um desses eventos. Em última análise, a probabilidade de qualquer evento é simplesmente a frequência de sua ocorrência dividida pelo número total de observações.

  • 00:05:00 Nesta seção, o apresentador demonstra como usar uma tabela de probabilidade conjunta para calcular várias probabilidades. O exemplo usado envolve conhecer a probabilidade de uma estátua aparecer, dadas certas condições, como a presença de uma mostra de arte e um hack. O apresentador também realiza cálculos semelhantes para a probabilidade de um guaxinim aparecer com base em um cachorro latindo e a probabilidade de o cachorro latir devido à presença de um guaxinim. A demonstração mostra como uma tabela de probabilidade conjunta pode ser usada para fazer inferências e calcular probabilidades com base em diferentes cenários.

  • 00:10:00 Nesta seção, o palestrante discute o uso de uma tabela de probabilidade conjunta para calcular inferências probabilísticas. Apesar da utilidade dessa ferramenta, o alto número de linhas necessárias para situações mais complexas pode ser difícil de gerenciar, tornando necessário considerar outros métodos além da inferência probabilística. O palestrante também apresenta um cenário hipotético em que o MIT foi fundado em 1861 aC e discute os métodos experimentais que podem ter sido usados para determinar quais objetos flutuam.

  • 00:15:00 Nesta seção, o palestrante discute os fundamentos da probabilidade e os axiomas que a sustentam. Eles explicam que as probabilidades devem ser maiores que 0 e menores que 1, e que em um mundo binário, a probabilidade de verdadeiro é 1 e falsa é 0. O palestrante também apresenta o terceiro axioma, que afirma que a probabilidade de A mais a probabilidade de B menos a probabilidade de A e B é igual à probabilidade de A ou B. Eles observam que esse entendimento básico de probabilidade serve como base para cálculos mais complexos usados em inferência probabilística.

  • 00:20:00 Nesta seção, o palestrante explica a abordagem formal para lidar com probabilidade usando axiomas e como ela pode ser espelhada por intuições que envolvem discussões de espaços. A probabilidade de a está associada ao tamanho do círculo em relação à área total do retângulo, e os axiomas de um a três fazem sentido em termos dessa imagem. O orador então explica a probabilidade condicional e como ela é definida como a probabilidade de um determinado b, que é igual à probabilidade de a e b dividida pela probabilidade de B. Essa definição faz sentido, pois restringe o universo de consideração a apenas isso parte do universo original.

  • 00:25:00 Nesta seção, o palestrante apresenta a ideia de dividir o espaço de probabilidade em três partes e explica como a probabilidade de a, b e c pode ser determinada. Ao expandir a fórmula, a probabilidade de todas as coisas serem assim é dividida em um produto de três probabilidades condicionais. O falante então generaliza essa ideia na regra da cadeia, que afirma que a probabilidade de um grupo de coisas pode ser escrita como um produto de probabilidades condicionais. Mesmo que o orador esteja apenas na metade do diagrama, ele mostra que está fazendo um bom progresso. O próximo conceito que eles discutem é a ideia de probabilidade condicional.

  • 00:30:00 Nesta seção, o professor explica a definição de independência e independência condicional. Independência é quando a probabilidade de a não depende do que está acontecendo com b. Por exemplo, se a e b são independentes, então a dado b é igual a a. Independência condicional significa que se o mundo está restrito a estar em z, então a probabilidade de a não depende do valor de b. O professor ilustra esses conceitos usando diagramas intuicionistas, usando as áreas dos diagramas para denotar probabilidades.

  • 00:35:00 Nesta seção, o palestrante discute a independência condicional na inferência probabilística e como ela leva à inferência das probabilidades conjuntas de variáveis. Ele explica o conceito usando o exemplo de um cachorro que late para um guaxinim ou um ladrão, e como a adição de mais duas variáveis leva à necessidade de uma grande tabela de probabilidade conjunta. Ele então introduz a ideia de redes de crenças como uma forma de representar causalidade entre variáveis e enfatiza a necessidade de afirmar corretamente que cada nó é independente de suas variáveis não descendentes.

  • 00:40:00 Nesta seção, o palestrante discute o conceito de independência dado aos pais de não descendentes e a importância do entendimento desta linguagem na inferência probabilística. O orador então cria um modelo para determinar as probabilidades de vários eventos, como a aparição de um ladrão ou o latido de um cachorro, com base na presença de outros fatores, como um guaxinim. O palestrante observa que apenas 10 números são necessários para especificar o modelo, o que economiza um esforço considerável em comparação com a tentativa de construir uma tabela de probabilidade conjunta imediatamente.

  • 00:45:00 Nesta seção, o palestrante discute o uso da regra da cadeia no cálculo da tabela de probabilidade conjunta completa. Eles explicam como, usando o conhecimento de independência condicional, são capazes de riscar certas probabilidades da fórmula, pois não dependem de um descendente. Ao organizar a fórmula de uma maneira específica, o falante é capaz de calcular a tabela de probabilidade conjunta completa sem inventar números ou fazer muitas medições. O palestrante observa que, neste caso específico, eles só tiveram que inventar 10 números de 32 e questiona quanta economia seria alcançada se houvesse mais propriedades.
 

Aula 22. Inferência Probabilística II



22. Inferência Probabilística II

Neste vídeo, o professor Patrick Winston explica como usar redes de inferência, também conhecidas como "Redes de Bayes", para fazer inferências probabilísticas. Ele discute como ordenar variáveis em uma rede bayesiana usando a regra da cadeia para calcular a probabilidade conjunta de todas as variáveis. O palestrante demonstra como acumular probabilidades executando simulações e como gerar probabilidades usando um modelo. Ele também discute a regra de Bayes e como ela pode ser usada para resolver problemas de classificação, selecionar modelos e descobrir estruturas. O vídeo enfatiza a utilidade da inferência probabilística em vários campos, como diagnóstico médico, detecção de mentiras e solução de problemas de equipamentos.

  • 00:00:00 Nesta seção, o professor Patrick Winston discute o uso de redes de inferência, também conhecidas como "Redes de Bayes", que são usadas para fazer uma inferência probabilística. Ele começa revisando a tabela de probabilidade conjunta, que pode ser usada para decidir uma probabilidade clicando nas caixas apropriadas, mas o problema é que se torna difícil e demorado criar ou coletar os números quando muitas variáveis estão envolvidas. Ele passa a usar as redes de inferência para realizar cálculos para obter a probabilidade de os eventos acontecerem juntos. A regra da cadeia é usada aqui, e esta seção termina dando uma explicação sobre esta regra.

  • 00:05:00 Nesta seção, o palestrante fala sobre o processo de ordenação de variáveis em uma rede bayesiana e como isso pode ser usado com a regra da cadeia para calcular a probabilidade conjunta de todas as variáveis. Arranjando as variáveis de forma que nenhum de seus descendentes apareça à sua esquerda em uma ordem linear e usando a regra da cadeia, ele é capaz de calcular a probabilidade de qualquer combinação particular dessas variáveis. Ele afirma que todas as probabilidades condicionais neste cenário são não descendentes e riscar as variáveis com base nas dependências pode ajudar a calcular qualquer entrada na tabela.

  • 00:10:00 Nesta seção, o palestrante explica como usar uma pequena rede para fazer tudo o que pode ser feito com uma mesa e as probabilidades necessárias para conseguir isso. Ele discute como ele estende as tabelas para acompanhar as contagens necessárias para calcular a probabilidade do cachorro latir ou B acontecer, e usa resultados experimentais para dar marcações ou contagens nas seções relevantes da tabela, eventualmente levando a uma demonstração de o processo.

  • 00:15:00 Nesta seção do vídeo, o professor começa demonstrando como acumular as probabilidades de uma rede por meio de simulações. Ele explica como interpretar a tabela e acompanhar o que os elementos de dados estão informando sobre a frequência com que uma determinada combinação aparece. Ele executa várias simulações para obter probabilidades mais precisas. Ele então demonstra como simular o sistema gerando uma combinação de valores para todas as variáveis indo e voltando das tabelas de probabilidade superiores e jogando uma moeda.

  • 00:20:00 Nesta seção, o palestrante discute o processo de geração de probabilidades para um cenário selecionando a linha apropriada em uma tabela de probabilidades. O palestrante então explica como essas probabilidades podem ser geradas usando um modelo à esquerda, que pode ser usado para produzir dados para calcular as probabilidades à direita. No entanto, o palestrante reconhece que pode haver vários modelos corretos para um determinado cenário, tornando difícil determinar qual é o correto. Para resolver esse problema, o palestrante apresenta o conceito de inferência Bayesiana ingênua, que envolve a reescrita de probabilidades condicionais de forma que permita seu cálculo usando o teorema de Bayes.

  • 00:25:00 Nesta seção, o vídeo explica como a regra de Bayes pode ser usada para resolver um problema de classificação. Por exemplo, ao diagnosticar uma doença, a probabilidade da doença dada a evidência pode ser calculada dividindo-se a probabilidade da evidência dada a doença pela probabilidade geral da evidência e então multiplicando-se isso pela probabilidade anterior da doença em questão. Se várias evidências independentes estiverem presentes, a probabilidade conjunta de evidência para uma determinada doença dividida pela probabilidade geral de evidência pode ser calculada e, então, as probabilidades de todas as classes relevantes podem ser comparadas.

  • 00:30:00 Nesta seção, o palestrante conta uma história sobre a seleção de duas moedas, uma viciada com probabilidade de 0,8 de cara e outra honesta com probabilidade de cara de 0,5. Depois de jogar a moeda, o professor usa a probabilidade bayesiana para descobrir qual moeda foi selecionada com base nas probabilidades anteriores e nas evidências dos lançamentos. A palestra demonstra como as evidências podem ser usadas para determinar a probabilidade de diferentes hipóteses na inferência probabilística.

  • 00:35:00 Nesta seção, o professor demonstra como as probabilidades de diferentes moedas variam com uma série de jogadas e como a preponderância da evidência pode alterar a probabilidade de obter cara. A Lei dos Grandes Números entra em ação e a probabilidade da moeda escolhida estar em jogo torna-se cada vez mais próxima de 1. O professor então usa esse conceito para criar um classificador de partido pai olhando para o partido político de uma criança e fazendo inferências sobre o partido a que o pai pertence. No geral, o conceito de inferência probabilística pode ser aplicado em vários cenários para fazer previsões e tirar conclusões.

  • 00:40:00 Nesta seção do vídeo, o palestrante discute o uso do hack bayesiano para comparar dois modelos e selecionar o melhor com base nos dados. O processo envolve simular sorteios de um modelo e calcular a probabilidade de cada modelo dados os dados. O palestrante então passa para a descoberta de estruturas, onde começa sem variáveis vinculadas e usa uma pesquisa aleatória para modificar e comparar modelos até encontrar um que seja preferido. Esse processo requer o uso da soma dos logaritmos das probabilidades em vez do produto para evitar a perda de informações em uma máquina de 32 bits. No entanto, a busca pela estrutura ótima pode ser desafiadora devido ao grande espaço e aos máximos locais.

  • 00:45:00 Nesta seção, o palestrante discute a utilidade da inferência probabilística e da descoberta de estruturas em vários campos, como diagnóstico médico, detecção de mentiras e solução de problemas de equipamentos. Ele explica como os cálculos probabilísticos são a abordagem correta a ser usada quando as informações são limitadas e como esse método pode ser usado para determinar a causa mais provável de um problema com base nos sintomas observados. O palestrante também sugere discussões futuras sobre como esse método pode ser usado para descobrir padrões e histórias.
 

Aula 23. Fusão de Modelos, Acoplamento Modal Cruzado, Resumo do Curso



23. Fusão de modelos, acoplamento modal cruzado, resumo do curso

Neste vídeo, o professor Patrick Winston fala sobre fusão de modelos, acoplamento cross-modal e reflete sobre o material do curso. Ele discute a importância de descobrir a regularidade sem ser excessivamente fixado na probabilidade bayesiana e os benefícios potenciais do acoplamento cross-modal para entender o mundo ao nosso redor. Ele também oferece sugestões para cursos futuros e enfatiza a importância de se concentrar em gerar novas receitas e recursos com pessoas e computadores trabalhando juntos, em vez de visar apenas substituir pessoas. Além disso, ele enfatiza a importância de identificar o problema primeiro e selecionar a metodologia apropriada para resolvê-lo. Por fim, o professor reflete sobre as limitações de reduzir a inteligência a um modelo replicável e artificial e destaca o trabalho excepcional de sua equipe.

  • 00:00:00 Nesta seção, Patrick Winston fala sobre fusão de modelos e acoplamento cross-modal. Ele demonstra a ideia da fusão de histórias bayesianas mostrando como descobrir a estrutura em situações onde você não poderia encontrá-la, como descobrir eventos em duas histórias e reuni-los em dois gráficos de histórias. Ele também fala sobre a capacidade de descobrir conceitos por meio de vários níveis que usam aprendizado de máquina e computação em nuvem para obter eficiência. Por fim, ele apresenta o programa de Michael Coen que usa várias modalidades e correspondências entre elas para classificar ambas as modalidades de contribuição nas canções do tentilhão-zebra.

  • 00:05:00 Nesta seção, o conceito de acoplamento cross-modal é explicado através do exemplo de associação de gestos que produzem sons de vogais com os próprios sons. A transformada de Fourier de uma vogal produz formantes, e uma elipse ao redor da boca forma a segunda modalidade. Com dados de acoplamento cross-modal, é possível agrupar sons e associar formas labiais a sons sem nenhum dado marcado. Uma demonstração do trabalho de Coen mostra como os clusters podem ser formados usando projeções e vetores como componentes de uma métrica.

  • 00:10:00 Nesta seção, o palestrante discute o conceito de acoplamento cross-modal e como ele pode ajudar na compreensão do mundo que nos é apresentado. Ele sugere que é possível descobrir a regularidade sem se preocupar obsessivamente com a probabilidade bayesiana e que esse tipo de ideia de acoplamento provavelmente está ligada à nossa compreensão do mundo ao nosso redor. O palestrante também faz um resumo do material do curso, enfatizando a importância tanto da perspectiva da engenharia quanto da científica na criação de aplicativos sofisticados para inteligência artificial. Ele também aponta a necessidade de se concentrar em gerar novas receitas e recursos com pessoas e computadores trabalhando em conjunto, em vez de visar apenas substituir pessoas.

  • 00:15:00 Nesta seção, o palestrante discute as vantagens únicas que a programação oferece para criar modelos e realizar experimentos. Especificamente, a programação fornece metáforas e a capacidade de criar modelos que permitem a experimentação para testar as implicações desses modelos. O palestrante também enfatiza a importância de identificar o problema primeiro e depois selecionar a metodologia ou maquinário apropriado a ser usado, em vez de cair na inveja do mecanismo e focar em métodos específicos. Por fim, o palestrante analisa brevemente o formato do exame e oferece alguns lembretes para os alunos, como trazer um relógio e uma calculadora e a flexibilidade de usar fantasias durante o exame.

  • 00:20:00 Nesta seção, o professor dá algumas sugestões sobre o que fazer no próximo semestre, incluindo a disciplina de Marvin Minsky, Society of Mind, ou as disciplinas de Bob Berwick sobre Compreensão e Evolução da Linguagem, ou a disciplina de Sistema Simbólico em Grande Escala de Gerry Sussman. Ele também promove seu próprio curso de primavera, o Human Intelligence Enterprise. O professor descreve seu curso como um curso de humanidades e não tem palestras, mas sim uma conversa com ele. Ele discute alguns dos tópicos abordados no curso, como empacotamento e os elementos comuns encontrados em vários sistemas de inteligência.

  • 00:25:00 Nesta seção, o palestrante fala sobre a importância da embalagem e como ela pode fazer a diferença no sucesso de uma pessoa, independentemente de sua carreira. O palestrante menciona um evento, chamado de palestra "How to Speak", que é uma palestra não linear de uma hora que pode impactar significativamente a capacidade de alguém de fazer apresentações, palestras e palestras de trabalho, oferecendo dicas como quando contar uma piada ou como para abrir uma apresentação. Além disso, o palestrante fala sobre o sistema Gênesis de seu grupo, que está prestes a se mover para áreas que podem detectar o aparecimento de uma possível doença.

  • 00:30:00 Nesta seção, uma demonstração ao vivo mostra como um sistema pode ler e entender uma história de múltiplas perspectivas, o que permite a detecção de possíveis problemas e a intervenção para prevenir desastres. Duas personas com diferentes formações educacionais identificam o que está explícito na história e inferem outros conceitos em cinza. Por causa de suas origens únicas, eles têm diferentes perspectivas sobre a história e podem até negociar uns com os outros, ensinar outros domínios e evitar desastres antes que ocorram. O sistema também detecta possíveis operações de vingança e vitórias de Pirro, ilustrando sua capacidade de antecipar possíveis problemas e intervir.

  • 00:35:00 Nesta seção, aprendemos sobre o uso de vetores de conceitos em vez de contagens de palavras-chave para recuperação de informações, compreendendo histórias em vários níveis. A arquitetura do propagador é usada para evitar que os indivíduos exagerem em seu trabalho, e o envolvimento dos alunos no grupo do MIT é elogiado. Quanto a outros programas de pós-graduação, deve-se pensar em quem eles querem ser aprendizes e encontrar um programa com um foco diferente, como IA, para ampliar seus horizontes no campo.

  • 00:40:00 Nesta seção, o professor Winston dá conselhos para os alunos que se candidatam à pós-graduação em física teórica e inteligência artificial, enfatizando a importância das visitas in loco para os primeiros e do foco em uma área específica para os segundos. Ele também compartilha uma anedota sobre um caso extremo da teoria do defeito da seleção de carreira da IA, em que um pesquisador de visão computacional é incapaz de reconhecer sua esposa devido à sua especialização em reconhecimento de objetos. Por fim, o professor Winston reflete sobre a utilidade e a simplicidade de ideias poderosas na ciência da computação e aborda o argumento de que entender a linguagem pode não necessariamente exigir inteligência verdadeira.

  • 00:45:00 Nesta seção, o palestrante fala sobre as limitações em reduzir a inteligência a algo que pode ser replicado artificialmente. Ele usa seu guaxinim de estimação como um exemplo de animal altamente inteligente que ele não esperava ser capaz de construir uma máquina igualmente inteligente. A ideia de que a inteligência artificial é impossível é muitas vezes baseada em argumentos reducionistas que não levam em conta o conhecimento e a magia que vêm de um programa em execução ao longo do tempo. O palestrante também reconhece o trabalho excepcional de sua equipe e deseja boa sorte aos alunos no exame final.