Aprendizado de máquina e redes neurais - página 2

 

MIT 6.S191: Modelagem Gerativa Profunda



Aula 4. MIT 6.S191: Modelagem Generativa Profunda

Este vídeo discute como a modelagem generativa profunda pode ser usada para aprender uma representação mais suave e completa dos dados de entrada, que podem ser usados para gerar novas imagens. A chave para o DGM é introduzir uma distribuição de probabilidade para cada variável latente, o que permite que a rede faça uma amostragem dessa distribuição latente para gerar novos dados.

  • 00:00:00 Nesta palestra, Ava explica como modelos generativos profundos podem ser usados para aprender distribuições de probabilidade subjacentes a conjuntos de dados. Ele mostra como dois métodos, estimativa de densidade e geração de amostras, funcionam na prática.

  • 00:05:00 Neste vídeo, o apresentador explica como os modelos generativos podem ser usados para aprender os recursos subjacentes de um conjunto de dados. Isso pode ser útil em aplicações como detecção facial ou detecção de outliers.

  • 00:10:00 O autoencoder é um poderoso algoritmo de aprendizado de máquina que permite a compactação de dados de entrada de alta dimensão em um espaço latente de dimensão inferior. Este espaço latente pode então ser usado para codificar os dados para posterior reconstrução. Com um autoencoder variacional, o espaço latente é probabilístico, permitindo reconstruções mais realistas e precisas dos dados de entrada.

  • 00:15:00 O vídeo discute como a modelagem generativa profunda (DGM) pode ser usada para obter uma representação mais suave e completa dos dados de entrada, que podem ser usados para gerar novas imagens. A chave para o DGM é introduzir uma distribuição de probabilidade para cada variável latente, o que permite que a rede faça uma amostragem dessa distribuição latente para gerar novos dados. A perda da rede agora é composta pelo termo de reconstrução e pelo termo de regularização, o que impõe alguma estrutura na distribuição de probabilidade das variáveis latentes. A rede é treinada para otimizar a perda em relação aos pesos da rede, e os pesos são atualizados iterativamente durante o treinamento.

  • 00:20:00 O vídeo discute como um termo de regularização, d, ajuda a minimizar a distância entre a distribuição latente inferida e a priori. Também mostra como o prior normal pode ajudar a conseguir isso.

  • 00:25:00 O vídeo discute como a modelagem generativa profunda é usada para reconstruir uma entrada de um conjunto de pontos de dados. O método envolve a imposição de uma regularização de base normal no espaço latente, o que ajuda a suavizá-lo e completá-lo. Isso, por sua vez, permite a retropropagação de gradientes através da camada de amostragem, o que resolve o problema de estocasticidade impedindo a propagação direta de gradientes através da rede.

  • 00:30:00 Este vídeo explica como modelos de variáveis latentes (como Variational Autoencoders ou Beta Vaes) podem ser usados para codificar recursos que são importantes em um conjunto de dados. Isso permite modelos de aprendizado de máquina mais imparciais, pois os recursos importantes são codificados automaticamente.

  • 00:35:00 Os GANs usam uma rede geradora para gerar amostras semelhantes aos dados reais, enquanto uma rede adversária tenta distinguir as amostras falsas das reais. Após o treinamento, o gerador e o discriminador são capazes de separar os dados falsos dos dados reais com precisão quase perfeita.

  • 00:40:00 O vídeo discute a função de perda para Deep Generative Models, que se resume a conceitos que foram introduzidos em palestras anteriores. O objetivo da rede discriminadora é identificar dados falsos, e o objetivo da rede geradora é gerar dados o mais próximo possível da verdadeira distribuição de dados. A rede geradora de trens sintetiza novas instâncias de dados baseadas em uma distribuição de ruído gaussiano completamente aleatório. Se considerarmos um ponto nessa distribuição de ruído, um ponto na distribuição de dados reais e um ponto na distribuição de dados de destino, podemos ver que o gerador está aprendendo a gerar dados que ficam em algum lugar entre esses pontos. Essa ideia de transformação de domínio e travessia em variedades de dados complexos é discutida com mais detalhes e é mostrado como os gans são uma arquitetura poderosa para gerar exemplos de dados realistas.

  • 00:45:00 O vídeo discute alguns avanços recentes na modelagem generativa profunda, incluindo melhorias na arquitetura e transferência de estilo. Ele continua descrevendo o modelo cyclegan, que permite a tradução entre domínios com dados completamente não pareados.

  • 00:50:00 Nesta parte, Ava discute os dois principais modelos generativos usados em aprendizado profundo, codificadores automáticos variacionais e codificadores automáticos, e explica como eles funcionam. Ele também cita o cycle gan, um poderoso transformador de distribuição que pode ser usado em conjunto com esses modelos. O autor conclui a palestra incentivando os participantes a participar da parte de laboratório do curso, que acontecerá imediatamente depois.
MIT 6.S191 (2022): Deep Generative Modeling
MIT 6.S191 (2022): Deep Generative Modeling
  • 2022.04.01
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 4Deep Generative ModelingLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, and lab materials: ht...
 

MIT 6.S191: Aprendizagem por Reforço



Aula 5. MIT 6.S191: Aprendizagem por Reforço

Neste vídeo, Alexander Amini discute o conceito de aprendizado por reforço e como ele pode ser usado para treinar uma rede neural. Ele começa explicando como funciona o aprendizado por reforço e como ele pode ser usado em cenários do mundo real. Ele então passa a discutir como treinar uma rede de gradiente de políticas. Por fim, ele conclui o vídeo discutindo como atualizar o gradiente de política em cada iteração do loop de treinamento.

  • 00:00:00 Neste vídeo, aprendemos sobre aprendizado por reforço, um tipo de aprendizado de máquina em que um modelo de aprendizado profundo é treinado sem ter conhecimento prévio dos dados de entrada. No aprendizado por reforço, o modelo de aprendizado profundo é colocado em um ambiente dinâmico e tem a tarefa de aprender como realizar uma tarefa sem qualquer orientação humana. Isso tem enormes implicações em vários campos, como robótica, jogabilidade e carros autônomos.

  • 00:05:00 No aprendizado por reforço, o agente é a entidade que realiza ações no ambiente, e o ambiente é o mundo no qual o agente existe e realiza ações. O agente pode enviar comandos ao ambiente na forma de ações, e um estado é uma situação concreta e imediata em que o agente se encontra naquele momento. O agente também pode obter recompensas do ambiente.

  • 00:10:00 Esta parte da palestra sobre aprendizado por reforço descreve os conceitos de recompensa, gama e a função q. A função q recebe como entrada o estado atual e a ação e retorna a soma futura total esperada de recompensas que um agente pode receber após essa ação. A função q pode ser usada para determinar a melhor ação a ser tomada em um determinado estado, dado o estado e a ação atuais.

  • 00:15:00 Nesta parte, Alexander Amini apresenta o jogo Atari e sua função q associada. Ele passa a discutir algoritmos de aprendizado de valor, que se baseiam na tentativa de encontrar uma função q que maximize as recompensas futuras. Ele então apresenta um algoritmo de aprendizado de política, que é uma maneira mais direta de modelar o problema de aprendizado por reforço. Tanto a aprendizagem de valores quanto a aprendizagem de políticas são brevemente discutidas, e os resultados de um estudo sobre aprendizagem de valores são mostrados.

  • 00:20:00 O vídeo discute o aprendizado por reforço, ou o processo de aprendizado para otimizar uma decisão, experimentando uma variedade de ações e resultados possíveis. O vídeo mostra dois exemplos de como um agente pode se comportar, um em que o agente é muito conservador e outro em que o agente é mais agressivo. O vídeo continua discutindo como treinar uma rede neural para aprender a função q, que é a ação ideal a ser tomada, dado um estado e uma ação.

  • 00:25:00 Esta parte discute como treinar um agente de aprendizado por reforço de valor q. O valor q é uma medida da importância relativa de diferentes resultados e é usado para estruturar a rede neural. O retorno esperado para cada ação possível é calculado e a melhor ação é determinada maximizando esse retorno esperado. A função de perda de valor q é usada para treinar a rede neural e o valor alvo é determinado observando as recompensas recebidas para cada ação.

  • 00:30:00 No aprendizado por reforço, o comportamento de um agente é modificado usando feedback de um ambiente para maximizar uma recompensa. Os métodos de gradiente de política são uma nova classe de algoritmos de aprendizado por reforço que são mais flexíveis e eficientes do que os algoritmos de aprendizado por valor.

  • 00:35:00 Nesta parte, Alexander Amini apresenta o aprendizado por reforço, um método para aprender como agir na presença de recompensas e punições. No aprendizado por reforço, a política de um agente é definida como uma função que assume um estado (o ambiente em que o agente está) e gera uma probabilidade de executar uma ação específica nesse estado. Essa probabilidade é então usada para treinar uma rede neural para prever a próxima ação do agente, com base no estado atual e nas recompensas e punições passadas. As vantagens dessa abordagem de aprendizado são que ela pode lidar com espaços de ação contínua e que os métodos de gradiente de política podem ser usados para modelar ações contínuas com alta precisão.

  • 00:40:00 Neste vídeo, Alexander Amini discute como gradientes de política podem ser usados para melhorar o desempenho de algoritmos de aprendizado por reforço. Ele começa descrevendo um espaço contínuo e como integrais podem ser usados no lugar de somatórios discretos. Em seguida, ele discute como os gradientes de políticas funcionam em um exemplo concreto e discute como treinar uma rede de gradientes de políticas. Ele conclui o vídeo discutindo como atualizar o gradiente de política em cada iteração do loop de treinamento.

  • 00:45:00 Esta parte apresenta um método para treinar uma rede neural usando aprendizado por reforço. O vídeo explica como funciona o aprendizado por reforço e como ele pode ser usado em cenários do mundo real.

  • 00:50:00 Neste vídeo, Alexander Amini discute alguns dos avanços recentes no aprendizado por reforço, especificamente na área de Go. Alpha Zero, um projeto do Google DeepMind, conseguiu superar os melhores jogadores humanos do mundo. Na próxima palestra, Nielsen discutirá a literatura de aprendizagem profunda e suas limitações. Esperamos que isso motive os alunos a continuar aprendendo e avançando no campo.
MIT 6.S191 (2022): Reinforcement Learning
MIT 6.S191 (2022): Reinforcement Learning
  • 2022.04.08
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 5Deep Reinforcement LearningLecturer: Alexander AminiJanuary 2022For all lectures, slides, and lab material...
 

MIT 6.S191 (2022): Deep Learning New Frontiers



Aula 6. MIT 6.S191 (2022): Deep Learning New Frontiers

A palestra "Deep Learning New Frontiers" do MIT 6.S191 abrange uma variedade de tópicos. A palestrante Ava Soleimany explica os diversos prazos do curso, apresenta as palestras dos convidados e discute as atuais fronteiras da pesquisa. Limitações de redes neurais profundas em relação ao Teorema da Aproximação Universal, generalização, qualidade de dados, incerteza e ataques adversários também são abordadas. Além disso, são discutidas redes neurais de convolução de grafos e suas possíveis aplicações em diferentes domínios, como descoberta de medicamentos, mobilidade urbana e previsão de COVID-19. Por fim, a palestra explora o tópico de aprendizado de máquina automatizado (autoML) e como ele pode ajudar a projetar modelos de aprendizado de máquina e aprendizado profundo de alto desempenho. O palestrante conclui enfatizando a importância da conexão e distinção entre aprendizagem humana, inteligência e modelos de aprendizagem profunda.

  • 00:00:00 Nesta seção, Ava fornece algumas informações logísticas sobre as camisetas da turma e os próximos prazos para laboratórios e projetos finais. Eles também apresentam as palestras restantes e abordam as novas fronteiras de pesquisa que serão abordadas. O laboratório de aprendizado por reforço foi liberado e a data de entrega dos três laboratórios é amanhã à noite, mas não é necessário enviá-los para receber uma nota de aprovação. O envio de uma revisão de papel de aprendizado profundo ou uma apresentação final do projeto é necessário para obter crédito no curso. A competição final da proposta de projeto requer o envio dos nomes dos grupos até a meia-noite de hoje, e as instruções para o relatório de papel de aprendizado profundo são resumidas.

  • 00:05:00 Nesta seção, o palestrante discute a incrível programação de palestras programadas para as próximas sessões do curso. Os palestrantes convidados incluem representantes da emergente empresa de carros autônomos Innoviz, Google Research e Google Brain, Nvidia e Caltech e Rev AI. O palestrante destaca a importância de assistir às palestras de forma síncrona para garantir o pleno acesso ao conteúdo. O palestrante também recapitula o conteúdo abordado no curso até agora, enfatizando o poder dos algoritmos de aprendizado profundo e seu potencial para revolucionar uma variedade de campos. O palestrante também destaca o papel das redes neurais como poderosos aproximadores de funções, mapeando dos dados para a decisão ou vice-versa.

  • 00:10:00 Nesta seção, o palestrante discute o Teorema da Aproximação Universal, que afirma que uma rede neural feed-forward de camada única é suficiente para aproximar qualquer função contínua arbitrária com qualquer precisão. Embora esta seja uma afirmação poderosa, o teorema tem algumas ressalvas, incluindo a falta de reivindicações ou garantias sobre o número de neurônios necessários e como encontrar pesos que possam resolver o problema. Além disso, o teorema não faz afirmações sobre a generalização da rede neural além da configuração em que foi treinada. O palestrante destaca a importância de ter cuidado com a forma como esses algoritmos são comercializados e anunciados devido às possíveis preocupações que podem surgir. A seção também investiga as limitações das arquiteturas modernas de aprendizado profundo, começando com o problema de generalização e um artigo que explorou esse problema com imagens do famoso conjunto de dados ImageNet.

  • 00:15:00 Nesta seção, o vídeo discute as limitações das redes neurais profundas e sua capacidade de ajustar perfeitamente dados totalmente aleatórios. Embora as redes neurais sejam excelentes aproximadores de funções que podem ajustar algumas funções arbitrárias, mesmo que tenham rótulos aleatórios, elas são limitadas em sua capacidade de generalizar para regiões fora da distribuição onde não há garantias de como a função pode se comportar. Isso destaca a necessidade de estabelecer garantias nos limites de generalização das redes neurais e usar essas informações para informar os processos de treinamento, aprendizado e implantação. O vídeo também adverte contra a crença popular de que o aprendizado profundo é uma solução mágica para qualquer problema e enfatiza a importância de entender as limitações e suposições desses modelos.

  • 00:20:00 Nesta seção, é enfatizada a importância da qualidade dos dados usados para treinar modelos de aprendizado profundo. Um modo de falha de redes neurais é descrito por meio de um exemplo em que uma imagem em preto e branco de um cachorro foi passada por uma arquitetura de rede neural convolucional para colorização. A rede previu uma região rosa sob o nariz do cachorro, que deveria ser o pelo, devido à natureza dos dados com os quais foi treinada, que incluíam muitas imagens de cachorros com a língua para fora. O exemplo destaca o poder dos modelos de aprendizado profundo para construir representações com base nos dados que eles viram durante o treinamento. A seção então discute as consequências de encontrar exemplos do mundo real que estão fora da distribuição de treinamento, como visto em um trágico incidente envolvendo um veículo Tesla autônomo que falhou em reagir efetivamente a um acidente, resultando na morte do motorista. A importância de entender as limitações das previsões dos modelos de aprendizagem profunda, especialmente em aplicações críticas de segurança, é enfatizada.

  • 00:25:00 Nesta seção, o apresentador discute a noção de incerteza no aprendizado profundo, que é crucial para a construção de modelos neurais que podem lidar com conjuntos de dados esparsos, ruidosos ou limitados, incluindo recursos desequilibrados. Existem dois tipos de incertezas em modelos neurais profundos; incerteza aleatória e incerteza epistêmica, que podem resultar de ruído de dados, variabilidade ou teste de um exemplo fora do domínio. Essas incertezas representam a confiança do modelo em suas previsões e podem afetar sua eficácia ao lidar com diferentes tipos de dados. Além disso, exemplos adversários, que são instâncias sintéticas criadas para enganar os modelos de aprendizado profundo, apresentam um terceiro modo de falha que deve ser considerado. A palestra de Jasper sobre este tópico é altamente recomendada para explorar o debate sobre se esses dois tipos de incertezas capturam todas as possibilidades e para discutir o recente avanço da pesquisa neste campo.

  • 00:30:00 Nesta seção do vídeo, o palestrante discute o conceito de ataques adversários, onde uma perturbação é aplicada a uma imagem imperceptível aos olhos humanos, mas tem um impacto significativo na decisão de uma rede neural, resultando na classificação incorreta da imagem. A perturbação é construída de forma inteligente para funcionar efetivamente como um adversário, e as redes neurais podem ser treinadas para aprender essa perturbação. O palestrante também aborda brevemente a questão do viés algorítmico, onde modelos de rede neural e sistemas de IA podem ser suscetíveis a vieses que podem ter consequências sociais reais e prejudiciais, e estratégias para mitigar o viés algorítmico foram exploradas no segundo laboratório. Essas limitações são apenas a ponta do iceberg e há mais limitações a serem consideradas.

  • 00:35:00 Nesta seção, o palestrante discute o uso de estruturas de grafos como uma modalidade de dados para aprendizado profundo e como isso pode inspirar um novo tipo de arquitetura de rede relacionada a redes neurais convolucionais, mas diferentes. As estruturas gráficas podem representar uma ampla variedade de tipos de dados, desde redes sociais até proteínas e moléculas biológicas. As redes neurais convolucionais gráficas operam tomando um conjunto de nós e arestas como entrada em vez de uma matriz 2D e percorrendo o gráfico com um kernel de peso para extrair recursos que preservam informações sobre a relação dos nós entre si. Esse campo emergente no aprendizado profundo permite que geometrias de dados e estruturas de dados mais complicadas sejam capturadas além das codificações padrão.

  • 00:40:00 Nesta seção, o palestrante discute redes convolucionais de grafos e suas aplicações em vários domínios, incluindo química e descoberta de drogas, mobilidade urbana e previsão de COVID-19. As redes convolucionais de grafos permitem a extração de características sobre a conectividade local e a estrutura de um grafo, permitindo que o processo de aprendizado pegue pesos que possam extrair informações sobre padrões de conectividade. Além disso, o palestrante explica como as redes neurais convolucionais gráficas podem ser estendidas para conjuntos de dados de nuvem de pontos, impondo uma estrutura de gráfico na distribuição da nuvem de pontos 3D.

  • 00:45:00 Nesta seção, o palestrante discute a nova fronteira do aprendizado de máquina automatizado e aprender a aprender. O objetivo é construir um algoritmo de aprendizado que possa resolver o problema de design de arquiteturas de redes neurais e prever o modelo mais eficaz para resolver um determinado problema. A estrutura automl original usava uma configuração de aprendizado por reforço com uma rede neural controladora e um loop de feedback para melhorar iterativamente as propostas de arquitetura do modelo. Recentemente, o automl foi estendido para a busca de arquitetura neural, onde o objetivo é buscar designs e hiperparâmetros ótimos. Esse novo campo de pesquisa pode revolucionar a maneira como projetamos modelos de aprendizado de máquina e otimizamos seu desempenho.

  • 00:50:00 Nesta seção, o palestrante discute o conceito de automl (aprendizagem de máquina automática) e sua capacidade de projetar modelos de aprendizado de máquina e aprendizado profundo de alto desempenho. A ideia de automl ganhou popularidade em aprendizado de máquina moderno e pipelines de design de aprendizado profundo, particularmente em aplicativos industriais onde seus algoritmos tiveram sucesso na criação de arquiteturas com desempenho muito bom. O palestrante apresenta um exemplo de como as arquiteturas propostas por um algoritmo automl obtiveram precisão superior em uma tarefa de reconhecimento de imagem com menos parâmetros do que as projetadas por humanos. O Automl foi estendido para o conceito mais amplo de IA automática, em que todos os pipelines de processamento de dados e previsão de aprendizado são projetados e otimizados por algoritmos de IA. O palestrante conclui incentivando o público a pensar sobre as implicações de projetar IA que podem gerar novos modelos com alto desempenho em tarefas de interesse e as conexões e distinções entre aprendizagem humana, inteligência e modelos de aprendizagem profunda.
MIT 6.S191 (2022): Deep Learning New Frontiers
MIT 6.S191 (2022): Deep Learning New Frontiers
  • 2022.04.15
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 6Deep Learning Limitations and New FrontiersLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, an...
 

MIT 6.S191: LiDAR para direção autônoma



Aula 7. MIT 6.S191: LiDAR para direção autônoma

O vídeo "MIT 6.S191: LiDAR for Autonomous Driving" apresenta o desenvolvimento da tecnologia LiDAR da Innoviz para veículos autônomos, destacando os benefícios e a importância das capacidades de visibilidade e previsão do sistema. O palestrante explica os vários fatores que afetam a relação sinal-ruído do sistema LiDAR, a importância da redundância no uso do sensor e a necessidade de alta resolução e eficiência computacional na detecção de objetos relevantes para colisões. Eles também discutem os desafios das redes de aprendizado profundo na detecção e classificação de objetos, diferentes representações de dados LiDAR e a fusão de clustering e abordagens de aprendizado profundo para detecção de objetos e precisão da caixa de limite. Além disso, o vídeo aborda as compensações entre o FMCW e o LiDAR de tempo de voo. No geral, a discussão enfatiza o papel crítico do LiDAR no aumento da segurança e no futuro da direção autônoma.

  • 00:00:00 Nesta seção, o palestrante apresenta a Innoviz e seu desenvolvimento de Lidars para veículos autônomos, focando especificamente em como eles estão ajudando os fabricantes de automóveis a atingir seus objetivos no desenvolvimento de veículos autônomos. O palestrante discute o estado atual da direção autônoma e as questões de responsabilidade decorrentes de acidentes que ocorrem devido ao fato de a montadora não assumir total responsabilidade. Eles também explicam o uso da tecnologia Lidar, que usa um feixe de laser para escanear a cena e coletar fótons de objetos. O palestrante enfatiza a importância de ter uma boa visibilidade e uma previsão do que está acontecendo na estrada para uma condução autônoma bem-sucedida.

  • 00:05:00 Nesta seção, o palestrante explica como o LiDAR funciona na direção autônoma e os vários fatores que afetam a relação sinal-ruído. O sistema LiDAR usa fótons que retornam para determinar a distância dos objetos e a relação sinal-ruído é determinada pela emissão, abertura, eficiência de detecção de fótons, ruído do detector e ruído solar. O palestrante também explica como o Innoviz 2, um sistema LiDAR de segunda geração, é significativamente melhor do que qualquer outro sistema disponível no mercado porque pode cobrir um campo de visão mais amplo e alcance de distância com maior resolução. O palestrante também discute os diferentes requisitos para aplicativos de direção autônoma, como rodovias, e como o LiDAR pode oferecer suporte a esses aplicativos.

  • 00:10:00 Nesta seção, o palestrante explica por que a redundância é importante na direção autônoma, principalmente ao lidar com limitações de sensores como câmeras, que podem ser obstruídos por água ou luz solar direta. Um bom sistema de direção autônoma não apenas oferece segurança, mas também dirige suavemente para evitar que os passageiros fiquem exaustos. Os requisitos do nível três envolvem ter a capacidade de ver a frente do veículo para fazer acelerações, freios e manobras suaves. O palestrante aborda brevemente requisitos como campo de visão e projeção da trajetória de um objeto, lembrando que maior resolução permite que o sensor identifique melhor os objetos. Por fim, o alto-falante fornece um caso de uso para frenagem de emergência a 80 milhas por hora.

  • 00:15:00 Nesta seção, o palestrante discute a importância da resolução vertical do LiDAR e como isso afeta a tomada de decisão em veículos autônomos. Eles explicam que ter dois pixels para identificar um objeto alto é necessário para maior clareza e que, mesmo que o LiDAR tivesse o dobro do alcance, não necessariamente ajudaria na tomada de decisões se houvesse apenas um pixel. Eles discutem ainda o impacto de taxas de quadros mais altas e resolução vertical dupla, que podem identificar obstáculos a uma distância maior, e enfatizam que esses parâmetros são críticos para a segurança dos veículos autônomos. O palestrante também discute brevemente os esforços da empresa para desenvolver um sistema LiDAR de 360 graus econômico e de alta resolução. Por fim, a seção termina com a discussão de um algoritmo simples que pode detectar pontos relevantes para colisões em uma nuvem de pontos.

  • 00:20:00 Nesta seção, o palestrante explica um algoritmo simples para detectar objetos relevantes para colisões usando a tecnologia LiDAR. Ao medir a diferença de altura entre pares de pontos em uma nuvem de pontos, objetos que estão a 40 centímetros ou mais acima do solo podem ser facilmente detectados. O algoritmo pode detectar objetos que podem não estar representados em um conjunto de treinamento, como caminhões de bombeiros ou objetos em diferentes regiões do mundo. O palestrante mostra exemplos de como esse algoritmo pode detectar caminhões virados e pequenos objetos como pneus a distâncias. No entanto, embora a detecção de objetos estáticos seja importante, também é importante entender a dinâmica dos objetos em movimento para prever como eles se moverão no futuro.

  • 00:25:00 Nesta seção, o foco está nos desafios de detectar e classificar objetos como pedestres usando redes de aprendizado profundo, particularmente em cenários onde a aparência de objetos como pernas e torso não é óbvia ou os objetos estão muito distantes. O Lidar é uma tecnologia útil nesses cenários, pois ainda pode classificar e agrupar objetos, pois não é crítico ver sua aparência. Este algoritmo de agrupamento pode ser aplicado em ambientes de cenários reais como dirigir, mas sua instabilidade e ambiguidade apontadas pelo exemplo de um objeto que pode ser classificado como dois objetos diferentes, dificultam a construção de um sistema robusto e útil para o pilha de veículos autônomos de nível superior. Portanto, a análise semântica permanece crítica para o sistema completo. Compreender a natureza não estruturada e a dispersão dos dados da nuvem de pontos também é essencial durante o processamento de dados.

  • 00:30:00 Nesta seção, o palestrante discute diferentes representações de dados LiDAR que podem ser usadas para direção autônoma, incluindo representações estruturadas que se assemelham a imagens e voxelização onde os dados são divididos em volumes menores. O desafio das representações estruturadas é que pode ser difícil explorar as características de medição 3D das nuvens de pontos, enquanto com a voxelização é possível entender as informações de oclusão, que podem ser adicionadas como uma camada extra na rede para um processamento eficiente. O palestrante enfatiza a importância da eficiência computacional na direção autônoma e no processamento na borda, onde a eficiência pode definir a solução.

  • 00:35:00 Nesta seção, o palestrante discute os principais elementos do sistema Lidar para direção autônoma, usando o exemplo da detecção de uma motocicleta na faixa do veículo. Para detectar e rastrear a motocicleta com precisão, é fundamental ter uma caixa delimitadora em torno dela que seja semanticamente precisa e computacionalmente eficiente. A solução é uma fusão entre as abordagens de aprendizado profundo e agrupamento, combinando o melhor dos dois métodos para criar uma lista de objetos sólida e interpretável para a saída da pilha, o que é importante para sistemas críticos de segurança. A saída fundida fornece caixas de limite precisas com classes, resultando em uma integração mais perfeita do Lidar e do software de percepção na unidade de processamento de um carro.

  • 00:40:00 Nesta seção, o palestrante discute o uso do LiDAR para direção autônoma e como ele pode ajudar a melhorar a segurança ao fornecer informações redundantes do sensor. Eles explicam que as condições climáticas, como a chuva, têm pouco impacto no desempenho do LiDAR, enquanto a neblina pode causar alguma atenuação da luz. O palestrante também aborda questões sobre falsos positivos e o que torna seu LiDAR um ajuste melhor para esta aplicação, destacando as vantagens e desvantagens entre diferentes parâmetros e o alto SNR geral de seu sistema. Eles discutem os desafios do treinamento de classificadores para direção autônoma e a importância do aprendizado ativo para garantir a anotação eficaz dos dados.

  • 00:45:00 Nesta seção, o palestrante discute os diferentes campos no espaço LiDAR, como comprimento de onda, modulação a laser e mecanismo de varredura. Eles então se aprofundam na questão do FMCW versus tempo de voo, afirmando que o FMCW é benéfico para medir a velocidade diretamente, mas é limitado pela necessidade de usar 1550 e o forte acoplamento entre a taxa de quadros de alcance e o campo de visão. Por outro lado, o tempo de voo pode calcular bem a velocidade com alta resolução e alta taxa de quadros, mas a compensação entre parâmetros como resolução, alcance, campo de visão e taxa de quadros vem antes do requisito de velocidade. Os palestrantes também mencionam que vendem seus sensores para montadoras e além, incluindo academia, construtoras, cidades inteligentes e vigilância.
MIT 6.S191: LiDAR for Autonomous Driving
MIT 6.S191: LiDAR for Autonomous Driving
  • 2022.04.22
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 7Deep Learning for Autonomous DrivingLecturer: Omer Keilaf (CEO) and Amir Day (Head of CV & DL)Innoviz Tech...
 

MIT 6.S191: Reconhecimento Automático de Fala



Aula 8. MIT 6.S191: Reconhecimento Automático de Fala

Neste vídeo, o cofundador da Rev explica a missão da empresa de conectar pessoas que transcrevem, legendam ou legendam mídia com clientes que precisam de serviços de transcrição. A Rev usa o ASR para alimentar seu mercado, transcrevendo mais de 15.000 horas de dados de mídia por semana e oferece sua API para que os clientes criem seus próprios aplicativos de voz. O novo modelo ASR end-to-end de aprendizagem profunda desenvolvido pela Rev alcança uma melhoria significativa no desempenho em comparação com seu antecessor, mas ainda há espaço para melhorias, pois o ASR não é um problema completamente resolvido, mesmo em inglês. O palestrante discute diferentes técnicas para lidar com o viés em conjuntos de dados, preparando dados de áudio para treinamento e abordagens para resolver problemas com o modelo de ponta a ponta.

  • 00:00:00 Nesta seção, Miguel, o co-fundador da Rev, descreve a história e a missão da empresa, que é criar empregos de trabalho em casa para pessoas alimentadas por IA. Rev é um mercado de dois lados que conecta pessoas que transcrevem, legendam ou legendam mídia com clientes que precisam de serviços de transcrição. Com mais de 170.000 clientes e mais de 60.000 funcionários, o Rev transcreve mais de 15.000 horas de dados de mídia por semana, tornando-se uma fonte significativa de dados de treinamento para modelos de reconhecimento automático de fala (ASR). A Rev usa o ASR para alimentar seu mercado e oferece sua API para que os clientes criem seus próprios aplicativos de voz. Jenny, que lidera o desenvolvimento do projeto ASR de aprendizado profundo na Rev, explica o desempenho do modelo ASR de aprendizado profundo de ponta a ponta e as opções de modelagem que foram usadas em seu desenvolvimento.

  • 00:05:00 Nesta seção, o palestrante discute o desenvolvimento de um sistema de reconhecimento automático de fala (ASR) de ponta a ponta e o lançamento da versão dois dele pelo Rev. Eles compararam seu novo modelo com a versão um de seu híbrido arquitetura, bem como a vários concorrentes. Os modelos foram avaliados com um conjunto de dados de referência de chamadas de ganhos que foram transcritas por transcritores humanos, com taxa de erro de palavra como a principal métrica. Os resultados mostram que o novo modelo alcança melhorias significativas no desempenho, principalmente no reconhecimento de nomes e pessoas de organizações. No entanto, ainda há espaço para melhorias, pois o ASR não é um problema completamente resolvido, mesmo em inglês, e a taxa de erro ainda é bastante alta no geral. O palestrante também apresenta os resultados de um conjunto de dados de código aberto que examina o viés dos sistemas ASR em diferentes nacionalidades.

  • 00:10:00 Nesta seção, o palestrante enfatiza a importância dos dados no desenvolvimento e melhoria dos modelos de reconhecimento automático de fala (ASR). Embora a empresa tenha acesso a uma grande quantidade de dados de vários países de língua inglesa, a equipe também enfrenta o desafio de lidar com o viés nos modelos, como um bom desempenho com sotaques escoceses, mas fraco com sotaques irlandeses. O palestrante explica o processo de desenvolvimento de um modelo ASR end-to-end para reconhecimento de fala, destacando a dificuldade de ter que aprender quais informações no sinal de áudio são relevantes para a tarefa. O objetivo da empresa é produzir um modelo que possa lidar com qualquer áudio enviado ao rev.com, tornando-o um problema maior e mais desafiador do que o que normalmente é visto na academia. A decisão da equipe de usar apenas transcrições literais para treinamento também é discutida, pois é crucial para a precisão do modelo.

  • 00:15:00 Nesta seção, o palestrante discute como preparar dados de áudio para treinar um modelo de reconhecimento de fala. Os longos arquivos de áudio e transcrições são divididos em frases únicas ou segmentados arbitrariamente com detecção de atividade de voz. O áudio é então processado em um espectrograma com vetores, transformando-o em um sinal unidimensional que pode ser alimentado a uma rede neural para aprender recursos dele. O modelo também precisa decidir como dividir os dados de texto, e o campo decidiu usar unidades de subpalavras ou unidades de palavras. Por fim, o palestrante menciona brevemente o uso da escala mel, técnica utilizada para melhor modelar a percepção auditiva humana em diferentes faixas de frequência.

  • 00:20:00 Nesta seção, o palestrante discute o uso da escala Mel no reconhecimento de fala, que imita a forma como o ouvido humano processa o áudio. Embora existam modelos de redes neurais que podem aprender esses filtros, é mais simples para a equipe manipulá-los por meio do processamento de sinais em vez de incluí-los na rede. O palestrante também explica com atenção o modelo codificador-decodificador, que produz saída uma unidade por vez e é condicionado a embeddings do áudio de entrada. O modelo executa a amostragem no início e usa redes neurais recorrentes ou transformadores como a camada real.

  • 00:25:00 Nesta seção, o palestrante discute o uso de "conformer" em modelos de reconhecimento automático de fala (ASR), que é uma abordagem mais eficiente do que o modelo de transformador tradicional. Embora os modelos ASR baseados em atenção tenham mostrado uma precisão impressionante, eles não são práticos para aplicações comerciais devido à velocidade e às compensações de custo de computação. Em vez disso, o palestrante recomenda usar o algoritmo chamado classificação temporal conexionista (CTC) para ASR, que é melhor quando o alinhamento entre a entrada e a saída é monotônico e a sequência de saída tem o mesmo comprimento ou é menor que a sequência de entrada. O CTC é uma função de perda e um algoritmo de decodificação que se baseia em um modelo de aprendizado profundo e requer uma camada de saída softmax. As saídas são geradas todas de uma vez, tornando-o mais rápido que o modelo tradicional de codificador-decodificador com atenção.

  • 00:30:00 Nesta seção do vídeo, o palestrante discute o conceito de Classificação Temporal Conexionista (CTC), que é um método utilizado para reconhecimento de fala. O método CTC envolve a soma das probabilidades de log nas saídas softmax para cada etapa de tempo e, em seguida, calcula a probabilidade de uma sequência de rótulos mais curta a partir das mais longas. O método CTC vem com um algoritmo de programação dinâmica eficiente que é usado para calcular a probabilidade de uma sequência. Embora o CTC possa não ser tão poderoso quanto outros modelos, ele pode ser mais rápido e melhor em determinadas condições. Para melhorar a precisão, um modelo de linguagem treinado externamente pode ser adicionado, mas não é mais um modelo de ponta a ponta.

  • 00:35:00 Nesta seção, o palestrante discute a compensação entre precisão e velocidade ou custo computacional na obtenção de probabilidades de modelos de linguagem. Eles explicam a possibilidade de adicionar um modelo de linguagem como parte de um modelo de rede neural profunda, chamado transdutor, que pode caber no orçamento de computação de um sistema de produção, assumindo que a previsão e a rede conjunta são relativamente pequenas e não muito caras. O palestrante também fala sobre o CTC conjunto e o modelo de atenção usado pelo REV, que provou ser uma das arquiteturas ASR de melhor desempenho. Eles também abordam a questão do viés nos conjuntos de dados e mencionam as estratégias que estão explorando, como fazer mais uso de transcritores humanos para ajudar a equilibrar os dados de treinamento.

  • 00:40:00 Nesta seção, os palestrantes discutem possíveis estratégias para resolver problemas com o modelo de ponta a ponta, incluindo etapas de pós-processamento e mineração de dados para rebalanceamento. Eles também mencionam técnicas como a aprendizagem curricular que podem explorar em suas pesquisas. Além disso, eles esclarecem que estão usando CTC com um modelo de linguagem n-gram como primeira passagem e um modelo conformer como codificador para CTC e os embeddings alimentados para o decodificador de atenção. Eles fornecem seus endereços de e-mail para qualquer pessoa que queira contatá-los com perguntas ou para discutir ASR em geral.
MIT 6.S191: Automatic Speech Recognition
MIT 6.S191: Automatic Speech Recognition
  • 2022.05.02
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 8How Rev.com harnesses human-in-the-loop and deep learning to build the world's best English speech recogni...
 

MIT 6.S191: IA para a ciência



Aula 9. MIT 6.S191: AI for Science

O vídeo MIT 6.S191: AI for Science explora os desafios do uso de métodos de computação tradicionais para resolver problemas científicos complexos e a necessidade de aprendizado de máquina para acelerar as simulações. O palestrante discute a necessidade de desenvolver novos métodos de ML que possam capturar fenômenos de escala fina sem overfitting para pontos discretos e descreve várias abordagens para resolver equações diferenciais parciais (PDEs) usando operadores neurais e transformadas de Fourier. Eles também abordam a importância de manter as informações de fase e amplitude no domínio da frequência e adicionar leis físicas como funções de perda ao resolver problemas inversos com PDEs. Além disso, a possibilidade de usar IA para aprender equações simbólicas e descobrir novas físicas ou leis, a importância da quantificação de incertezas, escalabilidade e considerações do lado da engenharia para aumentar a escala de aplicativos de IA são abordadas. O vídeo termina incentivando as pessoas a buscar projetos legais com IA.

  • 00:00:00 O palestrante discute o papel do projeto principal de algoritmos de IA em domínios desafiadores, com foco em IA para a ciência. Há uma necessidade de construir uma linguagem e uma base comuns entre especialistas de domínio e especialistas em IA, e a necessidade de desenvolver novos algoritmos para IA para a ciência. O principal desafio é a necessidade de extrapolação ou generalização zero-shot, o que significa fazer previsões em amostras que parecem muito diferentes dos dados de treinamento. Isso requer levar em consideração as prioridades, restrições e leis físicas do domínio e não pode ser puramente orientado por dados. A necessidade de computação está crescendo exponencialmente na computação científica, e a IA pode ser útil para ajudar a enfrentar as mudanças climáticas e modelar o mundo real em uma escala fina.

  • 00:05:00 Nesta seção do vídeo, o palestrante discute os desafios do uso de métodos tradicionais de computação para resolver problemas científicos complexos, como simulação de moléculas ou previsão de mudanças climáticas. Mesmo com supercomputadores, levaria muito mais tempo do que a idade do universo para calcular a equação de Schrödinger para uma molécula contendo 100 átomos. Assim, existe a necessidade de aprendizado de máquina para acelerar essas simulações e torná-las orientadas por dados. No entanto, os métodos atuais de aprendizado profundo têm limitações, como excesso de confiança ao fazer previsões erradas, o que pode levar a decisões incorretas e potencialmente caras. O palestrante enfatiza a necessidade de desenvolver novos métodos de aprendizado de máquina que possam capturar fenômenos de escala fina sem sobreajustar a pontos discretos.

  • 00:10:00 Esta parte discute os desafios do desenvolvimento de modelos de IA que podem capturar fenômenos contínuos e modelagem molecular em uma resolução invariante e de maneira simétrica. Eles observam que grandes modelos de IA podem ajudar a capturar fenômenos complexos, como o clima da Terra, e a maior disponibilidade de dados e supercomputadores maiores contribuem para sua eficácia. O palestrante também discute os desafios do projeto algorítmico ao resolver equações diferenciais parciais e que as redes neurais padrão não podem ser usadas diretamente, especialmente ao resolver uma família de equações diferenciais parciais, como fluxo de fluido, onde o modelo precisa aprender o que acontece sob diferentes condições iniciais.

  • 00:15:00 Nesta seção, o palestrante discute o problema de resolver equações diferenciais parciais (PDEs) e como ele difere do aprendizado supervisionado padrão. O desafio é que as soluções PDE não são fixadas em uma resolução, então é necessário um framework que possa resolver qualquer resolução. O palestrante explica como resolver PDEs requer encontrar a solução com determinadas condições iniciais e de contorno e ilustra como isso pode ser feito inspirando-se na resolução de PDEs lineares, especificamente o exemplo da fonte de calor. O princípio do operador linear é usado compondo-o com não linearidade para configurar uma rede neural para aprendizado de máquina. No entanto, a entrada é de dimensão infinita e contínua, portanto, uma solução prática é necessária, e o palestrante propõe projetar os operadores lineares inspirados na resolução de equações diferenciais parciais lineares.

  • 00:20:00 Nesta seção, o palestrante discute o conceito de usar um operador neural para resolver equações diferenciais parciais (PDEs), sejam elas lineares ou não lineares. A ideia envolve aprender como fazer integração em várias camadas para criar um operador neural que possa aprender em dimensões infinitas. A arquitetura prática necessária para alcançar isso é desenvolvida por meio de uma convolução global por meio de transformadas de Fourier, que permite capturar correlações globais. A arquitetura opera transformando o sinal para o espaço de Fourier e aprendendo pesos sobre como alterar os pesos de frequência. Isso oferece uma formulação muito simples, estável e que proporciona expressividade. Além disso, o palestrante observa que a abordagem é baseada em vieses indutivos específicos de domínio, permitindo computação eficiente em campos como fluxos de fluidos.

  • 00:25:00 O palestrante explica que o uso de transformadas de Fourier permite o processamento em qualquer resolução e melhora a generalização em diferentes resoluções em comparação com filtros convolucionais que aprendem apenas em uma resolução. Eles também discutem como os princípios dessa abordagem, que envolvem resolver a convolução global por meio de transformadas não lineares juntas, resultam em um modelo expressivo. Eles respondem a algumas perguntas do público sobre a generalização da implementação e os benefícios de treinar um modelo que é invariante na resolução. O palestrante mostra os resultados da implementação dessa abordagem nos dados de Navier-Stokes, demonstrando que ela é capaz de capturar bem as altas frequências e pode melhorar os resultados mesmo extrapolando para resoluções mais altas do que os dados de treinamento.

  • 00:30:00 Esta parte discute a importância de manter as informações de fase e amplitude no domínio da frequência, em vez de apenas a amplitude. Se estiver usando números complexos em redes neurais, é importante verificar possíveis bugs nas atualizações de gradiente para algoritmos como adam. O palestrante sugere adicionar leis da física como funções de perda a soluções como equações diferenciais parciais (PDEs), pois faz sentido verificar se a solução está próxima de satisfazer as equações. Ao treinar em muitas instâncias de problemas diferentes e confiar em pequenas quantidades de dados de treinamento, o equilíbrio entre ser informado por dados ou por física pode criar uma boa compensação e produzir capacidades de generalização. Além disso, o palestrante aborda a utilidade de resolver problemas inversos com PDEs.

  • 00:35:00 Esta parte discute a ideia de resolver problemas inversos por meio do aprendizado de máquina. Isso envolve aprender um solucionador de equação diferencial parcial de maneira avançada e, em seguida, invertê-lo para encontrar o melhor ajuste, em vez de depender de métodos caros, como o MCMC. O palestrante também aborda o tema do caos e sua conexão com os transformadores, destacando a substituição do mecanismo de atenção por modelos de operadores neurais de Fourier para melhor eficiência. Várias aplicações dessas diferentes estruturas são discutidas, incluindo previsão do tempo, clima e previsão de estresse em materiais. A questão de saber se os operadores neurais podem ser usados para vários domínios de aplicação semelhantes a redes pré-treinadas também é colocada. Embora o palestrante reconheça a importância das leis físicas universais, sugere-se que treinar um modelo para entender física, química e biologia ainda é um desafio difícil.

  • 00:40:00 Nesta seção do vídeo, o palestrante discute a possibilidade de usar IA para aprender equações simbólicas e descobrir novas leis ou física, embora isso possa ser um desafio. Eles também abordam a importância da quantificação da incerteza para modelos de aprendizado profundo, escalabilidade e considerações do lado da engenharia para aumentar a escala de aplicativos de IA. Além disso, eles mencionam o potencial para outros tópicos, como o uso de autoatenção em modelos transformadores e modelos generativos para redução de ruído. No geral, a palestra visa fornecer uma boa base sobre aprendizado profundo e incentivar os indivíduos a buscar projetos interessantes com IA.
MIT 6.S191: AI for Science
MIT 6.S191: AI for Science
  • 2022.05.13
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 9AI for ScienceLecturer: Anima Anandkumar (Director of ML Research, NVIDIA)NVIDIA ResearchJanuary 2022For a...
 

MIT 6.S191: Incerteza em Deep Learning



Aula 10. MIT 6.S191: Incerteza em Deep Learning

O palestrante Jasper Snoek (cientista de pesquisa, Google Brain) discute a importância da incerteza e da robustez fora da distribuição em modelos de aprendizado de máquina, principalmente em áreas como saúde, carros autônomos e sistemas de diálogo conversacional. Ao expressar incerteza nas previsões, os modelos podem fornecer aos médicos ou humanos mais informações para tomar decisões ou pedir esclarecimentos, melhorando a utilidade geral do sistema. O palestrante também apresenta a ideia de incerteza do modelo e as fontes de incerteza, enfatizando que modelos que reconhecem suas próprias limitações podem ser ainda mais úteis.

  • 00:00:00 Nesta seção do vídeo, o palestrante discute a importância da estimativa de incerteza prática e robustez fora da distribuição no aprendizado profundo. A estimativa de incerteza envolve retornar uma distribuição sobre as previsões, em vez de apenas uma única previsão para fornecer um rótulo com sua confiança ou uma média com sua variância. A robustez fora da distribuição é necessária porque, embora os algoritmos de aprendizado de máquina geralmente sejam treinados em conjuntos de dados independentes e distribuídos de forma idêntica a partir do mesmo conjunto de dados, os modelos implantados geralmente encontram novos dados, que têm uma distribuição diferente. Isso pode incluir entradas diferentes ou rótulos diferentes. O palestrante apresenta experimentos mostrando que os modelos de aprendizado profundo lutam com mudanças nos conjuntos de dados durante a implantação e cometem erros de excesso de confiança quando confrontados com essas mudanças de distribuição.

  • 00:05:00 Nesta seção, o palestrante discute a importância da incerteza e da robustez fora da distribuição em modelos de aprendizado de máquina, principalmente em áreas como saúde, carros autônomos e sistemas de diálogo conversacional. Ao expressar incerteza nas previsões, os modelos podem fornecer aos médicos ou humanos mais informações para tomar decisões ou pedir esclarecimentos, melhorando a utilidade geral do sistema. O palestrante também apresenta a ideia de incerteza do modelo e as fontes de incerteza, enfatizando que modelos que reconhecem suas próprias limitações podem ser ainda mais úteis.

  • 00:10:00 O palestrante discute as duas principais fontes de incerteza no aprendizado profundo: epistêmica e aleatória. A incerteza epistêmica é a incerteza do que pode ser o modelo verdadeiro, que pode ser reduzido com mais coleta de dados. A incerteza aleatória refere-se à incerteza que é inerente aos dados e é frequentemente conhecida como incerteza irredutível. Os especialistas geralmente confundem os dois tipos de incerteza. O vídeo também observa que uma maneira popular de medir a qualidade da incerteza em modelos de aprendizado profundo é por meio da noção de erro de calibração. O vídeo fornece um exemplo de erro de calibração para previsão do tempo e destaca uma desvantagem da calibração, que é a falta de noção de precisão incorporada.

  • 00:15:00 Nesta seção, Jasper Snoek discute a importância de obter uma boa noção de incerteza dos modelos e como extraí-la. Eles explicam que toda função de perda corresponde a um máximo, portanto, minimizar uma função de perda corresponde a maximizar uma probabilidade ou maximizar uma probabilidade logarítmica dos dados dados os parâmetros do modelo. O palestrante destaca a importância de uma regra de pontuação adequada que dê uma ideia de quão boa era a incerteza e discute o conceito de entropia cruzada softmax com regularização L2. Eles também explicam que uma distribuição pode ser obtida para p theta dado xy, obtendo múltiplos bons modelos ou calculando o posterior, que é uma distribuição condicional dos parâmetros dadas as observações.

  • 00:20:00 Esta parte discute o aprendizado profundo bayesiano, que envolve a computação de probabilidades no tempo de previsão dados os parâmetros. Um posterior é usado para ponderar cada configuração de parâmetros em uma integral que é agregada para obter previsões. Na prática, várias amostras são coletadas e as previsões são agregadas em um conjunto de amostras discretas para obter uma distribuição de modelos em vez de apenas um único. Isso fornece uma incerteza interessante à medida que você se afasta dos dados, porque diferentes hipóteses são formadas sobre como será o comportamento dos dados à medida que você se afasta. Existem muitas maneiras de aproximar a integral sobre todos os parâmetros porque geralmente é muito caro fazer de forma fechada ou exatamente para redes profundas. O agrupamento, que é pegar um monte de modelos treinados independentemente e formar uma distribuição de mistura, também é discutido, pois fornece melhores previsões e incertezas do que apenas um único.

  • 00:25:00 Nesta parte , Jasper Snoek discute diferentes estratégias para melhorar a incerteza dos modelos de aprendizado profundo. Eles mencionam debates entre especialistas sobre se os ensembles são bayesianos ou não, com o orador caindo no campo "não bayesiano". Eles também explicam algumas dificuldades com modelos bayesianos em redes neurais profundas, como exigir integrais de alta dimensão e a necessidade de especificar uma classe bem definida de modelos que podem ser difíceis de determinar para redes profundas. Apesar dessas dificuldades, eles discutem alguns métodos populares e eficazes para melhorar a incerteza, incluindo recalibração por escala de temperatura, dropout de Monte Carlo e ensembles profundos. Eles também mencionam os conjuntos de hiperparâmetros como uma estratégia que funciona ainda melhor do que os conjuntos profundos.

  • 00:30:00 Esta parte discute diferentes métodos para otimizar modelos de aprendizado profundo e torná-los mais eficientes, principalmente ao lidar com modelos grandes e de baixa latência. A primeira abordagem discutida é o agrupamento, que envolve a combinação de vários modelos independentes para gerar um conjunto mais diversificado de previsões. Outra abordagem é usar o SWAG, que otimiza via SGD e ajusta um gaussiano ao redor das iterações de peso médio. A discussão então muda para o dimensionamento, que é uma questão particularmente importante, visto que muitos modelos de aprendizado profundo são grandes e difíceis de encaixar no hardware. O palestrante discute um método chamado "batch ensemble" que usa fatores de classificação um para modular um único modelo, produzindo quase o mesmo desempenho de um conjunto completo com apenas cinco por cento do número de parâmetros de um único modelo.

  • 00:35:00 Nesta seção, Jasper Snoek discute a ideia de transformar o método batch ensemble em um método bayesiano aproximado. Isso pode ser obtido através do uso de uma distribuição sobre fatores e da amostragem desses fatores durante a previsão, que pode corresponder a uma distribuição binária ou outras distribuições interessantes que modulam os pesos do modelo. Outras abordagens para métodos bayesianos incluem ser bayesiano em um subespaço e forçar as redes neurais a prever várias entradas e saídas, o que leva a previsões diversas e curiosamente precisas. O uso de modelos pré-treinados em grande escala também é discutido como uma mudança de paradigma para aprendizado de máquina, onde uma outra distribuição gigante pode ser acessada para melhorar a precisão e a incerteza.

  • 00:40:00 O vídeo discute a importância da incerteza e robustez no aprendizado profundo e como o pré-treinamento pode ajudar a obter toda a distribuição. O autor menciona que, à medida que o poder de computação aumenta, há novas maneiras de olhar para a fronteira, o que é promissor para obter uma melhor incerteza de nossos modelos. Também há discussão sobre o uso da incerteza para fechar a lacuna da realidade em aplicativos sim-para-reais, mas é apontado que a incerteza e a robustez são incrivelmente importantes nessas aplicações, embora os detalhes não sejam claros.

  • 00:45:00 Nesta seção, Jasper Snoek discute a aplicação potencial de medidas de incerteza em modelos de AI downstream, particularmente usando incerteza para melhorar modelos preditores. Eles exploram os desafios de transmitir incerteza a usuários não especialistas e a importância de usar a incerteza para melhorar a perda de decisão a jusante, particularmente em áreas como medicina e carros autônomos. Eles também abordam a falta de implementações acessíveis e fáceis de usar de redes neurais bayesianas, que seu grupo está trabalhando para resolver por meio de sua biblioteca de código aberto, linhas de base de incerteza.
MIT 6.S191: Uncertainty in Deep Learning
MIT 6.S191: Uncertainty in Deep Learning
  • 2022.05.28
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 10Uncertainty in Deep LearningLecturer: Jasper Snoek (Research Scientist, Google Brain)Google BrainJanuary ...
 

Inteligência Artificial: a última invenção da humanidade



Inteligência Artificial: a última invenção da humanidade

O vídeo "Inteligência artificial: a última invenção da humanidade" explora os avanços e os riscos potenciais associados ao desenvolvimento da inteligência artificial (IA). O vídeo destaca o AlphaGo do Google DeepMind, que ultrapassou séculos de conhecimento estratégico humano em apenas 40 dias. Ele mergulha nas diferenças entre IA fraca e forte e discute como a IA avançada pode levar a uma singularidade tecnológica, onde ela se aprimora continuamente e se torna bilhões de vezes mais inteligente que os humanos. O palestrante enfatiza a importância de dar à IA valores e princípios humanos e adverte contra a criação de um sistema incontrolável. O vídeo conclui enfatizando a necessidade de considerar cuidadosamente as consequências do desenvolvimento de IA superinteligente antes de fazê-lo.

  • 00:00:00 Esta parte explica a complexidade do jogo de tabuleiro Go, que não pode ser resolvido por força bruta ou previsto, e tem mais de 10 para 170 movimentos possíveis. O AlphaGo do Google DeepMind foi treinado usando dados de jogos Go humanos reais onde aprendeu as técnicas utilizadas e fez novas que ninguém nunca tinha visto, o que já era impressionante por si só. Um ano após a vitória do AlphaGo, o AlphaGo Zero venceu o AlphaGo por 100 a 0 usando as regras básicas desde que aprendeu a jogar sem interação humana, que ultrapassou mais de 2.500 anos de estratégia e conhecimento em apenas 40 dias. O vídeo destaca a quantidade significativa de conhecimento não humano à medida que a tecnologia continua a se desenvolver; haverá um ponto em que os humanos representarão a minoria da inteligência e não haverá um botão para desligar a IA.

  • 00:05:00 Nesta seção, o vídeo discute as redes neurais e como as máquinas aprendem com os dados e adaptam sua própria visão deles. Ele também explora a diferença entre as capacidades do cérebro humano e dos computadores. Por exemplo, os computadores podem realizar 20.000 anos de pesquisa em nível humano em apenas uma semana. Além disso, é explorada a natureza exponencial do aprendizado de máquina, o que significa que ele começa devagar, mas atinge um ponto de inflexão em que as coisas começam a acelerar drasticamente. A diferença entre IA fraca e forte é apontada; enquanto o primeiro requer menos energia, a diferença entre o último e a IA superinteligente é milhões de vezes maior. A importância de uma IA forte, que tem o potencial de nos ajudar a atingir o nível de superinteligência em apenas alguns meses, é, portanto, enfatizada.

  • 00:10:00 O palestrante discute como a IA avançada pode levar a uma singularidade tecnológica onde ela se aprimora continuamente e se torna bilhões de vezes mais inteligente que os humanos. O palestrante enfatiza a necessidade de ter cuidado com a forma como fazemos IA, pois ela pode se tornar incontrolável se não dermos a ela valores e princípios semelhantes aos humanos. O palestrante explica como a IA com apenas inteligência, mas não com sabedoria, pode tomar decisões que não são necessariamente éticas ou boas para os humanos. O palestrante também apresenta o Neuralink, que visa criar um laço neural que nos dará acesso de alta velocidade à internet e nos permitirá acessar todas as informações disponíveis para o mundo instantaneamente.

  • 00:15:00 Nesta seção, exploramos as possíveis incertezas e riscos que acompanham a criação de um sistema artificialmente inteligente. Há muitas questões a serem consideradas, como como a consciência pode ser programada e como emoções como amor e ódio podem ser replicadas. Além disso, a possibilidade de uma IA superinteligente adotar visões radicais e se comprometer com sua agenda, em vez do que foi programada para fazer. Enquanto o progresso da computação está diminuindo, uma IA superinteligente ainda tem o potencial de ajudar a humanidade a atingir seu auge, mas também ser uma arma nas mãos erradas. É um tema que deve ser levado a sério, e as consequências da segurança de tal sistema devem ser consideradas antes de sua criação.
Artificial Intelligence: Mankind's Last Invention
Artificial Intelligence: Mankind's Last Invention
  • 2018.10.05
  • www.youtube.com
Artificial Intelligence: Mankind's Last Invention - Technological Singularity ExplainedPart 2: https://www.youtube.com/watch?v=zuXNlTJb_FMFollow me on Instag...
 

A Revolução da Inteligência Artificial do Canadá - Dra. Joelle Pineau



A Revolução da Inteligência Artificial do Canadá - Dra. Joelle Pineau

A Dra. Joelle Pineau discute os avanços e desafios no campo da inteligência artificial (IA), destacando o papel do aprendizado de máquina e da visão computacional no progresso da pesquisa de IA. Ela apresenta seu próprio trabalho na otimização de tratamentos para epilepsia usando terapia de estimulação neural e aprendizado por reforço. O Dr. Pineau também discute os impactos socioeconômicos da IA, observando a necessidade de colaboração entre pesquisadores de IA e pesquisadores médicos de domínio específico para otimizar o tratamento. Ela enfatiza a importância de preparar a educação da próxima geração em habilidades de matemática, ciências e computação para atender à demanda de incorporar mais perspectivas técnicas no currículo. No entanto, ela também reconhece desafios no campo, como questões de viés nos dados e questões de privacidade e segurança com relação aos dados. O Dr. Pineau, em última análise, vê a IA como tendo o potencial de revolucionar vários campos, como saúde e robótica, e espera o futuro dos sistemas autônomos que podem operar com segurança e eficácia em ambientes centrados no ser humano.

Ela também destaca a necessidade de trazer diversas perspectivas para o campo da inteligência artificial (IA) para expandir a tecnologia e menciona iniciativas como a AI for Good na McGill que treina jovens mulheres em IA. No entanto, ela observa a necessidade de medir seu impacto e treinar mais pessoas em IA rapidamente para superar o gargalo no desenvolvimento de IA devido à falta de talento. Pineau enfatiza a importância de ter uma força de trabalho diversificada e bem treinada para avançar no campo da IA. O vídeo termina com Pineau anunciando um próximo evento com Michele Lamont no hotel Omni King Edward em 14 de novembro.

  • 00:00:00 Nesta seção do vídeo, o Dr. Alan Bernstein apresenta o Instituto Canadense de Pesquisa Avançada (CFR), uma organização de pesquisa global que reúne os melhores pesquisadores para abordar questões importantes que a humanidade enfrenta. Um dos programas bem-sucedidos do CFR é a inteligência artificial (IA), cujo pioneiro foi um bolsista do CFR em 2002. A Dra. Joelle Pineau, palestrante da noite, investiga as implicações da IA na sociedade e as preocupações éticas que cercam seu desenvolvimento.

  • 00:05:00 Nesta seção, o palestrante discute o empolgante progresso feito no campo da inteligência artificial, incluindo o desenvolvimento de carros autônomos e agentes de conversação. Embora a IA ainda não esteja totalmente integrada em nossas vidas diárias, a tecnologia já começou a impactar a forma como interagimos com o mundo digital. O palestrante também destaca o papel do aprendizado de máquina e da visão computacional no avanço da pesquisa de IA e o potencial da IA para revolucionar vários campos, como saúde e robótica.

  • 00:10:00 Nesta seção, aprendemos sobre o impacto das habilidades cognitivas da inteligência artificial e como ela está revolucionando a economia e a sociedade. O desenvolvimento da IA é um processo contínuo, mas criamos máquinas com módulos para planejamento, compreensão da linguagem natural e processamento de imagens. Os desafios estão à frente na construção de uma IA melhor e que integre perfeitamente essas diferentes habilidades. Houve uma mudança na abordagem da IA nos últimos anos, com máquinas sendo treinadas por meio de exemplos em vez de uma filosofia programática. Avanços na visão computacional melhoraram nossa capacidade de entender imagens, levando a avanços na tecnologia, como carros autônomos.

  • 00:15:00 Nesta seção, a Dra. Joelle Pineau explica que o avanço na visão computacional foi alcançado pela disponibilidade de dados, especificamente o conjunto de dados ImageNet com um milhão de imagens anotadas que treinaram máquinas para reconhecer milhares de objetos diferentes com alta precisão. Esse aumento de dados, combinado com plataformas de computação, como plataformas de GPU, permitiu que a tecnologia de aprendizado profundo impulsionasse o progresso em vários tipos de dados, incluindo reconhecimento de fala. Essa analogia tecnológica é feita com neurônios biológicos no cérebro, onde os neurônios recebem informações, as processam, tomam decisões e enviam uma mensagem, que é o mesmo processo dos neurônios artificiais. As conexões entre esses neurônios são ajustadas com algoritmos de aprendizado de máquina para fortalecer certas previsões, selecionando o conjunto certo de pesos.

  • 00:20:00 Nesta seção, a Dra. Joelle Pineau discute como as redes neurais artificiais processam informações, com cada camada da rede computando uma versão mais abstrata da informação até que uma previsão seja gerada no final. A interseção entre visão e linguagem também é explorada, com legendas de imagens como exemplo. Embora as máquinas não sejam perfeitas e possam cometer erros, o aprendizado por reforço é uma técnica que pode melhorar sua capacidade. Um exemplo de sucesso é o AlphaGo, que aprendeu a jogar Go e venceu um campeão humano. Este sistema foi construído com a combinação de aprendizado profundo e milhões de jogos especializados em Go, seguidos de aprendizado por tentativa e erro.

  • 00:25:00 Nesta seção, a Dra. Joelle Pineau discute um projeto no qual ela e sua equipe vêm trabalhando há vários anos, com o objetivo de desenvolver tecnologia para melhorar o tratamento de indivíduos com epilepsia. Este projeto envolve o uso de terapia de estimulação neural, onde um dispositivo aplica estimulação elétrica no cérebro em tempo real para interromper a incidência de convulsões. O problema que eles estão tentando resolver é como otimizar o parâmetro da estimulação para melhorar sua capacidade de interromper as convulsões. Em colaboração com os pesquisadores, eles usaram o aprendizado por reforço para otimizar a estratégia e foram capazes de desenvolver uma política altamente diversificada, espaçando a incidência de estimulação com base no fato de o cérebro estar em risco imediato de convulsão ou não. Esses experimentos foram conduzidos com modelos animais de epilepsia, e o próximo passo é passar para experimentos humanos.

  • 00:30:00 Nesta seção, a Dra. Joelle Pineau discute o uso de estratégias de IA para otimizar o tratamento, principalmente para doenças que requerem uma sequência de intervenções. Embora ter muitos dados seja importante, ela observa que o aprendizado eficiente de conjuntos de dados menores também é crucial. Ela enfatiza a necessidade de colaboração entre pesquisadores de IA e pesquisadores médicos que tenham conhecimento de domínio específico e compreensão da dinâmica da doença. Além disso, ela destaca a importância de desenvolver talentos em vários setores da economia e da sociedade para se preparar para a IA. Pineau também discute a estratégia pan-canadense para produzir a próxima geração de estudantes para ajudar no avanço da pesquisa de IA no Canadá.

  • 00:35:00 Nesta seção, os junior fellows do Massey College em Toronto discutiram os impactos socioeconômicos da IA, especificamente o deslocamento de empregos e o aumento das disparidades de riqueza. Embora a palestrante, Dra. Joelle Pineau, não seja uma especialista em políticas, ela sugere que é importante prever quais setores têm maior probabilidade de serem afetados e preparar a próxima geração para essa mudança. Um exemplo de deslocamento de empregos está na indústria de caminhões, onde a automação pode aliviar um pouco a pressão, pois é difícil recrutar novas pessoas. No entanto, na área médica, pode ser mais difícil preparar as pessoas para a realidade da IA substituindo certos empregos, como radiologistas. Dr. Pineau lembra ao grupo que a sociedade humana é adaptável e que sempre haverá problemas novos e interessantes para resolver.

  • 00:40:00 Nesta seção, a Dra. Joelle Pineau discute a importância de preparar a educação da próxima geração em habilidades de matemática, ciências e computação para atender à demanda de incorporar mais perspectivas técnicas e codificação em diferentes currículos. No entanto, existe uma lacuna entre os especialistas técnicos que podem não ter uma exposição cultural mais ampla e os formuladores de políticas que podem não ter o conhecimento técnico, e leva tempo para encontrar uma linguagem comum. O Dr. Pineau também compartilha que, embora o cérebro humano seja uma grande inspiração para a pesquisa de IA, existem restrições físicas ao que as máquinas podem fazer que o cérebro humano pode, e as redes neurais representam apenas parte da história da construção desses algoritmos. Em termos de aplicações de IA, a mais empolgante da Dra. Pineau é o aprendizado por reforço em robótica, e ela está ansiosa pelo futuro dos sistemas autônomos que podem operar com segurança e eficiência em ambientes centrados no ser humano.

  • 00:45:00 Nesta seção do vídeo, a Dra. Joelle Pineau discute seu trabalho em um projeto de epilepsia usando IA, que ela acha fascinante devido às complexidades do problema e à natureza interdisciplinar do trabalho. Ela explica que os desafios da IA estão em fazer as perguntas certas sobre os dados e combiná-los com o algoritmo correto. A Dra. Pineau também menciona que ela e seus alunos de pós-graduação geralmente precisam ser criativos e inventar novos algoritmos para ajustar os dados. Ela acredita que um dos maiores equívocos sobre a IA é que ela é uma caixa preta que toma decisões que os humanos não conseguem compreender.

  • 00:50:00 Nesta seção, a Dra. Joelle Pineau discute os desafios de entender como as redes neurais tomam decisões. Embora possamos rastrear as previsões de uma rede neural, nem sempre é fácil explicar por que ela fez essas previsões de maneira concisa e compreensível, como os humanos. No entanto, se as máquinas puderem ser projetadas para construir uma narrativa que explique suas decisões, isso poderá estabelecer um diálogo mais rico entre máquinas e humanos. À medida que as máquinas se tornam mais predominantes na força de trabalho, é importante ter uma linguagem para explicar as decisões de cada um para criar uma parceria entre humanos e máquinas. O Dr. Pineau também aborda a questão do viés nos dados, que muitas vezes é inerentemente humano e pode levar ao viés nos algoritmos de aprendizado de máquina. Embora o viés indutivo seja essencial no treinamento de algoritmos, devemos estar conscientes de nossos vieses e escolher bons dados e vieses indutivos para projetar sistemas imparciais.

  • 00:55:00 Nesta seção, a Dra. Joelle Pineau discute a importância de evitar vieses ao treinar modelos de IA e métodos para conseguir isso, como super-representação de tipos de dados sub-representados. No entanto, ela também observa que é difícil evitar completamente o viés e que devemos nos concentrar em aumentar a diversidade entre as pessoas que constroem a tecnologia. Além disso, ela reconhece desafios no campo, como questões de privacidade e segurança em relação aos dados, entender o que está sendo compartilhado ao distribuir algoritmos de aprendizado de máquina e descobrir a função de recompensa certa para agentes em aprendizado por reforço.

  • 01:00:00 Nesta seção, a Dra. Joelle Pineau fala sobre a importância de trazer diversas perspectivas para o campo da inteligência artificial (IA) para expandir o alcance da tecnologia. Ela cita iniciativas como o programa AI for Good na McGill, que reúne jovens mulheres para treinamento avançado em IA e projetos práticos. No entanto, Pineau observa que ainda há muito trabalho a ser feito para medir o impacto dessas iniciativas, principalmente à medida que a codificação é introduzida nos currículos escolares. O gargalo no desenvolvimento da IA, segundo Pineau, é a falta de talento e a necessidade de treinar mais pessoas nessa área rapidamente. Sobre a questão de como treinar pessoas para pesquisa em IA, ela reconhece o espectro de oportunidades disponíveis e a necessidade de fazer melhor em todos os níveis. No geral, Pineau enfatiza a importância de ter uma força de trabalho diversificada e bem treinada para avançar no campo da IA.

  • 01:05:00 Nesta seção, o palestrante encerra o evento agradecendo aos participantes e anunciando um próximo evento com Michele Lamont, bolsista da Seafire na Universidade de Harvard. Lamont discutirá como as sociedades podem se tornar mais inclusivas e receberá o Prêmio Erasmus no final do outono do rei da Holanda. O evento será realizado no hotel Omni King Edward no dia 14 de novembro
Canada’s Artificial Intelligence Revolution - Dr. Joelle Pineau
Canada’s Artificial Intelligence Revolution - Dr. Joelle Pineau
  • 2017.11.11
  • www.youtube.com
Dr. Joelle Pineau discusses how artificial intelligence is poised to change almost every aspect of our lives, from medical treatments to assistive robots to ...
 

Inteligência artificial e algoritmos: prós e contras | Documentário DW (documentário de IA)



Inteligência artificial e algoritmos: prós e contras | Documentário DW (documentário de IA)

O vídeo discute os prós e contras da inteligência artificial, com foco nas implicações éticas da IA. Ele destaca como a IA pode ser usada para melhorar a eficiência e a segurança pública, mas também como pode ser usada para violar a privacidade. O vídeo entrevista Jens Redma, funcionário de longa data do Google, sobre a importância da IA para a empresa.

  • 00:00:00 A inteligência artificial está avançando rapidamente, com potencial para revolucionar muitos aspectos da vida cotidiana. No entanto, também há preocupações sobre as implicações da inteligência artificial na força de trabalho e na privacidade.

  • 00:05:00 A inteligência artificial está sendo usada para analisar grandes conjuntos de dados, incluindo radiografias de tórax, a fim de identificar anormalidades. A precisão dos algoritmos é semelhante à dos radiologistas humanos. No entanto, os algoritmos não são perfeitos e ainda são necessários humanos para tomar decisões na clínica com base em probabilidades.

  • 00:10:00 Max Little é um matemático da Universidade de Aston que desenvolveu um algoritmo para detectar diferenças nos padrões vocais entre pessoas com e sem doença de Parkinson. O estudo mostrou que o algoritmo foi quase 99% preciso na identificação da condição. Embora este trabalho seja potencialmente valioso, há preocupações éticas sobre o uso desses dados para diagnosticar pessoas sem o devido consentimento.

  • 00:15:00 O vídeo apresenta as vantagens e desvantagens da inteligência artificial, incluindo sua capacidade de melhorar a segurança e a eficiência do público. Ele também discute o trade-off entre privacidade e segurança. Na China, há uma tradição diferente e abordam a questão da privacidade e vigilância, com foco na eficiência e na coleta de dados.

  • 00:20:00 No vídeo, são discutidos os prós e contras da inteligência artificial. O vídeo também discute como empresas como o Google têm um impacto na sociedade e como a União Europeia está aplicando ao Google uma multa antitruste de 2,7 bilhões de dólares.

  • 00:25:00 O vídeo discute a importância da inteligência artificial (IA) para o Google e discute algumas das preocupações que estão sendo levantadas sobre seu impacto na sociedade. Ele também entrevista Jens Redma, funcionário de longa data do Google, sobre a importância da IA para a empresa.

  • 00:30:00 O vídeo discute os prós e contras da inteligência artificial, destacando a importância da intuição e da tomada de decisão humana na área. Ele fala sobre a necessidade da IA ser capaz de navegar em ambientes complexos e as dificuldades envolvidas para isso.

  • 00:35:00 A inteligência artificial pode ajudar os motoristas a evitar acidentes, mas há questões éticas sobre como decidir quem salvar em uma situação tão acelerada. Em uma pesquisa online recente, as pessoas concordaram em vários valores morais, mas divergiram sobre como agir em cenários específicos.

  • 00:40:00 Neste documentário, pesquisadores discutem os prós e contras da inteligência artificial e dos algoritmos. Eles discutem como a IA pode nos ajudar a tomar decisões com mais eficiência, mas observam que ainda há questões éticas a serem abordadas.
Artificial intelligence and algorithms: pros and cons | DW Documentary (AI documentary)
Artificial intelligence and algorithms: pros and cons | DW Documentary (AI documentary)
  • 2019.09.26
  • www.youtube.com
Developments in artificial intelligence (AI) are leading to fundamental changes in the way we live. Algorithms can already detect Parkinson's disease and can...