Aprendizado de máquina e redes neurais - página 23

 

IA para Design de Medicamentos - Aula 16


AI for Drug Design - Palestra 16 - Deep Learning nas Ciências da Vida (Primavera de 2021)

Esta palestra discute o uso de aprendizado profundo para o design de medicamentos. Ele explica como o aprendizado profundo pode ser usado para encontrar novos compostos com resistência a antibióticos. Também discute como os modelos de aprendizado profundo podem ser aprimorados incorporando o conhecimento biológico.

Esta segunda parte da palestra fornece uma visão geral de como o aprendizado profundo pode ser usado no design de medicamentos, especificamente para prever a atividade antiviral de combinações de medicamentos. O modelo foi testado in vivo usando ensaios baseados em células e duas novas combinações de drogas sinérgicas foram identificadas.

  • 00:00:00 O palestrante apresentará o aprendizado profundo para o design de medicamentos e seus desafios. Ele discutirá o espaço funcional e o espaço químico e explicará como o aprendizado profundo pode ser usado para encontrar drogas automaticamente.

  • 00:05:00 As três abordagens para o design de medicamentos são baseadas nos primeiros princípios, simulação e triagem virtual. Os dois primeiros são bons para encontrar compostos com propriedades específicas, mas o último é mais ambicioso e tenta encontrar o composto certo olhando para propriedades independentes umas das outras. A simulação costuma ser muito lenta e a triagem virtual é cara. O design de drogas Denoble é a abordagem mais ambiciosa e tenta resolver o problema inverso de encontrar um composto observando um conjunto de critérios.

  • 00:10:00 Nesta palestra, o palestrante discute dois métodos para descoberta de medicamentos, triagem virtual e design nobre de medicamentos. Ambos os métodos têm suas próprias vantagens e desvantagens, com a triagem virtual sendo mais rápida e barata, mas com menos cobertura do que os métodos tradicionais, enquanto o design de drogas nobres é mais lento, mas pode encontrar compostos mais novos. Os algoritmos genéticos são uma maneira eficaz de explorar o espaço químico, mas ainda há espaço para melhorias nos algoritmos para essa tarefa.

  • 00:15:00 Nesta palestra, o professor explica como o aprendizado profundo está sendo usado no design de medicamentos e como ele pode ser mais eficiente do que as técnicas tradicionais. Ele também menciona um artigo chamado "Dolly", que mostra como o aprendizado profundo pode ser usado para gerar imagens realistas de objetos.

  • 00:20:00 Nesta palestra, o professor discute as técnicas de aprendizado profundo usadas na descoberta de medicamentos e dá exemplos de como essas técnicas ajudaram os pesquisadores a encontrar novos antibióticos.

  • 00:25:00 Redes neurais de gráfico são um tipo de inteligência artificial que são usadas para procurar novos compostos que podem matar bactérias. O objetivo de usar esse tipo de IA é encontrar compostos que não são descobertos pelos métodos tradicionais, pois esses métodos podem perder padrões antibacterianos desconhecidos.

  • 00:30:00 Esta palestra discute como o aprendizado profundo pode ser usado para identificar padrões em dados relacionados à resistência a antibióticos. O modelo é capaz de prever se uma molécula será eficaz contra bactérias, com uma precisão de cerca de 9,0 auc.

  • 00:35:00 O vídeo discute como os antibióticos existentes não são mais eficazes contra algumas cepas de bactérias e como um novo composto, chamado "alucina", é inovador e eficaz contra essas cepas. Ele também discute como o composto é eficaz contra infecções em camundongos.

  • 00:40:00 O vídeo discute o sucesso dos modelos de aprendizado profundo sobre os métodos tradicionais na descoberta de novos compostos com resistência a antibióticos. O vídeo também mostra como um método tradicional, o desenho da mão, não é capaz de descobrir certos compostos com resistência a antibióticos. Os modelos de aprendizado profundo são capazes de capturar diferentes partes do espaço e são altamente classificados pelos modelos.

  • 00:45:00 O palestrante descreve os modelos de aprendizado profundo usados para o design de medicamentos e explica como os modelos podem ser aprimorados incorporando conhecimento biológico. Ele apresenta um estudo de caso de uma combinação de drogas que se mostrou mais eficaz do que uma única droga.

  • 00:50:00 O vídeo discute a IA para o design de medicamentos, com foco particular no uso de aprendizado profundo para identificar compostos sinérgicos. O objetivo é encontrar drogas sinérgicas e menos tóxicas e incorporar ao modelo o conhecimento do ciclo de replicação viral.

  • 00:55:00 A palestra discute métodos de aprendizado profundo para o design de medicamentos, com foco em como eles podem ser usados para prever a atividade antiviral de um medicamento contra uma variedade de alvos. O primeiro passo é prever a interação alvo do medicamento, usando um conjunto de dados da Campbell e do National Institute of Health. Em seguida, uma rede neural é usada para aprender a representação da estrutura da molécula, necessária para a segunda etapa do processo de design do medicamento: prever a atividade antiviral do medicamento contra uma variedade de alvos. Ao usar uma combinação de aprendizado profundo e preenchimento de matriz, o potencial para melhorar o design de medicamentos é destacado.

  • 01:00:00 Esta palestra discute como o aprendizado profundo pode ser usado no design de medicamentos, especificamente para prever a atividade antiviral de combinações de medicamentos. O modelo foi testado in vivo usando ensaios baseados em células e duas novas combinações de drogas sinérgicas foram identificadas.

  • 01:05:00 Esta palestra enfoca o Deep Learning nas Ciências da Vida e sua importância para o design de medicamentos. A palestra cobre duas abordagens anteriores ao design de drogas, uma usando sequências e a outra usando redes neurais recorrentes. A palestra observa que a representação do fluxo de sorriso das moléculas é bastante frágil e as técnicas têm desempenho ruim quando aplicadas à descoberta de medicamentos. A palestra observa que uma maneira melhor de representar moléculas é com gráficos, que podem ser gerados de forma eficiente com redes neurais recorrentes.

  • 01:10:00 A palestra discute o aprendizado profundo nas ciências da vida, especificamente no que se refere ao design de medicamentos. A palestra observa que o aprendizado profundo pode ser usado para gerar moléculas, mas que tem problemas com moléculas esparsas e motivos de onda de árvore baixa. Uma rede neural recorrente foi proposta como uma solução, e verificou-se ser mais bem-sucedida com moléculas que possuem motivos de onda de baixa árvore.

  • 01:15:00 Esta palestra discute o aprendizado profundo nas ciências da vida, com foco em um autoencoder de aprendizado profundo que pode codificar moléculas em um vetor de baixa dimensão. Isso reduz o número de motivos que podem ser gerados, bem como a complexidade de tempo do processo.

  • 01:20:00 Nesta palestra, o professor explica como o aprendizado profundo pode ser usado para melhorar a precisão da reconstrução de motivos no design de medicamentos. Modelos de geração de motivos multifacetados são vantajosos porque permitem a captura de grandes ciclos em moléculas. A taxa de sucesso da geração de motivos usando uma abordagem nó a nó é baixa devido à representação incorreta do espaço de sequência. No entanto, usar uma abordagem motivo por motivo melhora significativamente a taxa de sucesso. Isso ocorre porque o modelo é capaz de aprender a modificar as moléculas existentes para melhorar suas semelhanças com as drogas.

  • 01:25:00 O palestrante faz uma breve visão geral do aprendizado profundo nas ciências da vida, destacando os desafios e oportunidades de cada área. Ela termina com uma discussão sobre química e design de drogas.

  • 01:30:00 Nesta palestra, o palestrante convidado orienta os alunos interessados em desenvolver projetos na área de inteligência artificial para o design de medicamentos. Eles afirmam que os alunos podem receber orientação deles, se desejarem.
 

Aprendizado Profundo para Dobramento de Proteínas - Aula 17



Aprendizagem Profunda para Dobramento de Proteínas - Aula 17 - Aprendizagem Profunda em Ciências da Vida do MIT (Primavera de 2021)

Este vídeo discute o uso de aprendizado profundo no campo de dobramento de proteínas e, especificamente, como o aprendizado profundo geométrico pode ser usado para estudar estruturas de proteínas e prever coisas como locais de ligação de ligantes e interações proteína-proteína. O vídeo também aborda métodos de modelagem baseados em modelo versus sem modelo, várias abordagens para previsão de contato no dobramento de proteínas e o uso de redes neurais residuais para modelagem de imagem na previsão da estrutura de proteínas. No geral, o palestrante enfatiza a promessa de aprendizado profundo no avanço de nossa compreensão das estruturas de proteínas e suas funções e fornece exemplos e resultados detalhados para apoiar essa afirmação.

O vídeo discute várias abordagens de aprendizado profundo para dobramento de proteínas, incluindo o uso de previsões e modelos de coevolução para modelagem precisa, a importância de encontrar homólogos melhores e o potencial de aprendizado profundo para alcançar resultados comparáveis sem depender de física tradicional baseada métodos. Os palestrantes também abordam o uso de saídas diferenciáveis e a importância da precisão global, bem como a evolução do espaço do algoritmo e o potencial de aprendizado profundo para prever confirmações de proteínas com base em fatores como variação genética ou pequenas moléculas. No geral, o vídeo destaca o potencial empolgante do aprendizado profundo para revolucionar a previsão da estrutura da proteína e suas muitas aplicações.

  • 00:00:00 Nesta seção do vídeo, Bruno Correa apresenta o conceito de deep learning geométrico e como ele se aplica ao estudo de estruturas de proteínas. Ele explica como o aprendizado profundo foi bem-sucedido na classificação de imagens, mas que os conjuntos de dados em biologia são geralmente muito mais ricos e de alta dimensão, com várias dimensões de tempo e outras, tornando o aprendizado profundo geométrico uma abordagem valiosa. Correa discute a importância das estruturas das proteínas em suas funções, desde funções mecânicas e químicas até ligação e reconhecimento, e apresenta exemplos como anticorpos, bombas iônicas e proteínas de comunicação e rigidez. Ele também aborda a questão de saber se o trabalho de estudar superfícies de proteínas foi abordado por AlphaFold, explicando que AlphaFold resolveu estruturas de proteínas, mas não especificamente o estudo de superfícies de proteínas.

  • 00:05:00 Nesta seção, o palestrante discute os desafios de prever a função da proteína a partir de sua estrutura, o que é importante para entender como as proteínas interagem entre si e com outros metabólitos nas células. O palestrante apresenta várias maneiras de representar estruturas de proteínas, com foco em representações de superfície que podem ter funções semelhantes, apesar de terem sequências e arquiteturas diferentes. Por analogia com o estudo do rosto das pessoas, o palestrante argumenta que o estudo de padrões em superfícies de proteínas pode revelar informações importantes sobre suas funções. Em seguida, o palestrante apresenta uma abordagem de aprendizado profundo para prever os locais de ligação de ligantes de proteínas usando representações de superfície molecular em 3D.

  • 00:10:00 Nesta seção do vídeo, o palestrante discute o uso de aprendizado profundo geométrico para o problema de dobramento de proteínas. Eles explicam que os objetos prototípicos para aprendizado profundo geométrico são gráficos ou superfícies, e sua equipe usou representações de malha de proteínas para estudá-los. Eles então explicam o uso de "patches", que são subconjuntos da malha com vários recursos vetoriais em cada nó, e como os pesos locais são atribuídos a eles. O palestrante descreve os diferentes tipos de recursos que foram codificados em cada nó, incluindo índice de forma, curvatura dependente da distância, hidrofobicidade e recursos eletrostáticos. Esta informação foi então reaproveitada em um vetor para análise posterior.

  • 00:15:00 Nesta seção, o palestrante discute como a abordagem de aprendizado profundo geométrico pode codificar a superfície de uma molécula independentemente de sua sequência, permitindo o estudo de padrões de átomos e propriedades químicas. O palestrante observa as possíveis aplicações dessa abordagem, como a classificação de bolsões de proteínas com base nas características de ligantes específicos e a previsão das configurações de encaixe de duas proteínas usando impressões digitais de superfície. Estudos de ablação foram conduzidos para entender quais fatores contribuem mais para prever a especificidade, com a química e a geometria consideradas importantes. No geral, a abordagem mostra-se promissora no avanço da compreensão das estruturas das proteínas e suas funções.

  • 00:20:00 Nesta seção, o palestrante descreve uma rede chamada site massivo que pode prever quais sites em uma determinada superfície de proteína são mais propensos a interagir com outras proteínas. Eles também discutem uma técnica de digitalização de impressões digitais usada para encaixe e as taxas de sucesso dessa abordagem em comparação com outros programas de encaixe. O palestrante apresenta a próxima geração de massivos chamada D massiva, que usa uma rede totalmente diferenciável para criar uma nuvem de pontos que descreve a superfície da proteína e o cálculo de características geométricas e químicas, incluindo propriedades eletrostáticas. Por fim, o palestrante menciona brevemente o empolgante aspecto do design do projeto e discute um importante alvo para controlar a atividade das células T no tratamento do câncer.

  • 00:25:00 Nesta seção, o palestrante discute como eles usaram o aprendizado profundo para projetar moléculas que visam proteínas. Eles usaram massa para prever o local que seria mais propenso a ser alvo de moléculas de design e extraíram a impressão digital da superfície do alvo. Eles então encaixaram motivos neste site e previram interações com a proteína de interesse. O resultado foi um novo motivo que não era conhecido anteriormente na natureza e combinou com sucesso estruturas experimentais com um desvio quadrático médio de cerca de um angstrom, indicando um aglutinante de alta afinidade que se liga à proteína. O palestrante se oferece para potencialmente aconselhar os alunos interessados em explorar esta área de pesquisa.

  • 00:30:00 Nesta seção da palestra, o palestrante discute as duas principais categorias de métodos de previsão da estrutura de proteínas: modelagem baseada em modelo e modelagem sem modelo. Enquanto a modelagem baseada em modelo depende do uso de estruturas de proteínas existentes no banco de dados PDB como modelos para prever novas estruturas, a modelagem sem modelo é um método mais recente que envolve pesquisa de homologia e aprendizado de máquina para prever estruturas sem depender de modelos. O palestrante se concentra no último método e descreve uma abordagem mais recente que usa pesquisa de homologia de sequência, perfil de sinal e aprendizado de máquina para prever estruturas de proteínas sem depender de modelos, o que mostrou melhor precisão para muitas proteínas do que métodos baseados em modelos. O palestrante também discute o método de montagem de fragmentos, uma abordagem popular de modelagem baseada em modelo usada no passado.

  • 00:35:00 Nesta seção da palestra, o palestrante discute o pipeline usado para modelagem sem modelo no dobramento de proteínas. A informação preditiva sobre a distância entre quaisquer dois átomos ou resíduos na proteína é alimentada em um mecanismo de otimização para construir a estrutura. O palestrante também discute diferentes estratégias para alinhamentos de múltiplas sequências, incluindo o uso de um valor de corte para o número de cobertura ou resíduos de carbono necessários. O componente crucial dessa modelagem é prever a matriz de indução, modelar as medidas de interjeição usando medidas de conteúdo ou métricas de distância. O palestrante apresenta algumas ideias eficazes para previsão de posição de contato, que tornaram a previsão muito mais fácil e as colaborações muito mais eficazes nos últimos anos.

  • 00:40:00 Nesta seção, o palestrante discute três abordagens diferentes para previsão de contato no enovelamento de proteínas. A primeira abordagem é um método estatístico global para análise de coalizão, mas requer um grande número de homólogos de sequência para ser eficaz. A segunda abordagem é usar redes neurais residuais convolucionais profundas para previsão da distância de contato, e a terceira é uma rede transformativa para previsão de contato que leva em consideração tanto a sequência quanto as informações estruturais do banco de dados de proteínas. O palestrante também explica os desafios enfrentados pelos métodos anteriores de aprendizado supervisionado para previsão de contato e como eles podem ser aprimorados usando modelos de aprendizado de máquina mais avançados.

  • 00:45:00 Nesta seção, o palestrante discute as limitações dos métodos anteriores de previsão de contato para dobramento de proteínas, que consideravam apenas dois resíduos por vez e, portanto, ignoravam relações maiores dentro de toda a proteína. Para abordar essas questões, o palestrante propõe um novo método que usa aprendizado profundo para prever todos os contatos em uma proteína simultaneamente. Este método é baseado em tratar cada par de átomos como um pixel em uma imagem, que pode ser usado para formular o problema como uma tarefa de segmentação de imagem. Ao usar uma rede neural residual totalmente convolucional, o palestrante mostra que seu método pode melhorar significativamente a precisão da previsão de contato e permitir o dobramento de proteínas maiores e mais duras. Além disso, o método funciona bem para proteínas de cadeia única e de membrana e pode ser usado para previsão de contato complexo sem alterar o modelo.

  • 00:50:00 Nesta seção, o palestrante discute o uso de redes neurais residuais para prever a estrutura da proteína por meio de modelagem de imagem usando redes neurais convolucionais. Eles explicam que o uso de conexões residuais permite o uso de redes muito mais profundas, o que leva a uma melhor precisão sem overfitting. O palestrante mostra alguns resultados do desempenho de seu método em classificação e precisão em comparação com outros métodos, demonstrando o sucesso da abordagem de aprendizado profundo. A precisão melhorou nos últimos oito anos e agora pode chegar a 80%.

  • 00:55:00 Nesta seção, o palestrante discute o progresso na posição de contato e na posição de design usando modelos de aprendizado profundo para dobramento de proteínas. A precisão do contato melhorou significativamente com uma precisão atual de 80%, o que é muito mais útil do que o exame anterior. O palestrante explica o processo de uso de uma rede digital para posição de design e como ela pode melhorar significativamente a modelagem baseada em temporais. O palestrante também discute a importância da informação do código russo e mostra que mesmo para certas proteínas fermentadas, uma boa previsão ainda pode ser alcançada sem usá-la. Os resultados sugerem que o aprendizado profundo pode gerar novas estruturas e que um pequeno número de hormônios sequenciais é necessário para previsões precisas.

  • 01:00:00 Nesta seção, os palestrantes discutem o uso de informações de sequência e estrutura para melhorar a modelagem de proteínas. Eles exploram a ideia de usar as previsões existentes como feedback em um conjunto de treinamento para aprimorar as previsões de coevolução e levar a melhores preditores baseados em sequência. Eles também discutem o uso de informações de modelo e a importância de encontrar bons modelos para modelagem precisa. Além disso, eles questionam o papel da física na modelagem de proteínas e sugerem que, embora os métodos baseados na física possam ajudar a refinar os modelos, o aprendizado profundo também pode alcançar resultados comparáveis sem o uso da física.

  • 01:05:00 Nesta seção, o vídeo discute como modelar proteínas realmente grandes sem usar modelos. A proteína de exemplo tem mais de 13.000 resíduos, dificultando a modelagem precisa por meios tradicionais. No entanto, combinando diferentes métodos de agrupamento e utilizando o fluxo de trabalho do iPhone2, a proteína é modelada com alta precisão. O vídeo também observa que o uso de um transformador requer muita energia e memória da GPU, dificultando o uso pela maioria das pessoas. No entanto, o modelo de aprendizado de máquina ainda é viável com um conjunto menor de dados de treinamento. Além disso, encontrar melhores homólogos para basear o modelo é um gargalo potencial que pode ser aprimorado por meio de pesquisas adicionais. Finalmente, um gráfico de progresso é mostrado para alvos desafiadores de modelagem 3D, com pontuações mais altas indicando melhor qualidade dos modelos previstos.

  • 01:10:00 Nesta seção, Muhammad Al-Qaraghuli fala sobre a evolução do espaço do algoritmo para a previsão da estrutura da proteína nas últimas duas décadas. Ele discute como métodos anteriores foram focados em usar um modelo baseado em física e função de energia para obter o estado de energia mais baixo de uma proteína, enquanto métodos mais recentes utilizaram a coevolução para extrair informações usando várias técnicas de inferência probabilística. Al-Qaraghuli observa que a precisão desses métodos permanece limitada sem informações de sequência adicionais e discute como o aprendizado profundo se tornou um divisor de águas para a previsão da estrutura da proteína, particularmente para proteínas de membrana e transmembrana.

  • 01:15:00 Nesta seção, o palestrante discute a evolução das abordagens de aprendizado profundo para dobramento de proteínas, começando com o uso de métodos não supervisionados no início de 2010 e a introdução do aprendizado profundo por meio de abordagens exclusivas baseadas em rede, como o trabalho de Jim Wazoo com RaptorX em 2016 e o uso de uma arquitetura de rede residual pelo capital X 18. O palestrante descreve o desenvolvimento do primeiro conjunto de abordagens diferenciáveis de ponta a ponta em 2018, que não eram necessariamente competitivas com os métodos existentes, mas foram capazes de gerar previsões muito mais rápidas. O desenvolvimento mais recente, AlphaFold 2, trata objetos de alinhamento de sequência múltipla (MSA) como objetos de lei para potencialmente capturar correlações de ordem superior e aspectos globais de sequência e filogenia. Por fim, o palestrante descreve o santo graal do dobramento de proteínas - a capacidade de funcionar tão bem quanto o AlphaFold 2 a partir de sequências de proteínas individuais - que seu trabalho mais recente visa alcançar.

  • 01:20:00 Nesta seção, os palestrantes discutem a capacidade das proteínas de se dobrar in vitro e até que ponto as chaperonas dentro da célula guiam esse processo. Eles também exploram a quantidade de informação que está presente na sequência primária de proteínas e se é suficiente para prever o impacto de uma mutação que altera a proteína. Eles discutem as previsões da proteína A2, que mostram que ainda pode ser possível prever a partir de sequências individuais sem exigir que todos os aspectos físicos estejam presentes. Por fim, é introduzido o algoritmo do espaço, que envolve a entrada, um torso de rede neural, e a saída, que geralmente é um objeto proxy relacionado à estrutura, e depois enviado por um pipeline de pós-processamento para gerar o resultado tridimensional final estrutura.

  • 01:25:00 Nesta seção, o palestrante discute a importância da diferenciabilidade para a saída gerada a partir de um modelo de aprendizado profundo. Se a saída estiver distante do objetivo real, haverá uma perda de otimização potencial. O palestrante também discute o uso de pós-processamento, que pode levar a previsões autoinconsistentes, e como a implementação de um modelo de aprendizado profundo prevê a estrutura de frequência final sem a necessidade de quantidades proxy. Em sua abordagem, eles parametrizam a geometria local usando um alfabeto discreto de ângulos de torção e preveem uma distribuição de probabilidade sobre esse alfabeto. Ao fazer isso, eles podem manter a diferenciação do motor, o que permite uma otimização eficiente da estrutura final.

  • 01:30:00 Nesta seção, o palestrante explica sua abordagem para construir a estrutura de uma proteína usando ângulos de torção livres em cada resíduo e um processo iterativo. A função de perda é definida em termos de precisão global, não apenas precisão local, para explicar as interações entre os resíduos na formação da estrutura original. O palestrante reconhece que, embora sua abordagem seja limitada, eles acreditam que há uma homogeneização implícita da estrutura acontecendo internamente na rede neural, levando a melhores previsões ao longo do tempo. O palestrante também discute como eles parametrizam a saída usando matrizes de pontuação específicas de posição (PSSMs) e uma arquitetura recorrente. Por fim, o palestrante apresenta algumas de suas previsões feitas usando essa abordagem e observa que, embora alguns aspectos da estrutura tenham sido bem previstos, outros não.

  • 01:35:00 Nesta seção, o palestrante discute como eles desenvolveram a ideia de parametrização de torção usando a construção de frenesia, que simplifica a matemática e simplifica o processo de formulação. Eles agora se concentram apenas em C alfa e parametrizam usando matrizes de rotação, o que resolve o problema de estruturas secundárias patológicas. A principal mudança é que eles voltaram à ideia de uma única sequência, que alimentam por meio de um modelo de linguagem. Eles usam transformadores para incorporar cada resíduo em um espaço latente e usá-lo como entrada para fazer previsões, com o desafio adicional de adaptar fragmentos e unir duas proteínas diferentes para melhorar o desempenho do treinamento. O alto-falante mostra resultados comparando RGN1 e RGN2 na previsão de uma sequência de lançamento de destino, com RGN2 alcançando resultados significativamente melhores devido a uma etapa de refinamento de pós-processamento. É importante observar que isso se baseia em uma única entrada de sequência que passou por um modelo de linguagem.

  • 01:40:00 Nesta seção do vídeo, o palestrante discute a precisão de seu método para prever estruturas de proteínas. Eles mostram exemplos alinhados em relação ao alfa 2 e, embora a precisão não seja tão boa quanto o estado da arte, eles usam muito menos informações para fazer a previsão. Eles também mostram exemplos de proteínas singleton, que estão essencialmente na zona crepuscular do espaço de sequência e não possuem homólogos de sequência, onde sua abordagem está fazendo uma diferença significativa em comparação com o sistema de última geração disponível publicamente. Além disso, o palestrante discute as proteínas de novo e as proteínas projetadas nas quais eles se saem bem sistematicamente, o que faz sentido, pois esses tipos de abordagens baseadas em sequência seriam úteis no design de proteínas. Finalmente, o palestrante explica que a aceleração significativa em seu método pode ser útil para uma variedade de aplicações.

  • 01:45:00 Nesta seção, os palestrantes discutem o potencial de usar o aprendizado profundo para prever diferentes confirmações de proteínas com base em diferentes fatores, como variação genética ou pequenas moléculas. Embora ter um método de espaço de sinal único possa funcionar melhor em teoria, não há como saber até que eles possam realmente comparar diferentes versões frente a frente, como quando o alpha 2 é lançado. Problemas de refinamento também são mencionados, como prever a falha geral usando um MSA e, em seguida, refiná-lo na estrutura real usando outro estágio. Os vírus em rápida evolução são mencionados como outra área em que o aprendizado profundo pode ser útil. Por fim, os palestrantes expressam sua empolgação com possíveis oportunidades futuras de colaboração e o privilégio de poder se conectar com pessoas de diferentes partes do mundo.
 

Machine Learning para Patologia - Aula 19



Machine Learning for Pathology - Palestra 19 - MIT Deep Learning in the Life Sciences (primavera de 2021)

A palestra aborda vários aspectos da aplicação de deep learning em patologia computacional, incluindo os desafios e limitações da tecnologia. O palestrante discute a necessidade de cautela ao confiar cegamente em algoritmos e enfatiza a importância de entender o que uma rede está aprendendo. A palestra explora vários exemplos de como o aprendizado profundo está sendo usado no diagnóstico de câncer, prognóstico e avaliação de resposta ao tratamento para desenvolver ferramentas prognósticas e preditivas para medicina de precisão. O palestrante também discute os desafios do desenvolvimento de tratamentos multimedicamentosos para a tuberculose e propõe vários projetos de laboratório para enfrentar o problema. No geral, a palestra ressalta o potencial do aprendizado profundo em patologia, ao mesmo tempo em que reconhece suas limitações e a necessidade de uma abordagem multidisciplinar para garantir sua implantação efetiva em ambientes clínicos.

Neste vídeo do YouTube intitulado "Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (Primavera de 2021)", o palestrante discute as tentativas de sua equipe de abordar a heterogeneidade lote a lote e célula a célula em aprendizado de máquina para patologia usando normalização de variação (TVN) e uma abordagem de k-vizinho mais próximo. Eles também descrevem o uso de perfil morfológico para classificar medicamentos com base em seus efeitos sobre bactérias e desenvolver uma abordagem baseada em dados para projetar e priorizar combinações de medicamentos usando aprendizado supervisionado e não supervisionado. Além disso, a palestrante agradece aos membros de seu laboratório por suas contribuições aos estudos de sinergia versus antagonismo de drogas, destacando a importância de considerar o contexto mais amplo para entender e avançar na pesquisa no campo.

  • 00:00:00 Nesta seção, Anand Madabhushi discute o impacto do aprendizado profundo no campo da patologia computacional, especificamente no que diz respeito à análise de imagens médicas. Embora a digitalização da patologia a tenha tornado um foco para a aplicação de aprendizado profundo devido à grande quantidade de dados disponíveis, Madabhushi adverte que as metodologias especializadas que envolvem recursos de artesanato ao longo de décadas de experiência podem não ter sido superadas pelos métodos de aprendizado profundo . Ele também fornece algumas estatísticas sobre diagnóstico de câncer e taxas de mortalidade para enfatizar a importância de diagnosticar o câncer com precisão em um estágio inicial por meio do uso de imagens. Madabhushi espera compartilhar suas lições aprendidas e pensamentos sobre onde e como o aprendizado profundo pode ser mais útil neste campo.

  • 00:05:00 Nesta seção, o palestrante discute a questão do superdiagnóstico e do supertratamento de cânceres, principalmente os indolentes, como o câncer de próstata. Apesar dos avanços nos biomarcadores e na terapêutica, o sobrediagnóstico e o sobretratamento permanecem problemáticos e contribuem para a toxicidade financeira dos pacientes. O palestrante explora o potencial do aprendizado de máquina no contexto do diagnóstico de câncer, prognóstico e avaliação de resposta ao tratamento para ajudar a desenvolver ferramentas prognósticas e preditivas para medicina de precisão. Embora já existam ferramentas como ensaios baseados em expressão gênica, elas têm limitações e não levam em conta a heterogeneidade intratumoral. O aprendizado de máquina apresenta uma oportunidade para melhorar essas limitações e gerenciar e tratar melhor os cânceres.

  • 00:10:00 Nesta seção, o palestrante discute o uso de slides de patologia digitalizados e análise avançada de imagens de aprendizado de máquina para identificar recursos e padrões que não podem ser discernidos visualmente por patologistas humanos. Ao identificar células individuais, linfócitos e células cancerígenas, os cientistas de dados podem usar a teoria de rede para examinar a arquitetura espacial de células individuais e analisar diferentes métricas quantitativas do arranjo espacial das células individuais para entender melhor o diagnóstico, o prognóstico e a resposta ao tratamento dos pacientes . Esse processo permite uma abordagem não invasiva e baseada em nuvem para análise de patologia.

  • 00:15:00 Nesta seção, o palestrante discute o impacto do aprendizado profundo no campo da patologia computacional, onde a quantidade de dados em slides de patologia substituiu qualquer outro domínio de imagens médicas. Uma rede neural foi publicada há seis anos, que usava anotações de células individuais para o autoencoder esparso empilhado, onde aprendia com base nas anotações das células, permitindo que a rede neural captasse detalhes menores, como gradientes e formas elípticas ásperas do células. A rede foi treinada em patches que tinham células e não tinham células que foram rotuladas à mão pelos alunos, dividindo a imagem em uma série de caixas delimitadoras. Embora algumas células tenham sido perdidas, a rede foi capaz de captar as nuances dos diferentes tipos de células.

  • 00:20:00 Nesta seção, o palestrante discute as limitações do aprendizado profundo em patologia, especificamente no que diz respeito à coloração e anotações. A coloração pode ter um impacto significativo na fidelidade das segmentações, e a rede não foi treinada da maneira mais robusta devido à discrepância entre células pequenas e grandes. O palestrante também discute seu trabalho no treinamento de um algoritmo CNN baseado na geração de recursos não supervisionados para distinguir entre corações normais e aqueles com risco de insuficiência cardíaca. O algoritmo CNN superou os patologistas, alcançando uma AUC de 0,97 em comparação com a AUC dos patologistas de apenas 0,74.

  • 00:25:00 Nesta seção, o palestrante discute uma descoberta surpreendente que fizeram ao executar o mesmo algoritmo em dois conjuntos de pacientes da mesma instituição e scanner. Apesar de não haver diferenças na patologia das imagens, a AUC do segundo conjunto caiu drasticamente devido a uma pequena atualização de software que alterou sutilmente os recursos da imagem. Isso destacou a necessidade de cautela em confiar cegamente em algoritmos, mesmo em configurações aparentemente controladas. O painel em f também mostrou que, embora a geração não supervisionada de recursos com CNNs tenha aprendido principalmente convoluções sensíveis a fontes de variação pré-analíticas, também destacou a importância de certos tipos de células e seus arranjos espaciais. Isso levou a uma abordagem subsequente que gerou uma AUC comparável à pontuação alta inicial, mas com mais resiliência a variações entre sites e telas.

  • 00:30:00 Nesta seção, o palestrante discute a importância de entender o que uma rede está aprendendo e ser cauteloso ao confiar em algoritmos de força bruta no diagnóstico médico. Ele compartilha um exemplo de uma rede que aprendeu a distinguir entre huskies e lobos com base apenas na presença de neve ao fundo, o que enfatiza a necessidade de cautela ao interpretar os resultados da rede. Apesar dessas limitações, o palestrante identifica a utilidade do aprendizado profundo em tarefas de detecção e segmentação em patologia e compartilha uma ferramenta interativa chamada Quick Annotator, que permite aos usuários segmentar alguns exemplos representativos, treinar uma rede em segundo plano e ajustar os resultados em um modo de aprendizado interativo.

  • 00:35:00 Nesta seção, o palestrante discute os desafios do processo de anotação de imagens de patologia, principalmente a falta de tempo disponível para os patologistas. Para resolver esse problema, o palestrante explica como recursos artesanais podem ajudar a melhorar a eficiência do processo de anotação. Eles fornecem exemplos de uso de aprendizado profundo para identificar diferentes compartimentos de tecido e tipos de células e, em seguida, invocam redes de gráficos para observar estatísticas espaciais e a interação de diferentes tipos de células dentro dos compartimentos de tecido. O palestrante também descreve como o aprendizado profundo foi usado para segmentar as fibras de colágeno e atribuir um vetor à sua orientação, que foi então usado para determinar a entropia e o valor prognóstico para pacientes com câncer de mama. Por fim, o palestrante apresenta um novo estudo sobre câncer de próstata que usa o aprendizado profundo para fazer a segmentação das glândulas e, em seguida, analisa o arranjo espacial e a arquitetura das glândulas para prever quais pacientes terão recorrência após a cirurgia.

  • 00:40:00 Nesta seção, o palestrante discute uma comparação direta entre um ensaio molecular comercial para prever resultados de câncer de próstata e uma abordagem baseada em imagem usando algoritmos de aprendizado profundo. Os resultados mostraram que a abordagem baseada em imagem combinada com dois fatores clínicos simples teve um desempenho quase duas vezes melhor do que o caro ensaio molecular. Além disso, a abordagem baseada em imagem usando algoritmos de aprendizado profundo produziu recursos interpretáveis e validados, que podem ser analisados a um custo muito menor em comparação com o ensaio molecular. O palestrante também destacou a necessidade de interpretabilidade em aplicações clínicas de aprendizado profundo e enfatizou a importância da engenharia de recursos artesanal em conjunto com abordagens de aprendizado profundo.

  • 00:45:00 Nesta seção, o foco está nos desafios de interpretabilidade no aprendizado de máquina para patologia, particularmente no contexto de projetar terapias multimedicamentosas para tuberculose (TB). A falta de interpretabilidade representa um desafio significativo para os clínicos, que precisam entender as representações subjacentes aos modelos para confiar em suas decisões. O palestrante enfatiza a necessidade de questionar constantemente a rede e não tomar nada como garantido. Eles também discutem a importância de começar com a metodologia mais simples primeiro e decidir quando usar o aprendizado profundo. O trabalho do laboratório sobre a tuberculose destaca a dificuldade em tratar a doença, a necessidade de terapias com vários medicamentos e a significativa heterogeneidade envolvida.

  • 00:50:00 Nesta seção, o palestrante discute os desafios de desenvolver tratamentos multimedicamentosos para a tuberculose devido aos diversos microambientes das bactérias no pulmão, que requerem diferentes medicamentos para garantir a suscetibilidade. O palestrante observa que, embora atualmente existam muitos medicamentos disponíveis para o tratamento da TB, o vasto espaço de combinação inexplorado torna difícil testar todas as combinações possíveis. O palestrante propõe dois projetos de laboratório para resolver esse problema: primeiro, estreitar o espaço de um único medicamento por meio de imagens para identificar o caminho de ação de novos medicamentos e, segundo, usar o aprendizado de máquina para fazer medições sistemáticas de combinação e desenvolver classificadores para prever o mais eficaz novas combinações. O laboratório usa imagens de lapso de tempo para capturar as mudanças na morfologia celular da bactéria para avaliar diferentes resultados de tratamento.

  • 00:55:00 Nesta seção, o palestrante descreve um projeto que usou aprendizado não supervisionado e agrupamento para associar perfis de drogas semelhantes em E.coli. Eles levantaram a hipótese de que, quando os perfis parecem iguais, essas drogas têm um mecanismo de ação semelhante. Eles aplicaram essa ideia à tuberculose, mas as células não absorveram a coloração como esperado e as características morfológicas não pareciam muito distintas umas das outras. No entanto, eles ainda encontraram diferenças estatisticamente significativas de células não tratadas em alguns grupos de tratamento. O pipeline típico para o perfil citológico foi estabelecido e eles esperavam fazer um teste de classificação para tentar descobrir quais grupos de tratamento pareciam mais semelhantes entre si. Eles descobriram que os patógenos estavam respondendo aos medicamentos, mas eram diversos em seu mecanismo de resposta e tinham paredes celulares extremamente espessas, dificultando a entrada dos medicamentos.

  • 01:00:00 Nesta seção da palestra, o palestrante discute as tentativas de sua equipe de abordar a heterogeneidade lote a lote e célula a célula de seus experimentos em aprendizado de máquina para patologia. Eles tentaram usar uma rede neural, que não funcionou devido aos dados variáveis. Eles então usaram um método chamado normalização de variação típica (TVN), desenvolvido por seu colaborador Mike Ando no Google, para alinhar as matrizes de covariância produzidas pela análise de componentes principais (PCA) dos controles não tratados de cada experimento para reduzir variações não biológicas. Eles também incorporaram métricas de heterogeneidade célula a célula e passaram do uso de PCA para uma abordagem de k vizinhos mais próximos para capturar as mudanças morfológicas sutis. Eles usaram uma abordagem estocástica para evitar fragilidade e selecionaram um novo conjunto de controles não tratados para cada tentativa de classificação.

  • 01:05:00 Nesta seção, o palestrante descreve o processo de uso de perfil morfológico para classificar drogas com base em seus efeitos sobre bactérias. O processo envolve o tratamento de bactérias com uma dose baixa e alta de um medicamento, fixação e coloração das bactérias, extração de recursos, normalização dos dados e execução de simulação estocástica. A classificação de consenso resultante tem cerca de 75% de precisão e um diagrama de rede é usado para visualizar as conexões entre as drogas. No entanto, o palestrante observa que uma droga, a bedaquilina, foi erroneamente classificada como agente atuante na parede celular, o que levou à hipótese de que estaria induzindo uma crise de energia na bactéria. Essa hipótese foi confirmada pelo crescimento da bactéria em ácidos graxos, o que resultou em uma classificação diferente.

  • 01:10:00 Nesta seção da palestra, o palestrante discute o mecanismo de ação da droga Bedaquilina na tuberculose, e como isso depende do estado metabólico da bactéria. O palestrante também descreve o uso de perfil morfológico para determinar danos proximais e efeitos secundários de antibacterianos na TB. Eles explicam que esse método fornece uma abordagem direcionada para ajudar a direcionar os pesquisadores para o espaço do caminho que eles devem focar para estudos secundários. O palestrante também aborda a medição de combinações de drogas usando um ensaio checkerboard, que é tradicionalmente ineficiente para combinações de alta ordem no tratamento de TB.

  • 01:15:00 Nesta seção, o palestrante discute os desafios associados à medição de combinações de medicamentos de alta ordem na tuberculose e apresenta uma solução chamada Diamond (medidas diagonais de interações medicamentosas de n vias). Diamond é uma otimização geométrica do ensaio do tabuleiro de damas que preserva a unidade de uma curva dose-resposta e mede as partes mais ricas em informações do tabuleiro de damas. Ao projetar uma linha, o palestrante explica como o grau de interação medicamentosa pode ser quantificado com a concentração inibitória fracionada. Diamond tem sido usado para medir eficientemente até 10 combinações de drogas. O palestrante discute um grande conjunto de dados que foi usado para resolver os dois principais problemas no planejamento de combinações de vários medicamentos usando estudos in vitro em tuberculose. O estudo mediu todas as combinações únicas, de pares e de três vias de drogas in vitro em oito ambientes de crescimento diferentes para mesclá-los computacionalmente, modelando o que acontece em diferentes modelos animais. O palestrante conclui que os perfis de interação medicamentosa são altamente dependentes do ambiente de crescimento e não existe uma combinação única que seja sinérgica em todas as condições.

  • 01:20:00 Nesta seção, o palestrante discutiu sua abordagem baseada em dados para projetar e priorizar combinações de drogas usando aprendizado de máquina. Eles utilizaram aprendizado supervisionado e não supervisionado para reunir seus dados em um cubo de dados e encontraram um sinal forte que delineia combinações com base em se eles seriam melhores do que o padrão de atendimento ou não. Eles também encontraram uma maneira de limitar o número de condições de crescimento que fazem suas medições usando diferentes métodos de aprendizado supervisionado, como modelos aleatórios de floresta. O palestrante destacou que a abordagem mais simples funcionou melhor para eles apresentarem um caminho para a melhor forma de explorar o espaço de combinação de forma sistemática e eficiente usando modelos in vitro validados. No geral, sua abordagem pode ajudar a reduzir o número de experimentos in vitro e levar às melhores combinações de drogas.

  • 01:25:00 Nesta seção, a palestrante agradece aos indivíduos em seu laboratório que trabalharam em vários projetos difíceis e confusos, que incluem estudos de sinergia de drogas versus antagonismo. Esses estudos, em última análise, ajudam a fornecer um contexto mais amplo para aprendizado de máquina e aprendizado profundo nas ciências da vida, destacando que eles são uma pequena parte de uma equação muito maior. Ressalta-se a importância de considerar esse contexto mais amplo, pois nem sempre é a abordagem correta, mas necessária para a compreensão e o avanço das pesquisas na área. No geral, a palestra do palestrante foi muito esclarecedora e forneceu informações valiosas sobre a interseção de aprendizado de máquina e patologia.
 

Aprendizado Profundo para Segmentação de Imagens Celulares - Aula 20



Deep Learning para Segmentação de Imagens Celulares - Palestra 20 - MIT ML em Ciências da Vida (Primavera de 2021)

Neste vídeo, os palestrantes discutem o uso de aprendizado profundo para rastreamento de células, que envolve a determinação do movimento das células em imagens de lapso de tempo. Eles explicam que os métodos tradicionais de rastreamento manual são caros e demorados, e que os métodos de aprendizado profundo podem acelerar significativamente o processo e, ao mesmo tempo, fornecer maior precisão. Os palestrantes discutem várias arquiteturas de aprendizado profundo para rastreamento de células, incluindo U-Net, StarDist e DeepCell. Eles também observam que um dos desafios no rastreamento de células é distinguir entre células que estão próximas ou se sobrepõem, e que métodos como rastreamento de vários objetos ou abordagens baseadas em gráficos podem ajudar a resolver esse problema. Os palestrantes enfatizam a importância de comparar diferentes métodos de aprendizado profundo para rastreamento de células e fornecer conjuntos de dados de acesso aberto para reprodutibilidade e comparação. Eles também destacam as aplicações potenciais do rastreamento de células em vários campos, como a pesquisa do câncer e a descoberta de medicamentos.

  • 00:00:00 Nesta seção, Juan Casado discute o conceito de fenotipagem baseada em imagens, que é um método para entender sistemas biológicos por meio do uso de microscopia e outras técnicas de imagem. Ele explica como imagens de estruturas biológicas, como células, podem ser quantificadas para diferentes fenótipos, incluindo tamanho de célula e conteúdo de DNA, e usadas para orientar decisões sobre tratamentos e descoberta de medicamentos. Casado dá um exemplo de um candidato a medicamento bem-sucedido para leucemia que foi descoberto por meio da medição precisa do tamanho da célula usando imagens de microscopia, levando à sua aprovação final pelo FDA. Ele destaca o impacto potencial do perfil baseado em imagem no campo da biologia e desenvolvimento de medicamentos.

  • 00:05:00 Nesta seção, o foco está no desafio de comparar populações de células com características diferentes e identificar quais tratamentos são eficazes. Isso requer mais informações e estratégias para extrair informações de imagens de células, que é onde entra o perfil baseado em imagens. Isso envolve estender a morfologia das células ou o estado das células usando imagens para extrair informações quantitativas para descoberta de medicamentos e genômica funcional. Os dois problemas computacionais associados a esta abordagem são segmentação celular e aprendizagem de representação de célula única, onde o objetivo é identificar onde células individuais estão em imagens sem ter que gastar tempo e energia ajustando algoritmos de segmentação para diferentes tipos de imagem. Em última análise, o objetivo é criar algoritmos de segmentação para células que funcionem bem como detectores de fase em imagens naturais.

  • 00:10:00 Nesta seção, o palestrante fala sobre o BioImage Challenge 2018, que teve como objetivo fazer com que as tecnologias de visão computacional funcionem para a segmentação em biologia. O desafio envolvia criar um conjunto de dados anotado, dividindo-o em partições de treinamento e teste, definindo uma métrica de sucesso e fornecendo feedback aos participantes por meio de um sistema de pontuação baseado na interseção sobre a união. Esperava-se que os participantes usassem um modelo de aprendizado de máquina supervisionado para aprender as relações entre entradas e saídas e gerar um mapa de segmentação da imagem fornecida como entrada. Os vencedores foram aqueles que conseguiram segmentar o conjunto final de teste com mais precisão de acordo com a métrica utilizada.

  • 00:15:00 Nesta seção, o palestrante discute os três principais concorrentes em uma competição de segmentação de imagens de células e o uso de diferentes arquiteturas para seus modelos de aprendizado de máquina. A equipe do terceiro lugar usou a arquitetura Mask RCNN, que decompõe uma imagem em regiões e gera candidatos que são analisados por uma rede para determinar se são objetos reais ou não, antes de identificar a caixa delimitadora exata e a máscara para separar o objeto do fundo. A equipe do segundo lugar usou uma rede de pirâmide de imagens, que calcula vários mapas de recursos para gerar saídas intermediárias e agrega informações de todas as diferentes resoluções para gerar a saída final. O palestrante observa que, embora a arquitetura desempenhe um papel na obtenção de alta precisão para a segmentação de células, a maneira como os experimentos regulares de calibração e validação cruzada são executados também é crucial.

  • 00:20:00 Nesta seção, o palestrante discute uma nova abordagem para a segmentação de imagens. Em vez de usar máscaras binárias para determinar a localização de objetos em uma imagem, a solução envolve a previsão de mapas de distância ou mapas de ângulos que medem distâncias em diferentes direções a partir do centro da célula. As saídas foram projetadas manualmente para fornecer medições mais precisas da localização do objeto, o que resultou no segundo lugar na competição. Embora essa ideia fosse nova na época, trabalhos subsequentes avaliaram seu valor e a consideraram robusta, especialmente para imagens lotadas com muitos objetos. A arquitetura do codificador-decodificador utilizada não era inovadora, mas a novidade veio de replicar a arquitetura exata em 32 modelos diferentes, formando um conjunto, o que os ajudou a vencer a competição.

  • 00:25:00 Nesta seção, os palestrantes discutem o desempenho de uma abordagem de conjunto versus modelos mais simples para segmentação de imagens de células. Eles explicam que, embora a abordagem de conjunto possa ser computacionalmente intensiva, modelos mais simples ainda podem ser eficazes na prática. Eles também discutem as limitações das competições e observam que seria útil analisar modelos individuais dentro de um conjunto para reduzi-los a apenas os mais precisos. Os palestrantes avaliam as melhorias que podem ser feitas para facilitar a pesquisa em biologia por meio da segmentação, mostrando que a otimização de algoritmos para tipos de imagem específicos pode ser demorada e a precisão pode variar de acordo com o tipo de imagem. Eles também observam que desequilíbrios nas anotações e dificuldade em segmentar certos tipos de imagem podem apresentar desafios em situações do mundo real.

  • 00:30:00 Nesta seção, o palestrante discute os desafios de analisar diferentes tipos de técnicas de imagem, desde pequenas imagens fluorescentes até as imagens rosa e roxas que são mais difíceis de segmentar. Existem diferentes abordagens para segmentar imagens, como treinar um modelo por tipo de imagem ou usar algoritmos clássicos com parâmetros ajustados. Além disso, agora existem modelos pré-treinados disponíveis para segmentação celular, como Nucleizer, CellPose e Mesmer. No entanto, ainda existem desafios em aberto na segmentação, como coletar conjuntos de dados maiores e otimizar o tempo que os especialistas gastam na identificação de objetos. O palestrante também aborda brevemente a importância de medir o fenótipo das células usando métodos de aprendizado de máquina que podem aprender recursos além das medições clássicas da morfologia.

  • 00:35:00 Nesta seção, o palestrante discute o uso de métodos de aprendizado de máquina na segmentação de imagens celulares para descoberta de medicamentos. Experimentos de perturbação são usados onde as células são tratadas com compostos, mas os efeitos de lote podem causar ruído e confundir a compreensão do fenótipo. Como não há verdade de campo, é utilizado um método de aprendizado fracamente supervisionado, onde uma rede neural é utilizada para classificar o composto aplicado. O objetivo é obter características para organizar as células de forma significativa, que possam informar se os compostos são semelhantes ou não. A avaliação envolve a observação de agrupamentos de compostos que compartilham efeitos biológicos semelhantes, com o objetivo de reduzir o espaço de busca a compostos úteis. A comparação dos recursos de aprendizado profundo com os recursos clássicos mostra uma diferença significativa.

  • 00:40:00 Nesta seção, o palestrante discute o uso de aprendizado profundo para segmentação de imagens celulares, especificamente na determinação de conexões biologicamente significativas entre compostos e na identificação do impacto de mutações no câncer. Ao comparar o tipo original de um gene com um mutante, os pesquisadores podem medir a semelhança fenotípica entre eles para determinar se o mutante está causando o câncer ou não. No entanto, a correção em lote continua sendo um desafio no aprendizado profundo, pois pode influenciar os recursos aprendidos nas imagens. O palestrante sugere o uso de adaptação de domínio, onde uma rede neural é usada com duas cabeças para classificação de compostos e determinação de lotes. O gradiente negativo é então usado para destruir informações potenciais associadas ao lote, resultando em uma determinação fenotípica mais clara. No geral, o palestrante conclui que as imagens são uma grande fonte de informação para a descoberta biológica, mas também reconhece os desafios abertos na aprendizagem de representações e modelos explicáveis.
 

Registro e análise de imagens de aprendizado profundo - Aula 21



Registro e análise de imagens de aprendizagem profunda - Aula 21 - MIT ML em Ciências da Vida (Primavera de 2021)

Nesta palestra, Adrian Dalock investiga o tópico de alinhamento de imagens médicas e o problema de otimização por trás dele. Ele propõe um novo método chamado voxel morph, que envolve o uso de conjuntos de dados não rotulados para treinar redes neurais para registro de imagens. O palestrante também discute o desafio da robustez a novos dados e sequências que as redes neurais nunca viram antes e propõe a simulação de condições diversas e extremas para treinar modelos robustos. O palestrante compara os modelos de registro clássicos aos modelos voxel morph e synthmorph, sendo este último notavelmente robusto. Por fim, o palestrante discute o desenvolvimento de uma função que gera modelos com base nas propriedades desejadas, em vez de aprender um modelo diretamente e o uso potencial da videoendoscopia de cápsula para detectar anormalidades do cólon.

O palestrante desta palestra discute várias abordagens de aprendizado de máquina para superar a falta de dados médicos, especificamente no contexto de vídeos de colonoscopia para detecção de pólipos. Eles introduzem uma arquitetura de registro e análise de imagem de aprendizado profundo que utiliza pesos pré-treinados e inicialização aleatória para lidar com a mudança de domínio e melhorar o desempenho. A palestra também abrange aprendizado fracamente supervisionado, aprendizado auto-supervisionado e segmentação de vídeo fracamente supervisionado. O palestrante reconhece os desafios enfrentados no uso de abordagens de aprendizado de máquina na análise de dados médicos e incentiva o teste dessas abordagens em procedimentos médicos reais para reduzir a carga de trabalho.

  • 00:00:00 Nesta seção da palestra, Adrian Dalock discute a importância de alinhar imagens médicas e o problema de otimização por trás disso. Ele explica que o alinhamento das imagens a um referencial comum é fundamental para a análise de imagens médicas, pois permite a identificação de estruturas e doenças, além da comparação entre sujeitos. No entanto, a etapa tradicional de alinhamento consumia muito tempo, levando até duas horas por cérebro, o que dificultava o desenvolvimento de modelos sofisticados. Dalock apresenta um método significativamente mais rápido, que leva menos de um minuto em uma CPU e menos de um segundo em uma GPU, e permite pesquisas mais rápidas e eficientes nesse campo. Ele define alinhamento ou registro como encontrar um campo de deformação que corresponda a imagens e tem sido amplamente pesquisado em vários domínios, incluindo visão computacional e biologia computacional.

  • 00:05:00 Nesta seção, o palestrante discute a evolução dos métodos de registro de imagens, começando pelos modelos clássicos e progredindo para os métodos baseados em aprendizado que surgiram há três anos. No entanto, os últimos métodos, embora eficazes, são prejudicados pela falta de um campo de deformação de base para usar para dados supervisionados. O palestrante propõe um novo método que envolve o uso de conjuntos de dados não rotulados para treinar redes neurais, resultando em soluções ponta a ponta mais elegantes e eficientes para registro de imagens. A estrutura envolve o uso de funções de perda de modelos clássicos para otimizar toda uma nova rede neural, resultando em maior precisão e velocidades mais rápidas.

  • 00:10:00 Nesta seção, o palestrante descreve um método para registro de imagem usando técnicas de aprendizado profundo, que empresta de métodos clássicos, mas otimiza uma rede neural para campos de deformação de saída em vez de otimizar os campos diretamente. O campo de deformação é aplicado a todas as imagens em um conjunto de dados e técnicas de gradiente estocástico são usadas para otimizar a rede. O palestrante explica como perdas diferenciáveis são usadas para garantir a suavidade do campo de deformação, e os resultados são avaliados comparando estruturas anatômicas antes e depois do processo de empenamento, bem como medindo sobreposições de volume. O método proposto, chamado voxel morph, é capaz de estimar a saída de um procedimento de otimização e fornecer uma aproximação para modelos probabilísticos, oferecendo conexões elegantes entre imagens, campos de deformação e estimativas de incerteza.

  • 00:15:00 Nesta seção, o palestrante discute sua análise de treinamento de uma rede neural voxel morph com apenas algumas imagens, revelando que mesmo com apenas 10 imagens, a saída do campo de deformação da rede está próxima do estado da arte . Além disso, o palestrante aborda a questão de delinear áreas específicas de interesse, como o hipocampo em um cérebro, e como eles foram capazes de ensinar a rede a identificar essa área sem realmente rotulá-la, fazendo com que ela realizasse uma "segmentação suave" durante treinamento. Por fim, o palestrante discute o desafio das diversas imagens médicas e como as redes de treinamento em apenas uma modalidade podem limitar sua capacidade de trabalhar com outras modalidades, apresentando um projeto que resolve esse problema.

  • 00:20:00 Nesta seção, o palestrante discute o desafio de criar redes neurais robustas a novos dados e sequências que eles nunca viram antes. Eles propõem a simulação de condições diversas e extremas para expor a rede a uma variabilidade significativa para que ela decida ignorar alguns outliers, permitindo uma melhor generalização para dados do mundo real. Para conseguir isso, eles deformam imagens aleatoriamente, adicionam diferentes padrões de ruído, preenchem valores e intensidades aleatoriamente e simulam vários efeitos para gerar dados. Eles experimentaram simular dados diversos para registros e papéis de segmentação e simular formas aleatórias, o que lhes deu um campo de deformação que poderia ser usado para testar a qualidade da informação.

  • 00:25:00 Nesta seção, o palestrante discute os resultados do treinamento de diferentes modelos para registro e análise de imagens. Eles treinaram modelos voxel morph e duas versões do modelo synthmorph usando diferentes métricas para treinamento. Os modelos clássicos têm um bom desempenho, mas os modelos de morfo voxel com variabilidade e robustez têm um desempenho ainda melhor. Os modelos que foram treinados com imagens de cérebros simulados ou blobs fazem aproximadamente o mesmo que os modelos de voxel morph e melhor do que os modelos clássicos. No entanto, quando se trata de registrar entre as modalidades, os modelos que foram treinados com métricas de mesmo contraste entram em colapso. Enquanto isso, os modelos synthmorph são notavelmente robustos, mesmo com imagens reais. No entanto, a capacidade do modelo pode levar a um problema em que os recursos das imagens reais podem não ser capturados.

  • 00:30:00 Nesta seção da palestra, o palestrante discute a capacidade dos modelos de aprendizado de máquina e como o campo está caminhando para o uso de mais parâmetros. Eles simulam varreduras cerebrais com diferentes modalidades e comparam o desempenho de modelos clássicos, voxel morph, e seu método, synthmorph. Eles descobriram que seu método é robusto, pois é capaz de ignorar completamente o contraste e extrair apenas a anatomia necessária, o que está sendo feito aprendendo a ignorar a resposta à variação de contraste nas características da rede. Eles também apresentam seu novo método, hypermorph, que aprende o efeito de hiperparâmetros em campos de registro. O potencial desse método é que ele requer apenas treinar um modelo e ajustá-lo posteriormente, o que elimina a necessidade de treinar vários modelos.

  • 00:35:00 Nesta seção, o palestrante discute uma técnica chamada hiper redes, que envolve o treinamento de uma pequena rede que recebe um valor de hiperparâmetro como entrada e gera os pesos de uma rede maior que gera campos de deformação para registro de imagem. Ao ajustar o valor do hiperparâmetro, o campo de deformação pode ser ajustado sem a necessidade de retreinamento, e um único modelo hipermorfo pode capturar uma ampla gama de variações do campo de deformação. Essa técnica pode ser aplicada a várias configurações de aprendizado de máquina além do registro de imagem e pode ser útil para permitir o ajuste interativo do modelo ou ajustá-lo com base nos dados de validação. O valor ideal do hiperparâmetro varia de acordo com o conjunto de dados, a idade do paciente e a tarefa de registro, entre outros fatores.

  • 00:40:00 Nesta seção da palestra, o palestrante discute a importância de selecionar diferentes valores de hiperparâmetros para diferentes regiões do cérebro ao realizar o registro de imagens. Eles também comparam um modelo treinado com dados reais com outro treinado com dados aleatórios, explicando como o primeiro é mais suscetível a ruídos em diferentes regiões. Eles então apresentam um projeto focado na ideia de alinhar dados a um quadro de referência comum sem construir um cérebro centroidal ou usar um modelo. Em vez disso, eles propõem estimar um atlas ao mesmo tempo em que registram imagens, e a ferramenta resultante se mostra flexível e capaz de resolver muitos problemas que antes eram difíceis de resolver, como a construção de modelos separados para diferentes populações.

  • 00:45:00 Nesta seção, o palestrante discute o conceito de "modelos condicionais" no registro e análise de imagens de aprendizado profundo, que envolve o aprendizado de uma função que gera um modelo com base em uma propriedade desejada (como idade, sexo ou genética informações) em vez de aprender um modelo diretamente. Ao alimentar dados do paciente e informações sobre a idade, a rede é capaz de aprender um atlas dependente da idade que captura certos efeitos entre diferentes cérebros, como mudanças no tamanho do ventrículo. O palestrante também discute o potencial de análise relacionada à genética usando métodos semelhantes, bem como o uso de codificadores variacionais e outros conceitos de aprendizado de máquina nesse campo.

  • 00:50:00 Nesta seção da palestra, o palestrante discute a motivação por trás de seu trabalho na detecção automática de patologias para videoendoscopia por cápsula, que é uma colaboração entre a Universidade Norueguesa de Ciência e Tecnologia e um hospital na Noruega. O cólon humano é suscetível a doenças como câncer colorretal e colite ulcerativa, que corroem a suavidade das paredes do cólon e podem levar a sangramento ou outras complicações. As colonoscopias são recomendadas pelos médicos para indivíduos com mais de 50 anos, mas podem não ser aceitas pelos pacientes. Endoscopias de vídeo em cápsula oferecem uma maneira alternativa de visualizar as paredes do cólon e detectar anormalidades usando uma pequena câmera do tamanho de uma pílula que transmite quase 50.000 quadros para produzir uma grande quantidade de dados.

  • 00:55:00 Nesta seção, os palestrantes discutem os desafios da imagiologia com videoendoscopia por cápsula, na qual uma cápsula ingerível captura imagens à medida que viaja pelo trato digestivo. A cápsula deve ser tomada com o estômago vazio e pode faltar recursos nas dobras do cólon. Além disso, a cápsula pode ficar presa ou enfrentar obstáculos geométricos ao passar pelo intestino delgado, podendo levar a uma cirurgia. A qualidade de vídeo resultante não é tão boa quanto a qualidade de imagem HD, com cor limitada e suavidade de transição. Apesar dessas limitações, a videoendoscopia por cápsula pode ajudar no diagnóstico de condições como a diverticulite, e os médicos procuram anormalidades no vídeo para orientar o tratamento.

  • 01:00:00 Nesta seção da palestra, o palestrante discute os desafios do uso de abordagens de aprendizado de máquina na análise de dados médicos, especificamente no contexto de vídeos de colonoscopia para detecção de pólipos. O principal problema é a falta de dados devido à natureza cara e lenta da aquisição de dados médicos e à dificuldade de obtenção de rotulagem por diversos patologistas. O palestrante descreve várias abordagens de aprendizado de máquina para superar a falta de dados, como aprendizado de transferência e aprendizado supervisionado, e explica as abordagens atuais de aprendizado profundo usando imagens RGB, recursos geométricos e convoluções 3D. Por fim, o palestrante apresenta a abordagem wine it para detecção de pólipos, que envolve o uso do registro para alinhar as imagens da colonoscopia e melhorar o desempenho da detecção de pólipos.

  • 01:05:00 Nesta seção da palestra, o palestrante discute uma arquitetura de análise e registro de imagem de aprendizado profundo que utiliza pesos pré-treinados e inicialização aleatória para abordar a mudança de domínio e melhorar o desempenho na detecção de objetos e segmentação de imagens. A arquitetura consiste em dois codificadores, um pré-treinado do ImageNet e outro com pesos aleatórios, juntamente com o aumento das imagens de entrada. As taxas de aprendizado para cada codificador dependem da camada em que estão treinando, e a entropia cruzada binária e a função de perda de dados são utilizadas. A arquitetura é testada em um conjunto de dados de vídeos contendo pólipos e atinge uma pontuação F1 de 85,9 usando várias variações da mesma entrada. Por fim, o palestrante apresenta vídeos mostrando a eficácia da arquitetura.

  • 01:10:00 Nesta seção, o palestrante discute o desafio de coletar dados rotulados para um problema de registro de imagem e apresenta o conceito de aprendizado de múltiplas instâncias com supervisão fraca. A suposição é que existe uma bolsa positiva com pelo menos uma instância da patologia de interesse, enquanto a bolsa negativa sempre tem instâncias negativas. O problema é formulado como encontrar quais quadros contêm a patologia e podem ser otimizados prevendo a contribuição individual de cada quadro e otimizando a perda no rótulo de vídeo final da agregação. Note-se que este problema é desafiador devido aos dados rotulados limitados e à ausência de dados sobre componentes individuais, exigindo uma abordagem fracamente supervisionada.

  • 01:15:00 Nesta seção, o palestrante discute como eles extraíram recursos de ressonância 50 de vídeos com patologias e vídeos normais e os passaram por blocos LSTM residuais que contêm LSTM bidirecional com uma conexão de salto. Eles explicam que o objetivo é encontrar os alfas que são a contribuição de cada quadro para o problema de classificação final do vídeo. Eles também discutem a exploração de estruturas de alto valor de atenção para identificar patologias e separá-las das classes negativas. A função de perda final é uma entropia cruzada da classificação do vídeo e a separação das bolsas entre bancos positivos e negativos. O palestrante então compartilha como realizou um estudo de denominação para determinar onde aprender a atenção, com os melhores resultados alcançados observando a representação oculta final e aplicando-a ao resultado final. A abordagem foi testada contra outros métodos que usam aprendizado métrico.

  • 01:20:00 Nesta seção, o palestrante discute o uso do aprendizado autossupervisionado em imagens médicas e os desafios que ele representa. Eles mencionam que uma abordagem que obteve algum sucesso é usar um problema de quebra-cabeças em que as imagens são particionadas em patches e reconstruídas. No entanto, o problema com imagens médicas é que não há invariante de rotação, dificultando a localização de clusters significativos. O palestrante sugere que melhorar a localização de quadros de vídeo por meio do conhecimento de domínio, como entender como diferentes doenças se manifestam, pode ser uma abordagem útil para melhorar a classificação de patologias.

  • 01:25:00 Nesta seção, o palestrante discute a segmentação de vídeo fracamente supervisionada e a necessidade de detectar onde os quadros estão localizados para fornecer melhores explicações em ambientes médicos. Eles também mencionam o design de tarefas de pré-teste auto-supervisionadas e a aprendizagem contrastiva como novas e excitantes abordagens nesta área, com novos trabalhos sendo publicados todos os dias. O palestrante reconhece o projeto icomet e incentiva o teste dessas abordagens em procedimentos médicos reais para reduzir a carga de trabalho. O anfitrião agradece os verdadeiros profissionais que resolvem problemas médicos e agradece ao palestrante pela palestra informativa.
 

Registros eletrônicos de saúde - Aula 22



Registros eletrônicos de saúde - Aula 22 - Deep Learning in Life Sciences (Primavera de 2021)

O surgimento do aprendizado de máquina na área da saúde se deve à adoção de registros médicos eletrônicos em hospitais e à grande quantidade de dados do paciente que podem ser utilizados para insights significativos de saúde. A modelagem da progressão da doença é discutida utilizando dados longitudinais encontrados em registros de doenças, que podem representar desafios devido a dados longitudinais de alta dimensão, ausência e censura à esquerda e à direita. A palestra explora o uso de modelos não lineares como modelos profundos de Markov para lidar com esses desafios e modelar efetivamente a densidade não linear de biomarcadores longitudinais. Além disso, o palestrante discute o uso do conhecimento do domínio para desenvolver novas arquiteturas neurais para a função de transição e a importância de incorporar o conhecimento do domínio ao design do modelo para uma melhor generalização. Também há experimentação com a complexidade do modelo em relação às funções de efeito do tratamento, e o palestrante planeja revisitar essa questão em uma coorte maior para determinar outras descobertas.

  • 00:00:00 Nesta seção, Rahul Krishnan, pesquisador sênior da Microsoft Research, explica o surgimento do aprendizado de máquina na área da saúde devido à digitalização de dados de registros médicos eletrônicos. A adoção de sistemas de registros médicos eletrônicos em hospitais levou a uma grande quantidade de dados de pacientes que poderiam ser utilizados para insights significativos de saúde. Krishnan destaca o uso de registros de doenças, que são conjuntos de dados mais focados em uma única doença, divulgados por organizações sem fins lucrativos para os pesquisadores estudarem e responderem a perguntas. Técnicas de aprendizado de máquina, como aprendizado não supervisionado, estão sendo usadas para investigar a subestrutura desses conjuntos de dados e criar ferramentas para auxiliar os médicos. A apresentação se concentra na modelagem da progressão da doença e em alguns dos trabalhos que estão sendo realizados por pesquisadores nesse campo.

  • 00:05:00 Nesta seção, o palestrante discute a modelagem da progressão da doença utilizando dados longitudinais encontrados nos registros de doenças. A modelagem da progressão da doença existe há décadas e tenta construir modelos estatísticos que possam capturar os dados complexos e confusos encontrados nos registros de doenças, incluindo covariáveis de linha de base, biomarcadores longitudinais e informações de tratamento. Esse problema é frequentemente apresentado como aprendizado não supervisionado, em que os modelos visam maximizar a probabilidade logarítmica de observar a sequência de biomarcadores longitudinais de um paciente condicionada a suas informações de linha de base e sequência de intervenções. O palestrante apresenta uma nova abordagem para modelagem de progressão de doenças que será publicada no ICML deste ano.

  • 00:10:00 Nesta seção, o palestrante discute os desafios do uso de registros eletrônicos de saúde para modelar a progressão da doença no contexto do mieloma múltiplo, um câncer raro da medula óssea. Como a doença é tão rara, geralmente há apenas um pequeno número de pacientes para aprender, dificultando uma boa modelagem e estimativa de densidade. Além disso, os dados de saúde apresentam desafios, como dados longitudinais de alta dimensão com variação não linear, falta e censura à esquerda e à direita. O palestrante sugere o uso de modelos não lineares, como modelos profundos de Markov, para lidar com esses desafios e modelar efetivamente a densidade não linear de biomarcadores longitudinais.

  • 00:15:00 Nesta seção, a palestra descreve um modelo de variável latente para registros eletrônicos de saúde, onde os dados são gerados pelas variáveis latentes e observações obtidas ao longo do tempo. O modelo assume que a escolha do medicamento prescrito por um médico depende dos valores de biomarcadores clínicos obtidos em observações anteriores. O palestrante também aborda a questão dos dados ausentes, que podem ser superados marginalizando as variáveis ausentes durante a estimativa de probabilidade máxima. No entanto, para inferência variacional usando uma rede de inferência, o modelo requer aproximações para estimar os dados ausentes, e mais pesquisas são necessárias para entender como a falta afeta o viés da distribuição posterior aproximada.

  • 00:20:00 Nesta seção, o palestrante explica como um modelo pode ser usado para prever o histórico médico de um paciente, modelando suas interações com um médico ao longo do tempo. O modelo usa uma representação latente, que muda ao longo do tempo, para prever o estado médico do paciente. O palestrante destaca os desafios na modelagem de dados médicos devido à não linearidade e à raridade de certas doenças. Eles exploram o uso do conhecimento de domínio para desenvolver uma nova arquitetura neural para a função de transição. O palestrante também discute o uso de um relógio global e relógios locais para rastrear a duração do tratamento e o tempo decorrido até um grande evento de progressão, respectivamente. Eles explicam como aproximar o efeito mecanicista das drogas e incorporar esse conhecimento ao modelo.

  • 00:25:00 Nesta seção, o palestrante discute o uso da farmacocinética e da farmacodinâmica para aproximar o efeito dos medicamentos prescritos para o tratamento do câncer no tumor de um paciente. Eles propõem três novas arquiteturas neurais para modelar o efeito de múltiplas drogas administradas aos pacientes em conjunto, combinando-as usando um mecanismo de atenção para criar uma única função. O objetivo é fazer a estimativa de densidade condicional, usando conhecimento de domínio para combater o overfitting. O modelo, denominado SSNPK, é aplicado a uma coorte de pacientes com mieloma múltiplo tratados de acordo com o padrão atual de tratamento, com 16 biomarcadores clínicos ao longo do tempo, nove indicações de tratamentos e 16 características basais.

  • 00:30:00 Nesta seção, o palestrante discute os resultados do uso de diferentes modelos para analisar dados clínicos, focando especificamente no uso de aprendizado profundo e modelos de espaço de estado. Eles comparam a eficácia dos diferentes modelos na generalização de novos dados e descobrem que o uso de ssnpkpd resulta consistentemente em melhor desempenho em linhas de base lineares e não lineares. Eles também realizam uma análise de ablação para identificar quais biomarcadores mais contribuem para os ganhos observados nos modelos e descobrem que o uso de relógios locais e globais é útil na modelagem da dinâmica dos dados. Além disso, eles usam o espaço latente do modelo treinado para explorar e entender melhor o comportamento dos dados ao longo do tempo.

  • 00:35:00 Nesta seção da palestra, o palestrante discute os resultados do uso do modelo SSNPKPD para prever futuros biomarcadores clínicos de um paciente com base em seus biomarcadores de linha de base. O modelo mostra um ajuste maior aos dados em comparação com uma linha de base linear, indicando que as representações latentes capturadas pelo SSNPKPD retêm o histórico relevante do paciente para prever futuros biomarcadores clínicos. O palestrante resume a principal conclusão da palestra, que é a importância de incorporar o conhecimento do domínio no design do modelo para uma melhor generalização, e destaca as oportunidades para pesquisas futuras na combinação de diferentes modalidades de dados na área da saúde. O palestrante também destaca a validação contínua dos resultados em uma coorte maior e a possibilidade de incorporar o modelo em ferramentas de apoio à decisão clínica e estruturas de aprendizado por reforço baseadas em modelos.

  • 00:40:00 Nesta seção, o palestrante discute sua experimentação com a complexidade do modelo em relação às funções de efeito de tratamento. Eles tentaram variações do modelo criando cópias das funções de efeito do tratamento, variando de três a doze, e descobriram que havia um ponto em que a complexidade adicional não melhorava significativamente o desempenho e até o diminuía. No entanto, quando removeram algumas das funções de efeito do tratamento, encontraram alguma queda no desempenho, mas ainda superaram o modelo linear. O palestrante planeja revisitar essa questão de generalização em uma coorte maior com o AV para determinar a extensão dessas descobertas.
 

Deep Learning e Neurociência - Aula 23



Deep Learning and Neuroscience - Palestra 23 - Deep Learning in Life Sciences (Primavera de 2021)

A palestra discute a interação entre aprendizado profundo e neurociência, especificamente na área de ciência visual. O objetivo é fazer engenharia reversa da inteligência visual humana, que se refere às capacidades comportamentais que os humanos exibem em resposta aos fótons que atingem seus olhos. O palestrante enfatiza a explicação desses recursos na linguagem dos mecanismos, como redes de neurônios simulados, para permitir a construção de sistemas preditivos que podem beneficiar tanto as ciências do cérebro quanto a inteligência artificial. A palestra explora como os modelos de aprendizado profundo são hipóteses de como o cérebro executa os processos do sistema sensorial e as aplicações potenciais além de apenas imitar a evolução do cérebro. Além disso, a palestra mostra exemplos práticos de como as redes neurais podem manipular memórias e mudar o significado de algo.

Este vídeo discute o potencial da aprendizagem profunda na compreensão das funções cognitivas do cérebro e no aproveitamento dessa compreensão para fins de engenharia. O palestrante destaca a relevância das redes neurais recorrentes com suas capacidades de memória e dinâmica interna nesta área. A palestra explora a capacidade dos sistemas neurais de aprender por meio da imitação e como isso pode ser usado para aprender representações, cálculos e manipulações da memória de trabalho. O vídeo também aborda a dificuldade em encontrar evidências de aprendizagem por feedback como uma condição de aprendizagem e o potencial de mecanismos de correção de erros para ajustar o sistema. A palestra termina refletindo sobre a diversidade de tópicos abordados no curso e como o aprendizado profundo pode auxiliar na interpretação de sistemas cognitivos no futuro.

  • 00:00:00 Nesta seção, o palestrante discute a interação entre aprendizado profundo e neurociência, especificamente na área de ciência visual. Ele explica como os modelos de aprendizado profundo podem ser vistos como hipóteses científicas de como os aspectos da função cerebral podem funcionar e como os neurocientistas e cientistas cognitivos avaliam a qualidade dessas hipóteses em relação aos dados. A palestra de Carlo se concentra no objetivo da engenharia reversa da inteligência visual humana, que se refere às capacidades comportamentais que os humanos exibem em resposta aos fótons que atingem seus olhos. Ele enfatiza a importância de explicar esses recursos na linguagem dos mecanismos, como redes de neurônios simulados, para permitir sistemas preditivos construídos que podem beneficiar tanto as ciências do cérebro quanto a inteligência artificial.

  • 00:05:00 Nesta seção, o palestrante discute a inteligência visual e como o cérebro estima o que existe em uma cena, como identificar carros ou pessoas; no entanto, prever o que acontecerá a seguir e outros problemas baseados na física ainda é um desafio para os cientistas entenderem. Apesar disso, os cientistas fizeram um progresso significativo na modelagem dos visuais fundamentais que processamos em cada vislumbre de 200 milissegundos de uma cena, o que também é conhecido como reconhecimento de objetos centrais. O palestrante fornece exemplos de testes que medem nossa capacidade de reconhecer objetos e compará-los com outras espécies, como sistemas de visão computacional e primatas não humanos como macacos rhesus.

  • 00:10:00 Nesta seção, o palestrante discute a capacidade dos humanos e dos primatas de distinguir objetos. Ele observa que os humanos e os primatas têm desempenho semelhante em tarefas de reconhecimento visual, com os humanos tendo desempenho apenas um pouco melhor. Além disso, o palestrante discute os sistemas de aprendizado profundo e como eles se comparam às habilidades de reconhecimento visual de humanos e primatas. O palestrante então passa a discutir as áreas do cérebro do macaco rhesus envolvidas em tarefas de reconhecimento visual e destaca o córtex infratemporal como a área de nível mais alto. Por fim, o palestrante observa as escalas de tempo típicas para que os padrões de atividade neural surjam no córtex infratemporal e como isso corresponde ao tempo necessário para habilidades de amostragem comportamental evidentes.

  • 00:15:00 Nesta seção da palestra em vídeo, o palestrante discute como os pesquisadores estudam a resposta de neurônios individuais no córtex visual de animais como macacos a imagens usando eletrodos de gravação invasivos. Ao medir os padrões de atividade elétrica dos neurônios em resposta a diferentes imagens, os pesquisadores podem quantificar a resposta usando taxas médias de pico. Esses padrões de atividade podem ser agrupados por semelhanças em sua seletividade, e áreas especiais de agrupamento para certos tipos de objetos, como rostos, foram identificadas no córtex visual. O uso de matrizes de gravação crônica permite que os pesquisadores gravem dos mesmos locais neurais por semanas ou meses e meçam as respostas a milhares de imagens.

  • 00:20:00 Nesta seção, o palestrante explica um experimento no qual dados neurais foram registrados enquanto um animal estava se fixando ou executando uma tarefa ou observando imagens. Ao treinar decodificadores lineares em pequenas amostras de dados, surgiram padrões indistinguíveis daqueles observados em humanos e macacos. Isso permitiu o desenvolvimento de um conjunto poderoso de espaços de recursos que poderiam ser usados em aplicativos de interface cérebro-máquina para visualizar certas percepções. O palestrante então discute as transformações não lineares que ocorrem entre a atividade neural e a imagem, sugerindo que esta área é onde o aprendizado profundo e a ciência da visão se unem.

  • 00:25:00 Nesta seção, o palestrante discute como as redes convolucionais profundas foram inicialmente construídas com base em princípios conhecidos na neurociência, como o conceito de detecção de borda, filtragem, não linearidades de saída e controle de ganho. No entanto, como esses modelos foram testados contra dados neurais em áreas visuais do cérebro, eles ficaram aquém e foram incapazes de prever os padrões de resposta de neurônios individuais em V4. Embora esses modelos fossem construções de hipóteses para neurocientistas, eles eram inadequados para explicar como o sistema visual funciona. Apesar do fracasso desses primeiros modelos, eles serviram de inspiração para o trabalho em andamento na separação dos filtros aprendidos em redes profundas daqueles observados em V1.

  • 00:30:00 Nesta seção, o palestrante discute como a colaboração entre neurociência e aprendizado profundo permitiu a otimização de parâmetros desconhecidos em redes neurais artificiais, resultando em modelos que imitam de perto os padrões de resposta neural do cérebro primata. O palestrante observa que o avanço veio na implementação de um loop que permitiu aos engenheiros otimizar os microparâmetros dos filtros em redes neurais convolucionais profundas. Ao fazer isso, os modelos produzidos foram vistos como novas hipóteses sobre o que poderia estar acontecendo no sistema visual, permitindo a comparação com redes neurais biológicas no cérebro. O palestrante continua mostrando exemplos de como essas comparações foram feitas, resultando nas primeiras hipóteses mecanicistas sobre a função cerebral. No geral, essa colaboração permitiu o desenvolvimento de neurônios do fluxo ventral in silico que imitam de perto os encontrados no fluxo ventral biológico, levando a uma maior percepção de como o cérebro processa a informação visual.

  • 00:35:00 Nesta seção, o palestrante explica que os modelos de aprendizado profundo que eles desenvolveram são hipóteses de como o cérebro executa processos do sistema sensorial, especificamente no domínio do reconhecimento visual de objetos. Eles observam que esses modelos não são perfeitos e apresentam algumas discrepâncias, que pretendem otimizar e melhorar no futuro. O palestrante também discute as aplicações mais amplas do aprendizado profundo em engenharia e IA, enfatizando que esses modelos podem ser usados como uma ferramenta para orientar a compreensão e otimização científicas adicionais. Eles concluem afirmando a necessidade de mais dados e modelos para representações mais precisas dos processos cerebrais.

  • 00:40:00 Nesta seção, o palestrante discute o potencial de inovação em aprendizado profundo e inteligência artificial além de apenas imitar a evolução do cérebro. Eles sugerem que a maior parte da inovação virá da escolha da arquitetura, e as ferramentas de otimização estarão disponíveis para permitir essa otimização. Perguntas recorrentes podem fornecer informações sobre os elementos subconscientes da cognição, e a anatomia do cérebro conecta as ideias de recorrência, o que pode levar a áreas posteriores que envolvem mais a cognição. O palestrante também fala sobre pular conexões, áreas cinzentas e como o trabalho que está sendo feito agora está tentando abordar esse problema.

  • 00:45:00 Nesta seção do vídeo, o palestrante discute o conceito de neotenia e como isso afeta a proporção de funções codificadas e filtros no córtex visual em diferentes espécies. Conforme você sobe no sistema, há mais plasticidade no cérebro, e os macacos têm áreas até certo nível, enquanto os humanos têm mais tecido cerebral, permitindo mais flexibilidade. O palestrante acredita que há muito espaço para flexibilidade no cérebro e, embora faça parte do nosso sistema primata, parte do cérebro está além disso, e tudo bem. O próximo palestrante discute seu trabalho sobre o pensamento sobre cérebros como redes neurais recorrentes e como o estudo da interseção entre sistemas neurais artificiais e reais pode nos ajudar a entender como eles funcionam.

  • 00:50:00 Nesta seção, o foco está em como a codificação eficiente e esparsa pode ser usada para aprender uma base representacional eficiente em sistemas neurais artificiais e reais. Ao estudar comportamentos semelhantes ao cérebro em redes recorrentes, podem ser encontrados princípios que expandem as capacidades de redes recorrentes artificiais e ajudam a entender como as reais funcionam. As redes neurais recorrentes aprendem a armazenar e modificar representações e memórias internas, permitindo que sejam capazes de separar sinais sobrepostos de maneira semelhante ao efeito de coquetel. Sistemas neurais reais são excelentes para armazenar e manipular representações, como visto na região do cérebro chamada de memória de trabalho em redes recorrentes. O objetivo é encontrar princípios que expandam as capacidades das redes recorrentes artificiais e ajudem a entender como as redes reais funcionam.

  • 00:55:00 Nesta seção da palestra, a posição de um rato é decodificada a partir de neurônios chamados células de lugar, que rastreiam o movimento do rato conforme ele se move no espaço. O rato também pode manipular sua representação neural para planejar trajetórias futuras antes mesmo de se mover. A palestra então explora como as redes neurais podem manipular memórias, como a capacidade do pássaro canoro de aprender a cantar imitando os adultos. A palestra discute como as redes neurais podem aprender processos complexos de manipulação de informações observando exemplos e apresenta o conceito de um atrator caótico como modelo de memória e um sistema dinâmico não linear simples chamado reservatório como modelo de rede neural. O parâmetro de controle do reservatório é usado para modificar a representação da rede de qualquer memória que tenha aprendido, e a palestra fornece exemplos práticos de como esse controle pode mudar o significado de algo.

  • 01:00:00 Nesta seção, o palestrante discute como a capacidade de modulação de contexto afeta o aprendizado e a capacidade da rede neural. Eles explicam que polarizar a rede com variáveis de contexto significa que mais dados são necessários para o treinamento aprender parâmetros comuns. O palestrante também fala sobre o uso do método de computação de reservatório para armazenar memórias em redes neurais e como esquemas simples de aprender a imitar entradas observadas são suficientes para armazenar memórias. Eles então discutem a modificação de memórias dentro de redes neurais observando a tradução de atratores na direção x1 e alterando o valor do parâmetro de contexto c para cada tradução.

  • 01:05:00 Nesta seção, o palestrante discute a capacidade dos reservatórios de aprender a interpolar e extrapolar operações de transformação em sua representação interna de manifolds atratores. A equipe forneceu quatro exemplos de treinamento de um atrator de Lorenz espremido na direção x1 e realizou treinamento e feedback. Verificou-se que os reservatórios aprendem a interpolar e extrapolar operações de transformação que podem ser arbitrárias, incluindo um trecho ou uma multivariação. A equipe também descobriu que os reservatórios podem prever a estrutura de bifurcação global do atrator de Lorenz e prever os diagramas de bifurcação de várias outras formas normais dinâmicas, como o modo de sela e as bifurcações de forquilha supercríticas. As redes neurais podem até aprender a prever trajetórias cinemáticas não dinâmicas, como no exemplo de uma ligação de Jansen modificada.

  • 01:10:00 Nesta seção da palestra, o palestrante discute um método chamado sincronização generalizada invertível, que é uma forma de formalizar a ideia de mapear estímulos para neurodinâmica em um sistema neural. O palestrante explica que, para formar uma representação, os neurônios devem formar uma representação distribuída em vez de codificar individualmente partes específicas dos estímulos de entrada. Eles também devem ser capazes de conduzir a si mesmos com sua própria representação, que é o mecanismo chave por trás do armazenamento de entradas como memórias. Por fim, o palestrante demonstra que redes neurais recorrentes podem sustentar memórias caóticas, permitindo que traduzam e transformem memórias.

  • 01:15:00 Nesta seção, o palestrante discute a capacidade dos sistemas neurais de aprender imitando exemplos vistos e como isso pode ser usado para aprender representações, cálculos e manipulações da memória de trabalho. A conversa então muda para a questão da aprendizagem por feedback e como ela se aplica aos modelos apresentados. Embora haja evidências de separabilidade linear e reconstrução de termos em certas partes do córtex visual, o palestrante observa a dificuldade em encontrar evidências de aprendizado por feedback, pois é uma condição de aprendizado bastante extrema. Há uma sugestão de usar mecanismos de correção de erros para ajustar o sistema, mas também é discutida a ideia de um conjunto fixo de parâmetros em que o resultado é julgado em relação à expectativa do mundo exterior e a formação de memórias salientes quando a expectativa se desvia muito.

  • 01:20:00 Nesta seção, o palestrante enfatiza o potencial do aprendizado profundo na compreensão das funções cognitivas do cérebro e na sua engenharia. As redes neurais recorrentes, com sua capacidade de memória e dinâmica interna, são especialmente relevantes nessa área. O palestrante incentiva a pensar nesses sistemas como entidades vivas e que respiram, em vez de apenas aproximadores de funções. O núcleo desses sistemas cognitivos está no RNN, embora possam ser aumentados com redes neurais convolucionais para entradas e saídas. O hipocampo e as conexões que ele faz com diferentes aspectos do sistema nervoso são citados como um exemplo fascinante de como as memórias são codificadas em um sistema interativo de neurônios em co-disparo. A palestra termina refletindo sobre a diversidade de tópicos abordados no curso e como o aprendizado profundo pode auxiliar na interpretação de sistemas cognitivos no futuro.
 

MIT 6.S192 - Aula 1: Estética Computacional, Design, Arte | Aprender por Gerar



MIT 6.S192 - Aula 1: Estética Computacional, Design, Arte | Aprender por Gerar

Esta palestra abrange uma variedade de tópicos relacionados à estética computacional, design e arte. Discute-se o papel da IA na democratização do acesso à criação de arte, na automação do design e na expansão dos limites da arte, bem como os desafios de quantificar a estética e alcançar o equilíbrio visual no design usando representações de alto e baixo nível. O palestrante também destaca o potencial do design computacional para descobrir padrões e transmitir mensagens de forma eficaz, com exemplos envolvendo semântica de cores e design de capa de revista. Experimentos de crowdsourcing são usados para determinar associações de cores com vários tópicos e as aplicações potenciais desse método em diferentes áreas são exploradas. No geral, a palestra apresenta o papel da IA em aplicativos criativos e o potencial de revolucionar a maneira como criamos arte, design e outras formas de expressão criativa.

O vídeo discute o uso de estética computacional, design e arte para gerar trabalhos criativos usando modelos generativos, como StyleGAN e DALL-E. O palestrante também enfatiza a importância de aprender gerando e incentiva os espectadores a decompor problemas e usar dados para chegar a soluções inovadoras e criativas. No entanto, o palestrante também aborda as limitações dos modelos generativos, como dados tendenciosos e a capacidade de generalizar e pensar fora da caixa. No entanto, o professor designa os alunos para revisar o código fornecido e experimentar as várias técnicas para gerar imagens esteticamente agradáveis, incentivando a participação em um debate socrático entre Berkeley e o MIT sobre estética e design computacional.

  • 00:00:00 Nesta seção da palestra, o palestrante discute as motivações para implementar IA em arte, estética e criatividade. Eles explicam que a arte é um aspecto fundamental da evolução e comunicação humana, e a IA pode democratizar o acesso à criação de arte, estimular a criatividade e ultrapassar os limites da arte. Com milhões de fotos carregadas todos os dias e 650 anúncios expostos por dia, a IA pode ajudar a projetar bons designs automaticamente e entender o que torna um design bom ou ruim. Por fim, o palestrante argumenta que a IA desempenhará um papel crítico no futuro, onde a IA criará filmes, peças de teatro e muito mais a cada segundo, levando à questão de saber se queremos moldar esse futuro.

  • 00:05:00 Nesta seção, o palestrante discute o papel da IA na arte, estética e criatividade. Ele explica que as redes neurais convolucionais (CNNs) podem ser tendenciosas em relação às texturas, mas isso pode ser desviado gerando estilos diferentes e incorporando-os aos dados. Além disso, ele menciona que, em 2018, uma pintura feita com um modelo generativo foi vendida por meio milhão de dólares. Ele também aborda a questão de saber se a estética pode ser quantificada, afirmando que filósofos e artistas vêm discutindo esse tópico há gerações. Por fim, ele aborda os objetivos do curso, que envolvem aprender como aplicar algoritmos de IA a aplicativos criativos e resolver problemas interessantes.

  • 00:10:00 Nesta seção do vídeo, o instrutor responde a uma pergunta sobre se o conhecimento prévio de aprendizado profundo é necessário para o curso. Ele explica que, embora o curso aborde o aprendizado profundo, esse não é o foco principal e que existem outros recursos para aprender o assunto. Ele então discute seu trabalho anterior sobre a quantificação da estética, observando que medir a estética não é um conceito novo e que já existem modelos estabelecidos, como o modelo de Birkhoff do início do século 20, que podem ser usados para quantificar a estética em vários contextos, como como design visual, poesia e até interfaces.

  • 00:15:00 Nesta seção, o palestrante discute a quantificação da estética e os desafios para alcançá-la, usando o equilíbrio visual como exemplo. Boas representações são necessárias, tanto de alto quanto de baixo nível. As representações de alto nível podem incluir equilíbrio visual e ritmo, enquanto as representações de baixo nível dependem de recursos extraídos usando redes neurais. Os dados também são necessários para quantificar a estética, incluindo que tipo de dados são usados e de onde vêm. O palestrante explica como o equilíbrio costuma ser ensinado aos designers pela intuição, mas os engenheiros querem quantificá-lo e determinar seu significado no design.

  • 00:20:00 Nesta seção, o palestrante discute a noção de correção visual e equilíbrio no design, também conhecida como harmonia. Ele fala sobre o trabalho de Arnheim, que sugeriu que colocar elementos de design em pontos específicos pode criar equilíbrio visual. O palestrante explora se essa hipótese pode ser confirmada por meio de análise baseada em dados e estuda as partes salientes de uma imagem usando um algoritmo de saliência, sobrepondo seus resultados na rede estrutural. Ele usa um rastreador para coletar mais de 120.000 imagens de um site de fotografia para estudar os padrões de saliência dessas imagens.

  • 00:25:00 Nesta seção, um conjunto de dados com um algoritmo de saliência foi usado para ajustar uma mistura de gaussianos a fim de encontrar padrões em imagens agregadas de várias categorias, como retratos, arquitetura e moda. Os pontos quentes de saliência foram analisados, com semelhança com a teoria de Arnheim sobre centro de massa e regra dos terços. No entanto, os resultados podem ser influenciados pela forma como os fotógrafos cortam as imagens, como mostram os estudos sobre a validade da regra dos terços.

  • 00:30:00 Nesta seção, o palestrante discute o tema da estética e design computacional. Eles mencionam a disponibilidade do conjunto de dados AVA que contém anotações para estética, semântica e estilo fotográfico. O palestrante demonstra como os algoritmos de aprendizado profundo podem aprender e prever classificações estéticas e sugere que isso pode ser usado para aprimorar e ajustar imagens. A palestra passa a discutir o potencial do design computacional e sua importância em descobrir padrões no design e se expressar melhor.

  • 00:35:00 Nesta seção da palestra, o palestrante apresenta o conceito de design computacional e discute a diferença entre design e arte. O problema no design é dado, e o trabalho do designer é transmitir uma mensagem para resolver esse problema, enquanto os artistas definem eles mesmos o problema e usam técnicas artísticas para resolvê-lo. Os princípios do design, como comunicação sobre decoração, podem ser difíceis de transmitir a uma máquina, mas várias teorias, métricas e regras, incluindo gestalt e harmonia de cores, podem ser usadas para criar e recomendar conteúdo automaticamente. O palestrante também fornece um exemplo de software de design automatizado que pode fazer layout de texto e elementos de design sobre uma determinada imagem de fundo.

  • 00:40:00 Nesta seção do vídeo, o palestrante discute como criou um design automático para capas de revistas escolhendo cores complementares e estudando o trabalho feito por Itten e Matsuda, junto com Kobiashi que estudou combinações de cores por 30 anos, e como as cores podem ser associadas a palavras como romântico, suave e elegante. Com base nesse trabalho, o palestrante criou um sistema de design automático que pode dar recomendações aos usuários com base nas cores escolhidas e criar estilos para capas de revistas. Além disso, o palestrante explorou se dados de designers profissionais poderiam extrair padrões em paletas de cores para capas de revistas.

  • 00:45:00 Nesta seção do vídeo, o palestrante discute seu projeto que envolveu a coleta de um conjunto de dados de capas de revistas de 12 gêneros diferentes para encontrar simultaneamente o texto, o gênero e as combinações de cores usadas nas capas. O palestrante usou a modelagem de tópicos para extrair diferentes tópicos, que são uma combinação de palavras e cores, e mostrou como nuvens de palavras e paletas de cores podem ser usadas para visualizar esses tópicos. O palestrante também discutiu o uso de crowdsourcing para determinar se os resultados do projeto eram universais ou não.

  • 00:50:00 Nesta seção, o palestrante discute um experimento de crowdsourcing que eles conduziram para entender se diferentes culturas e dados demográficos concordam em associações de cores com vários tópicos. O experimento envolvia mostrar uma paleta de cores escolhida aleatoriamente de um tópico e, em seguida, mostrar diferentes nuvens de palavras e pedir aos participantes que as combinassem. Mais de 1.000 participantes de vários países participaram, e a matriz de correlação ou relevância resultante revelou alguns padrões interessantes. O experimento mostrou que, em sua maioria, os participantes concordaram com as associações de cores com vários tópicos, embora houvesse algumas exceções. O palestrante também destacou as possíveis aplicações desse método na criação de paletas de cores para diferentes tipos de produtos.

  • 00:55:00 Nesta seção da palestra, o palestrante discute várias aplicações da semântica de cores em tarefas como recomendação de paleta de cores, recuperação de imagens, recoloração e até web design. Ela demonstra como os algoritmos podem ser usados para recomendar cores e capas de revistas com base em conceitos ou temas específicos, bem como para analisar e visualizar padrões em web design ao longo do tempo. O uso de redes neurais convolucionais também é demonstrado na identificação de paletas de cores e tendências de design de sites de épocas específicas.
  • 01:00:00 Nesta seção, o palestrante discute o uso de design computacional e estética na previsão do ano de um design. Eles explicam que não são apenas as cores que o modelo leva em consideração, mas também recursos de alto nível, como a tipografia. A precisão da classificação não foi mencionada, mas notou-se ser superior ao acaso. O design computacional também foi usado para analisar anúncios, criar logotipos e ícones e projetar paletas de cores da moda.

  • 01:05:00 Nesta seção, o palestrante discute o uso de modelos generativos em moda, design de produto e arte. Ele mostra exemplos de conjuntos de dados usados para entender elementos de moda, como cores e tags, e menciona colegas que usam conjuntos de dados semelhantes para recomendar o design do produto. O palestrante também fala sobre modelos generativos que podem pegar um esboço de entrada e produzir um design de produto ou alterar uma imagem para parecer um item de moda diferente. Além disso, ele aborda tópicos relacionados à arte computacional e criatividade, incluindo transferência de estilo e ferramentas de geração de conteúdo.

  • 01:10:00 Nesta seção do vídeo, o professor discute o uso de arte computacional e inteligência artificial na geração de trabalhos criativos, incluindo transferência de imagem e estilo, geração de conteúdo e modelos generativos para vídeos. A discussão inclui vários exemplos de trabalhos recentes nessas áreas, incluindo StyleGAN, DALL-E da OpenAI e modelos generativos para modificação de pose de vídeo. Apesar desses avanços, a questão permanece se as máquinas podem realmente ser artistas ou se a criatividade e a arte pertencem apenas aos humanos.

  • 01:15:00 Nesta seção, o palestrante discute sua empolgação em direção ao aprendizado gerando e compartilha alguns resultados. Eles explicam que aprender por geração é interessante porque é uma forma de treinar a IA para desenvolver algoritmos baseados em como os humanos aprendem a resolver problemas. O palestrante também aborda uma questão sobre a quantificação da estética e menciona que uma forma de preencher a lacuna entre os termos de alto nível da linguagem humana e os termos computacionais é usar dados e modelos, incorporando conceitos culturais e até mesmo pedindo opiniões às pessoas por meio de crowdsourcing.

  • 01:20:00 Nesta seção do vídeo, o palestrante discute a importância do uso de dados no aprendizado de máquina para evitar vieses e obter resultados interessantes. Ele encoraja os ouvintes a pensar em como projetar algoritmos ou representações que possam levar a soluções inovadoras e criativas. O palestrante acredita que criatividade e inovação são componentes essenciais da inteligência artificial e cita exemplos de como elas têm sido utilizadas na concepção de objetos e conceitos. Ele enfatiza que aprender gerando é uma maneira eficaz de desenvolver habilidades de resolução de problemas e incentiva os ouvintes a dividir problemas maiores em subconjuntos menores e resolvê-los um de cada vez.

  • 01:25:00 Nesta seção do vídeo, o palestrante discute o conceito de generalização e pensamento inovador em criatividade e IA. O palestrante questiona se os modelos generativos são ou não capazes de generalização e pensamento fora da distribuição. Para explorar esse tópico, o palestrante apresenta o conceito de dirigibilidade de redes adversárias generativas (GANs) e demonstra a capacidade de manipular imagens encontrando um passeio no espaço latente do gerador. Eles mostram que os modelos GAN atuais podem exibir transformações como aumentar e diminuir o zoom, mudar e girar. O palestrante explica o processo de encontrar um vetor latente para manipular a imagem e usa isso para mostrar o potencial dos modelos generativos em criatividade e inovação.

  • 01:30:00 Nesta seção do vídeo, o palestrante discute as limitações de modelos generativos como o BigGAN e por que eles os possuem. Ele explica que vieses podem ser introduzidos no modelo, que também estão presentes na semântica das classes. Isso significa que um modelo pode generalizar, mas não tão bem quanto um ser humano. O palestrante continua mostrando que o modelo pode sair da distribuição do conjunto de dados e transformar a aparência das imagens até certo ponto, mas apenas se o conjunto de dados subjacente for diverso. O artigo sugere que uma maneira de superar as limitações dos dados tendenciosos é aumentá-los, como aumentar o zoom ou girar imagens.

  • 01:35:00 Nesta seção do vídeo, o palestrante discute o uso do espaço latente para gerar imagens esteticamente agradáveis por meio de transformações. As transformações podem ser alcançadas caminhando ou dirigindo no espaço latente para alterar a cor da imagem, zoom, rotação, alterações semelhantes às da câmera e muito mais. O palestrante também discute o uso de uma rede neural para detectar a estética da imagem, fornecendo feedback sobre se uma direção de caminhada ou transformação gera imagens esteticamente mais agradáveis. A palestra incentiva os alunos a participar de um próximo debate socrático entre Berkeley e o MIT sobre estética e design computacional. Além disso, o professor designa os alunos para revisar o código fornecido e experimentar as várias técnicas para gerar imagens esteticamente agradáveis.

  • 01:40:00 Nesta seção do vídeo, o palestrante discute o repositório de seu trabalho e incentiva os espectadores a usar o PyTorch em vez do TensorFlow para executar os notebooks fornecidos. Eles também explicam o sistema Colab usado para visualizar os resultados do código e enfatizam a importância de gerar imagens e relatar os resultados. O palestrante também lembra aos espectadores que eles podem enviar um e-mail com qualquer dúvida e agradece a participação no curso.
 

MIT 6.S192 - Aula 2: Um debate socrático, Alyosha Efros e Phillip Isola



MIT 6.S192 - Aula 2: Um debate socrático, Alyosha Efros e Phillip Isola

Neste vídeo, Alyosha Efros e Phillip Isola discutem a ideia de usar imagens para criar experiências compartilhadas. Eles argumentam que isso pode ajudar a trazer de volta memórias e criar uma sensação de nostalgia.

Este vídeo é um debate entre dois professores do MIT sobre o papel dos dados na inteligência artificial. Efros argumenta que os dados são essenciais para a IA, enquanto Isola responde que os dados podem ser um obstáculo ao desenvolvimento da IA.

  • 00:00:00 Nesta palestra, Alyosha Efros e Phillip Isola discutem a visão de modelos generativos como um novo tipo de dados. Efros argumenta que a era atual de modelos generativos é como dados, mas melhor. Isola descreve como os modelos generativos funcionam e como eles podem ser usados para criar conteúdo interessante.

  • 00:05:00 Nesta palestra, Alyosha Efros e Phillip Isola discutem o poder dos modelos generativos. Os modelos generativos nos permitem criar pontos de dados decorados com funcionalidades extras, como uma variável latente que pode ser usada para modificar a imagem. Isso abre muitas possibilidades de criatividade e visualização científica.

  • 00:10:00 O vídeo discute a ideia de manipulação de imagens através do espaço latente. Eles explicam como isso pode ser feito procurando uma direção que mapeie uma transformação significativa no espaço da imagem. Eles dão o exemplo de tornar uma imagem mais memorável ao ampliá-la. Finalmente, eles discutem como essa técnica pode ser usada
    para visualizar o conceito do que significa algo ser memorável.

  • 00:15:00 Este vídeo discute o conceito de modelos generativos, que são um tipo de dados que podem ser manipulados para criar novas imagens. O vídeo mostra a capacidade desses modelos de criar novas imagens composicionalmente, adicionando diferentes partes de imagens diferentes. O vídeo também discute as limitações dos modelos generativos, como seu viés em relação a certos objetos ou sua incapacidade de retratar com precisão certas cenas.

  • 00:20:00 Alyosha Efros e Phillip Isola discutem o conceito de data plus plus, que é uma forma de pensar sobre dados que inclui tanto os dados em si quanto os métodos usados para gerá-los. Efros argumenta que essa perspectiva é útil porque permite uma interpolação mais significativa entre pontos de dados. Isola questiona como alguém escolhe o caminho entre dois pontos de dados, e Efros explica que o modelo escolhe o caminho mais curto, que geralmente parece o mais natural.

  • 00:25:00 Neste vídeo, Phillip Isola e Alyosha Efros debatem os méritos do algoritmo "Dall-E". Efros argumenta que o algoritmo é impressionante porque é capaz de entender a linguagem. Isola responde que o algoritmo não está realmente entendendo a linguagem, mas sim palavras e gramas.

  • 00:30:00 O palestrante argumenta que os GANs não são realmente criativos porque são treinados apenas em dados altamente selecionados. Ele sugere que o mapeamento bidirecional é o melhor caminho a percorrer, se você puder pagar.

  • 00:35:00 Nesta palestra, Alyosha Efros e Phillip Isola debatem os méritos das abordagens orientadas por dados versus baseadas em modelos para pesquisa de inteligência artificial. Efros argumenta que, cada vez mais, os modelos se tornarão a principal interface para os dados e que os cientistas de dados precisarão aprender a trabalhar com modelos em vez de conjuntos de dados. Isola concorda e acrescenta que os conjuntos de dados usados para treinar esses modelos estão se tornando cada vez maiores e complexos.

  • 00:40:00 Este vídeo é uma palestra de Alyosha Efros e Phillip Isola sobre o tema do contexto na arte. Efros fala sobre como uma fotografia de uma obra de arte de Michael Galinsky chamada Malls Across America o impressionou profundamente e como o contexto em que a fotografia é vista pode afetar seu significado. Isola fala sobre como a fotografia de uma menina olhando para o mar pode trazer lembranças e sensações para quem estava vivo na época em que foi tirada.

  • 00:45:00 Este vídeo é uma discussão entre dois professores sobre o conceito de nostalgia e como ele pode ser usado para apreciar a arte. Eles usam o exemplo de uma foto de dois amigos em frente a uma porta, que só faz sentido para os dois por causa de suas memórias compartilhadas. Eles argumentam que esse tipo de nostalgia pode ser encontrado em muitas formas diferentes e que pode ser uma experiência prazerosa para aqueles que conseguem recordar memórias.

  • 00:50:00 Neste vídeo, Alyosha Efros e Phillip Isola discutem a ideia de usar imagens para evocar experiências compartilhadas entre pessoas de uma determinada cidade. Eles argumentam que isso pode ajudar a trazer de volta memórias e criar uma sensação de nostalgia.

  • 00:55:00 A pintura "Olympia" de Edouard Monet foi um grande escândalo quando foi lançada em 1865 devido à sua nudez e tom de pele achatado. Alguns acreditam que a colocação das mãos na pintura foi o que levou as pessoas à loucura.

  • 01:00:00 Esta palestra é sobre como a arte pode ser interpretada de diferentes maneiras, dependendo do contexto em que é vista. O exemplo usado é a pintura "Vênus Reclinada" de Amedeo Modigliani, que causou indignação quando foi exibida pela primeira vez por ser vista como uma paródia de uma famosa pintura de uma mulher nua. No entanto, quando visto no contexto de outras pinturas de mulheres nuas, pode ser visto como uma obra de arte válida.

  • 01:05:00 No vídeo do YouTube "MIT 6.S192 - Palestra 2: Um debate socrático, Alyosha Efros e Phillip Isola", os dois discutem o significado por trás das pinturas do pintor russo Zlotnikov e do pintor americano Hurst. Efros argumenta que a direção das pinturas é determinada pelos sentimentos de liberdade e aglomeração que evocam. Isola responde que a direção é determinada pela pintura quadrada preta de Malevich, que ele vê como a resolução final de uma direção particular.

  • 01:10:00 Phillip Isola e Alyosha Efros debatem o significado da arte, especificamente uma pintura quadrada preta de Malevich. Isola argumenta que a pintura é um significante para nada, enquanto Efros argumenta que é uma progressão natural para Malevich.

  • 01:15:00 O objetivo deste vídeo é que podemos estar superestimando a complexidade das máquinas, e que o que nos parece mágica pode ser apenas o resultado de processos simples. O livro "Vehicles" de Braiterberg é usado como um exemplo de como comportamentos complexos podem surgir de interações simples.

  • 01:20:00 Nesta palestra, Efros e Isola debatem a natureza da criatividade e da novidade. Efros argumenta que ambos são resultado de mudanças incrementais e que o processo criativo costuma ser muito tranquilo. Isola responde que a novidade é muitas vezes o resultado da aleatoriedade e da sorte.

  • 01:25:00 Este é um debate entre duas pessoas sobre o papel do contexto na arte e na ciência. Uma pessoa argumenta que o contexto é necessário para que a arte seja significativa, enquanto a outra argumenta que o contexto não é necessário e que a arte pode ser nova sem ele.

  • 01:30:00 Nesta palestra, Efros e Isola debatem o papel da sorte no sucesso científico. Efros argumenta que a sorte desempenha um papel significativo, enquanto Isola argumenta que existem maneiras de planejar a grandeza.

  • 01:35:00 Nesta palestra, Alyosha Efros e Phillip Isola debatem o papel da sorte na criatividade, com Efros argumentando que deve haver mais do que apenas sorte. Isola argumenta que dados mais mais (a combinação de dados e operações) é a chave para a criatividade e que, uma vez que você tenha os dados certos, as possibilidades são infinitas.

  • 01:40:00 Este vídeo do YouTube é um debate entre Alyosha Efros e Phillip Isola sobre as diferenças entre trabalhar com dados e modelos e se os dados se tornarão ou não obsoletos. Efros argumenta que os dados já estão se tornando menos importantes à medida que os modelos se tornam mais avançados e que, eventualmente, os modelos superarão os humanos em inteligência. Isola argumenta que os dados ainda são o padrão-ouro e que os modelos nunca podem fazer mais do que os dados nos quais se baseiam.

  • 01:45:00 Neste debate, os professores do MIT Alyosha Efros e Phillip Isola discutem a relação entre arte e IA. Efros argumenta que a computação é a melhor maneira de pensar sobre a relação e que existe uma forte conexão entre arte e evolução. Isola concorda que existe uma conexão entre os dois, mas argumenta que os modelos atuais não são capazes de extrapolar novas informações dos dados e que essa é a chave para uma IA verdadeiramente criativa.

  • 01:50:00 Foi ótimo conversar com Phillip e Alyosha sobre arte e computação. Ambos pensam que a arte está na vanguarda de um novo paradigma de pensamento e que a computação pode ser usada para ajudar a explorar novas ideias.

  • 01:55:00 Nesta palestra, Alyosha Efros e Phillip Isola se envolvem em um debate socrático sobre o papel dos dados na inteligência artificial. Efros argumenta que os dados são essenciais para a IA, enquanto Isola responde que os dados podem ser um obstáculo ao desenvolvimento da IA.
 

MIT 6.S192 - Aula 3: "GANs eficientes" por Jun-Yan Zhu



MIT 6.S192 - Aula 3: "GANs eficientes" por Jun-Yan Zhu

A palestra aborda os desafios do treinamento de modelos GAN, incluindo a necessidade de alta computação, grandes quantidades de dados e algoritmos complicados que exigem extensas sessões de treinamento. No entanto, o palestrante apresenta novos métodos que fazem com que os GANs aprendam mais rapidamente e treinem em menos conjuntos de dados, como compactar modelos de professores usando a estrutura de propósito geral de compactação de GANs, aumento diferenciável e aumento de dados. A palestra também demonstra a edição interativa de imagens com GANs e enfatiza a importância de conjuntos de dados grandes e diversos para o treinamento GAN bem-sucedido. Os códigos para executar o modelo estão disponíveis no GitHub com instruções passo a passo para executar o modelo em diferentes tipos de dados. A palestra termina discutindo a importância da compressão do modelo para fins práticos.

  • 00:00:00 Nesta seção, o palestrante apresenta o conceito de GANs eficientes e como os GANs são caros. Embora as GANs tenham sido usadas para várias tarefas de criação e criatividade de conteúdo, o desenvolvimento de novos algoritmos ou desempenho em tempo real requer GPUs de ponta. Para o desenvolvimento do projeto GauGAN, o pesquisador precisou de centenas de GPUs de ponta para treinamento e, mesmo após um ano de desenvolvimento, a equipe teve que comprar um laptop caro para levar o projeto adiante. O custo de treinamento de GANs e desenvolvimento de algoritmos é caro e, atualmente, é um desafio para as universidades competir com grandes empresas como NVIDIA ou DeepMind.

  • 00:05:00 Nesta seção, o palestrante explica os três principais obstáculos para que mais usuários utilizem GANs de forma eficaz, ou seja, a necessidade de alta computação, grandes quantidades de dados e um algoritmo complicado que requer muitas sessões de treinamento. Ele explica que os GANs são computacionalmente caros devido às imagens de alta qualidade e às etapas de pré-processamento necessárias para treinar o modelo. Além disso, os grandes conjuntos de dados e a necessidade de rótulos tornam o treinamento de GANs ainda mais desafiador. No entanto, ele apresenta novos métodos que podem fazer com que os GANs aprendam mais rapidamente e treinem em menos conjuntos de dados, o que pode ajudar criadores de conteúdo e artistas com acesso limitado a recursos para treinar e testar seus próprios modelos.

  • 00:10:00 Nesta seção da palestra, Jun-Yan Zhu apresenta um método de compactação de modelos de professores usando a estrutura de uso geral da compactação de GANs. O objetivo é encontrar um modelo de aluno com menos filtros que possa produzir o mesmo tipo de saída que o modelo de professor. O método envolve a criação de uma função de perda para garantir que a distribuição da saída zebra do aluno seja muito semelhante à saída do professor, a representação intermediária do recurso do aluno seja muito semelhante à do professor e a saída do aluno pareça uma zebra de acordo com uma perda adversária . O processo também envolve uma busca pelo número ótimo de canais, que pode produzir os mesmos resultados, reduzindo o tamanho do modelo e o tempo de treinamento. O processo de compartilhamento de pesos entre diferentes configurações permite treinar várias configurações sem treiná-las individualmente, reduzindo assim o tempo de treinamento.

  • 00:15:00 Nesta seção, Jun-Yan Zhu discute o processo de treinamento e avaliação de modelos GAN por meio de diferentes configurações, juntamente com o uso de várias funções de perda para imitar modelos de professores e compartilhar pesos em diferentes configurações. Os resultados foram apresentados para modelos de diferentes tamanhos e custos computacionais, juntamente com a ideia de compactar modelos para obter desempenho em tempo real em dispositivos móveis. A aplicação dessa ideia ao StyleGAN2 também foi introduzida, mostrando como modelos de baixo custo podem ser usados para edição de imagem antes de aplicar a saída final do modelo original.

  • 00:20:00 Nesta seção, o palestrante demonstra uma demonstração de edição interativa de imagens com GANs. O objetivo da demonstração é permitir que os usuários editem uma imagem em vários atributos, como adicionar um sorriso ou alterar a cor do cabelo, e obter feedback imediato com base em suas alterações. O sistema emprega um modelo menor que produz uma saída consistente com o modelo grande para garantir que a visualização permaneça informativa. Depois que as edições são finalizadas, o modelo original pode ser executado para gerar uma saída de alta qualidade. A edição interativa é mais rápida e fornece resultados de alta qualidade em comparação com o software de criação de conteúdo de aprendizado não profundo existente.

  • 00:25:00 Nesta seção da palestra, o professor Jun-Yan Zhu discute os desafios do treinamento de modelos GAN, citando a necessidade de grandes quantidades de dados de alta qualidade para um desempenho eficaz. Embora seja possível usar software de renderização ou outras ferramentas para acelerar o processo e gerar visualizações, o treinamento de modelos personalizados requer a coleta de quantidades significativas de dados anotados. Zhu dá o exemplo de treinar um modelo stylegan2 em um conjunto de dados de apenas 50 ou 100 faces, o que resultou em imagens distorcidas. A palestra destaca a importância de conjuntos de dados grandes e diversos para o treinamento GAN bem-sucedido.

  • 00:30:00 Nesta seção, o palestrante discute a importância de ter uma quantidade suficiente de dados de treinamento em modelos GAN. Eles demonstram que, ao treinar em conjuntos de dados menores, o discriminador pode facilmente superajustar e classificar todas as imagens corretamente, mas terá problemas para generalizar para imagens reais. Isso leva o gerador a produzir muitas imagens inúteis ou a colapsar. O palestrante enfatiza que, se alguém usar GANs para seus próprios fins ou em pequenos conjuntos de dados, o overfitting se torna muito mais grave e obter dados suficientes é crucial para criar GANs eficientes.

  • 00:35:00 Nesta seção, o professor discute a ideia de aumento de dados para combater o overfitting no aprendizado de máquina, que envolve a criação de várias versões de uma única imagem para aumentar o conjunto de dados sem coletar novas amostras. No entanto, aplicar esse método ao treinamento de GANs é mais complicado porque as imagens geradas também têm o efeito da mesma transformação ou aumento aplicado às imagens reais, o que pode levar a artefatos replicados. Para evitar esse problema, o professor sugere aumentar as imagens reais e falsas e fazê-lo apenas para o treinamento do discriminador para equilibrar as diferenças nos dados aumentados entre o gerador e o discriminador.

  • 00:40:00 Nesta seção, o palestrante discute o conceito de aumento diferenciável como uma abordagem para preencher a lacuna entre os objetivos do gerador e do discriminador em GANs. A ideia principal é aumentar as imagens falsas e reais de uma maneira diferenciável para que os gradientes do discriminador possam ser propagados de volta para o gerador. O palestrante demonstra por meio de exemplos que o aumento diferenciável permite melhores resultados com o mínimo de dados de treinamento, reduzindo assim a necessidade de conjuntos de dados em grande escala. O palestrante conclui que o aumento diferenciável é uma técnica crucial a ser lembrada ao treinar GANs.

  • 00:45:00 Nesta seção, o palestrante explica que todos os códigos para executar o modelo estão disponíveis no GitHub com instruções passo a passo para executar o modelo em diferentes tipos de dados, até mesmo em imagens faciais pessoais. Eles também discutem as ferramentas específicas disponíveis para designers e artistas, e o palestrante menciona que David Bau falará sobre ferramentas online para visualizar e monitorar unidades internas. O processo de compactação de modelos também é discutido, com o objetivo de desenvolver a capacidade de compactar um modelo uma vez e implantá-lo em vários dispositivos, o que é importante para fins práticos, pois economiza tempo dos desenvolvedores e reduz o tempo necessário para os usuários acessarem o modelo .