Aprendizado de máquina e redes neurais - página 25

 

MIT 6.S192 - Aula 16: "Percepção Visual Humana da Arte como Computação" Aaron Hertzmann



MIT 6.S192 - Aula 16: "Percepção Visual Humana da Arte como Computação" Aaron Hertzmann

A palestra explora a ambigüidade e indeterminação perceptiva na arte e o uso de redes adversárias generativas (GANs) na criação de imagens ambíguas. Ele discute o impacto da duração da visualização na percepção e a relação entre a entropia da imagem e as preferências humanas. O palestrante sugere uma teoria evolutiva da arte, onde a arte é criada por agentes capazes de relações sociais. O uso de AI na arte também é discutido, com a conclusão de que, embora os algoritmos possam ser ferramentas úteis, eles não podem substituir os artistas humanos. A palestra termina com algumas observações sobre conceitos como valor.

  • 00:00:00 Nesta seção, o palestrante discute ambigüidade e indeterminação perceptiva, que são temas importantes na arte moderna. Ele explica que imagens com várias interpretações podem fazer com que a duração da visualização mude e podem alternar entre diferentes percepções, afetando as escolhas que os indivíduos fazem. Indeterminação visual é um termo usado para descrever imagens que parecem produzir uma interpretação simples e coerente, mas não conseguem resolver de forma coerente, e esse tema tornou-se popular na era moderna, especialmente com o cubismo. A literatura de psicologia discutiu e estudou a ambiguidade perceptiva e as formas de descrever esse espaço de ambiguidade, mas houve dificuldade em encontrar estímulos comparáveis e medir a ambiguidade até o surgimento de adversários generativos nos últimos anos.

  • 00:05:00 Nesta seção, o palestrante discute o uso de GANs na criação de arte e a ambiguidade visual natural que esses tipos de imagens podem exibir. A equipe usou essas imagens em um estudo em que os participantes viram uma imagem por um curto período de tempo e pediram para descrevê-la. Os resultados demonstraram que as imagens com níveis mais altos de incerteza e ambiguidade perceptiva resultaram em uma maior variedade de descrições dos participantes. Além disso, a duração do período de visualização teve impacto no número e variedade de palavras usadas para descrever uma imagem, com os participantes convergindo para interpretações mais coerentes com exposição mais longa.

  • 00:10:00 Nesta seção, o palestrante discute a relação entre entropia de imagem e preferências humanas por imagens ambíguas. A equipe descobriu que existem duas categorias de usuários, uma preferindo imagens de baixa entropia e outra preferindo imagens de alta entropia. No entanto, o agrupamento de usuários nessas categorias só foi bem-sucedido na previsão de preferências por determinados tipos de imagens e requer um processamento de linguagem mais natural para extrair as informações corretas. Seguindo em frente, a definição de arte e se os computadores podem criar arte são exploradas. A definição atual de arte é considerada inadequada, pois não generaliza para considerar novas formas de arte, como aquelas que podem ser criadas por alienígenas. Em vez disso, o palestrante sugere uma teoria evolutiva da arte, segundo a qual a arte é criada por agentes capazes de relacionamentos sociais e, como tal, de atividades sociais. Isso leva à conclusão de que os computadores podem ser artistas, mas esse diálogo é equivocado, pois pode dar uma compreensão errada aos não especialistas.

  • 00:15:00 Nesta seção, o palestrante discute o uso de ideias da computação para entender a percepção humana da arte e como a arte é feita. Ele argumenta que os computadores não podem ser artistas até que possuam personalidade ou um relacionamento social. No entanto, os computadores são ferramentas poderosas para a criatividade artística e fornecem novas ferramentas para a criação artística. O palestrante também refuta a ideia de que a arte de IA perderá seu valor à medida que se torna mais acessível, apontando que os melhores artistas de IA estão experimentando codificação e selecionando cuidadosamente os resultados.

  • 00:20:00 Nesta seção, Hertzmann discute o uso de inteligência artificial (IA) na arte e questiona se máquinas que podem gerar arte com base nas preferências humanas podem ser consideradas artistas. Ele argumenta que os algoritmos de IA atuais estão simplesmente seguindo instruções e não possuem a criatividade de um artista humano. No entanto, ele está entusiasmado com o potencial dos algoritmos para modelar o processo e as preferências artísticas, permitindo que sejam ferramentas úteis na criação e curadoria de arte. Em última análise, Hertzmann não acredita que os algoritmos possam substituir os artistas humanos, pois a arte é um produto da cultura e do tempo.

  • 00:25:00 Nesta seção, algumas considerações finais são feitas após uma discussão sobre conceitos como valor. Nenhuma informação significativa é fornecida sobre esses conceitos ou quaisquer novos tópicos de discussão. O orador é agradecido por uma palestra esclarecedora e inspiradora.
 

MIT 6.S192 - Aula 17: "Usando IA a serviço do design gráfico" por Zoya Bylinskii



MIT 6.S192 - Aula 17: "Usando IA a serviço do design gráfico" por Zoya Bylinskii

Zoya Bylinskii, cientista pesquisadora da Adobe, explora a interseção entre design gráfico e inteligência artificial (IA) nesta palestra. Bylinskii enfatiza que a IA visa auxiliar, em vez de substituir os designers, automatizando tarefas tediosas e gerando variações de design. Bylinskii fornece exemplos de ferramentas assistidas por IA, incluindo ferramentas de design interativas e criação de ícones gerados por IA. Bylinskii também discute os desafios e o potencial da aplicação da IA ao design gráfico, incluindo a necessidade de pensamento criativo, curadoria e trabalho com profissionais de diferentes áreas. Ela aconselha candidatos interessados em IA e aprendizado de máquina para design gráfico a demonstrar experiência em projetos e buscar oportunidades de pesquisa.

  • 00:00:00 Nesta seção, Zoya Bylinskii, pesquisadora da Adobe, explica como a IA pode ser usada a serviço do design gráfico. Bylinskii fala sobre a interseção de design gráfico e IA e como diversas formas estilísticas de designs gráficos podem ser desconstruídas em módulos computacionais que podem ser aprendidos e automatizados. Ela enfatiza que a IA não pretende substituir os designers, mas sim permitir que os designers tenham automação para tarefas tediosas e exploração rápida para gerar variantes de design automaticamente, mantendo o designer central no processo de design e na curadoria. Bylinskii fornece dois exemplos desses objetivos: redimensionar e dispor um design para diferentes fatores de forma e proporções e alternar entre muitas representações visuais possíveis ao criar um ícone, logotipo ou um ativo de design semelhante.

  • 00:05:00 Nesta seção, Zoya Bylinskii discute como a automação de design pode aumentar a velocidade do processo de design minimizando o tédio e facilitando um processo de iteração mais eficiente. Bylinskii continua explicando como o aprendizado de máquina pode prever a importância visual no design, criando uma orientação mais eficaz para designers gráficos, aprendendo o que é visualmente impressionante e chama a atenção em diferentes designs. Utilizando uma ferramenta de anotação, Bylinskii e seus colegas selecionaram um conjunto de dados de mil pares de imagens e anotações para treinar seu modelo nesse conceito de importância, que usou módulos de classificação para prever as regiões mais salientes de um projeto no momento do teste, orientando os designers em onde colocar outros elementos de design.

  • 00:10:00 Nesta seção, Zoya Bylinskii discute duas aplicações para o uso de inteligência artificial (IA) em design gráfico. A primeira aplicação envolve uma ferramenta de design interativa que usa uma pequena rede neural para recalcular continuamente a importância prevista de vários elementos de design em tempo real. A ferramenta também possui um histograma e permite que os usuários ajustem o nível de importância de cada elemento para manipular o design. A segunda aplicação envolve a geração de ideias de ícones, onde a IA é usada para criar novos ícones que correspondam a conceitos visuais comuns. Bylinskii explica que esses dois aplicativos oferecem novas direções promissoras para o uso de modelos de importância em ferramentas de design gráfico assistidas por IA.

  • 00:15:00 Nesta seção, o palestrante explica o desafio que os designers enfrentam quando tentam criar uma nova iconografia para um conceito que não possui ícones existentes, como o sushi delivery. Esse processo requer trabalho manual, busca de conceitos relacionados para inspiração, além de recombinar e editar ícones existentes. Para simplificar esse processo, o palestrante apresenta um novo pipeline orientado por IA para geração de ícones compostos. Este sistema combina espaço, estilo e semântica para gerar ícones compostos que são estilisticamente compatíveis e semanticamente relevantes para o conceito consultado. O pipeline orientado por IA envolve dividir a consulta em palavras relacionadas, encontrar ícones estilisticamente compatíveis e combiná-los para transmitir a mensagem desejada.

  • 00:20:00 Nesta seção, Bylinskii discute um projeto chamado Iconate, que usa IA para sugerir combinações de ícones e layouts compatíveis para a criação de novos designs. O sistema aprende um espaço de incorporação para sugerir ícones estilisticamente compatíveis e uma abordagem baseada em modelo para definir o layout dos ícones constituintes. O Iconate foi treinado usando o conjunto de dados CompyCon1k de 1.000 ícones compostos com componentes individuais anotados. Bylinskii explica que o sistema permite que os usuários criem ícones compostos muito mais rapidamente do que com ferramentas de design independentes, e pode ser usado para gerar ícones rapidamente para qualquer conceito que o usuário possa imaginar. Ela também destaca outras ferramentas de design baseadas em IA, como síntese de logotipo e sistemas de refinamento de layout, que visam facilitar o processo de design em vez de substituir a criatividade humana.

  • 00:25:00 Nesta seção, o palestrante discute o uso da IA na criação de infográficos, incluindo texto, estatísticas e pequenas visualizações. Ela também observa que esse trabalho está espalhado por diferentes comunidades e conferências e fornece exemplos de visão computacional, como a geração de designs de GUI usando GANs. Ela observa que há muitos recursos disponíveis, incluindo conjuntos de dados para design gráfico computacional e criatividade, e menciona brevemente o conjunto de dados de mídia artística do Behance e o conjunto de dados de compreensão automática de anúncios de imagem e vídeo.

  • 00:30:00 Nesta seção, o palestrante discute os modelos e ferramentas disponíveis para automatizar componentes dentro do fluxo de trabalho do projeto, observando que muitas das ferramentas automáticas não são muito criativas, mas ainda há muito potencial para descobertas futuras no espaço de fluxos de trabalho automatizados, mas altamente criativos. Ela incentiva os alunos a explorarem esse espaço por conta própria e a gerarem pensamentos interdisciplinares, que podem levar a aplicações empolgantes na interface da computação e do design. A discussão também aborda as limitações dos atuais modelos text-to-visual em design gráfico e o potencial para novos modelos que podem gerar gráficos vetoriais.

  • 00:35:00 Nesta seção, o palestrante discute um projeto onde o objetivo era produzir uma legenda a partir de um determinado infográfico para pesquisar infográficos na web e anotá-los para deficientes visuais. No entanto, eles encontraram um problema, pois não podiam usar os detectores de objetos existentes para extrair visuais e ícones de infográficos. Isso levou ao desenvolvimento de uma maneira de treinar um detector de ícones usando dados sintéticos, o que acabou permitindo a detecção de ícones. Posteriormente, os alunos exploraram a possibilidade de aprender embeddings conjuntos entre os ícones e o texto próximo, que poderiam ser usados para entender como os conceitos abstratos eram visualizados em designs gráficos complexos. O palestrante enfatiza que a IA não pretende substituir os designers, mas ajudá-los, e que a curadoria continuará sendo um aspecto importante do trabalho.

  • 00:40:00 Nesta seção, o palestrante discute o papel dos designers no campo do design gráfico gerado por IA. Embora seja possível treinar modelos para gerar designs, é difícil treiná-los para criar designs inteiramente novos. Portanto, os designers podem introduzir novos ativos e componentes que estão além do coletor atual, que podem ser usados para manipular e gerar automaticamente novos designs. O palestrante também enfatiza a necessidade de curadoria, pois os designers podem ajudar a identificar pares lixo e não lixo para melhorar o processo de treinamento. Além disso, o palestrante destaca que a adaptação de designs a diferentes culturas ainda é um desafio devido à falta de dados suficientes. Por fim, o palestrante explica o papel dos cientistas de pesquisa em empresas como a Adobe, que visam lançar grandes ideias de pesquisa que podem ser incorporadas às equipes de produtos existentes para desenvolvimento posterior.

  • 00:45:00 Nesta seção, Zoya Bylinskii discute os desafios de aplicar IA em design gráfico para criar produtos práticos. Ela destaca a necessidade de conceituar problemas de uma forma que os torne portáteis para diferentes produtos tecnológicos, lançando ideias de pesquisa para empresas e trabalhando ao lado de profissionais de diferentes áreas de especialização. Bylisnkii aconselha estudantes e estagiários a desenvolver um forte conjunto de ferramentas computacionais para melhorar suas chances de conseguir uma posição como estagiário de engenharia, pesquisa ou produto.

  • 00:50:00 Nesta seção, o palestrante se concentra nas habilidades que procura em um candidato interessado em IA e aprendizado de máquina para design gráfico. Eles enfatizam a necessidade de proficiência em ferramentas de software e aprendizado de máquina. Eles recomendam mostrar a experiência não apenas na forma de curso, mas também na forma de projeto com exemplos no Github. Eles sugerem que os candidatos precisam mostrar criatividade e inovação, indo além dos modelos e bibliotecas existentes para conceituar novas ideias e aplicá-las de novas maneiras. Os candidatos devem buscar experiência em pesquisa ou cargos técnicos em um laboratório universitário. Eles recomendam abordar professores e se oferecer para trabalhar por um período específico em determinados problemas. Por fim, enfatizam a importância de referências de outros pesquisadores, atestando a criatividade do candidato, capacidade técnica e idoneidade para a pesquisa.
 

MIT 6.S192 - Aula19: Criação fácil de conteúdo 3D com campos neurais consistentes, Ajay Jain



MIT 6.S192 - Aula 19: Criação fácil de conteúdo 3D com campos neurais consistentes, Ajay Jain

Nesta palestra, Ajay Jain apresenta seu trabalho em representações de cenas neurais, focando especificamente no modelo Neural Radiance Fields, que usa exibições de entrada com amostras esparsas para construir uma representação da geometria e cor 3D de uma cena. Jain discute os desafios de ajustar um campo de radiância neural a uma única cena, bem como maneiras de melhorar a eficiência de dados do processo de treinamento adicionando perda fotométrica e perda de consistência semântica. Ele também fala sobre o uso do CLIP para remover artefatos no NeRF e gerar objetos 3D a partir de legendas no projeto Dream Fields. Outros tópicos incluem a criação de objetos de primeiro plano consistentes em cenas, aquisição de conjuntos de dados de objetos 3D legendados, redução de custos de renderização e otimização do desempenho do sistema.

  • 00:00:00 Nesta seção do vídeo, Ajay Jain fala sobre sua jornada e interesses de pesquisa em modelos generativos e ferramentas de IA. Ele também discute os diferentes tipos de representações de cena, com foco em abordagens volumétricas que são mais fáceis de treinar e usar em um contexto de aprendizado em comparação com representações de malha comumente usadas em aplicativos gráficos. Jain também destaca o recente interesse em representações de cenas neurais.

  • 00:05:00 Nesta seção, o palestrante discute o conceito de representações de cenas neurais, focando especificamente em um modelo chamado Neural Radiance Fields. Este modelo aborda o problema de síntese de visualização, em que visualizações de entrada com amostras esparsas de uma cena são usadas para construir uma representação da geometria e cor 3D da cena, permitindo a renderização de novas perspectivas. O campo de radiância neural é estimado a partir dessas imagens e permite uma interpolação suave das visualizações com amostras esparsas. O modelo também é capaz de modelar efeitos dependentes da visão, como especularidades em superfícies brilhantes. A rede neural é representada como um mapeamento de função de coordenadas de espaço 3D e direção de visualização e prevê cor e densidade para cada coordenada. A renderização é feita por meio de traçado de raio e renderização de volume.

  • 00:10:00 Nesta seção, o palestrante discute o processo de renderização de cores de acordo com a representação da cena neural para otimizar os pesos da rede neural para obter as cores desejadas. Eles explicam que o MLP que codifica a cena permite a renderização diferenciável de pontos de vista, facilitando a otimização. Esse processo é chamado de gráficos inversos e envolve ir do espaço 2D para a otimização da representação 3D subjacente que reconstruirá essas visualizações. O palestrante também explica como as coordenadas de entrada são alimentadas na rede neural usando uma abordagem de codificação posicional senoidal que projeta a entrada 5-dimensional em um espaço dimensional superior.

  • 00:15:00 Nesta seção, o vídeo discute os desafios de ajustar um campo de radiância neural a uma única cena, pois geralmente requer uma grande quantidade de dados para treinar. O vídeo mostra uma cena sintética que exigia cem imagens para caber no campo, enquanto algumas cenas externas exigiam menos imagens. O vídeo discute uma maneira de melhorar a eficiência dos dados do processo de treinamento adicionando uma perda adicional ao treinamento do campo de radiância neural, chamada perda fotométrica, em posições não observadas. Isso permite a renderização de novas visualizações antes mesmo de a cena convergir.

  • 00:20:00 Nesta seção, o palestrante discute o conceito de perda de consistência semântica, que permite a regularização de cenas sob qualquer perspectiva durante o treinamento. Usando um codificador visual, cada exibição de entrada é representada no espaço de recursos, o que permite a codificação da identidade do objeto e de outros recursos que são consistentes entre os pontos de vista. A escolha do recurso é crucial, pois deve codificar a identidade e as propriedades do objeto em vez de detalhes de baixo nível, como cores de pixel. O locutor propõe o uso da rede CLIP porque aprendeu a associar imagens às legendas associadas, o que permite codificar classes de objetos, poses de objetos e detalhes sobre toda a cena. O palestrante mostra que a semelhança de cosseno de incorporações do codificador de imagem do CLIP dentro de uma cena particular de diferentes poses de câmera é altamente semelhante, mas muito diferente no espaço de pixel.

  • 00:25:00 Nesta seção do vídeo, o palestrante fala sobre seus experimentos sobre o uso do CLIP para remover artefatos no NeRF maximizando a similaridade do espaço de recursos e, em seguida, discute o uso do CLIP para gerar objetos 3D a partir de apenas uma legenda em seu segundo trabalho, Campos de Sonho. Eles otimizam uma representação de cena compartilhada para parecer semelhante a um NeRF de dieta com regularizadores adicionais e, em seguida, renderizam novas visualizações para cada perspectiva. Eles usam o codificador de texto do CLIP para maximizar a similaridade no espaço de recursos entre a cena e a legenda, em vez de otimizar a similaridade de recursos no espaço de recursos da imagem. Eles observam que a legendagem automática com CLIP é desafiadora devido à dificuldade do processo de busca e otimização.

  • 00:30:00 Nesta seção, Ajay Jain discute o processo de criação de objetos de primeiro plano consistentes em cenas 3D usando Dream Fields. Ao amostrar aleatoriamente poses na cena e renderizar imagens, eles tentam garantir que os recursos semânticos correspondam aos recursos de legenda. No entanto, a aplicação ingênua dessa abordagem sem regularização pode levar a cenas degeneradas. Portanto, eles regularizam a cena por planos de fundo amostrados aleatoriamente compostos e objetos de primeiro plano altamente transparentes para encorajar a dispersão na cena. Com essa regularização, eles conseguem criar objetos de primeiro plano mais consistentes na cena. Além disso, eles experimentam diferentes modelos de legenda para medir a generalização composicional do modelo.

  • 00:35:00 Nesta seção, o palestrante discute os desafios de adquirir conjuntos de dados de objetos 3D legendados e como eles resolveram esse problema usando o CLIP, um codificador de texto e imagem 2D pré-treinado. O projeto Dream Fields transforma essa representação 2D em 3D por meio de uma representação compartilhada da geometria. O palestrante também fala sobre as técnicas utilizadas para melhorar a qualidade dos objetos 3D gerados e o custo do processo de otimização. O objetivo do projeto é facilitar a criação de conteúdo 3D e gerar ativos úteis para aplicativos downstream, e o código está disponível para quem quiser experimentá-lo.

  • 00:40:00 Nesta seção, Ajay Jain explica que a estrutura 3D dos objetos só surge por causa da representação compartilhada, que satisfaz o CLIP de qualquer perspectiva. Não há prévia na estrutura 3D aprendida a partir dos dados, então alguma consistência nos dados 3D está faltando, e essa é uma oportunidade para trabalhos futuros. Jain também menciona que quando a geometria subjacente não é visível, a consistência não é preservada, levando a estruturas repetidas. A rede neural gerada a partir do mapeamento da função das coordenadas deve ser pós-processada, o que envolve a conversão da saída do campo neural em um arquivo .fbx ou malha, com alguns algoritmos permitindo essa conversão.

  • 00:45:00 Nesta seção, o palestrante discute estratégias para reduzir os custos de renderização em representações volumétricas do campo de radiância neural, incluindo a renderização de imagens em baixa resolução e o uso de uma única GPU com pouca memória para acelerar significativamente o processo. Eles também explicam como objetos transparentes podem ser manipulados dentro desse tipo de representação e mencionam etapas futuras para tornar essa abordagem mais prática para artistas 3D, como sintetizar objetos deformáveis e incorporar feedback humano durante o treinamento. Por fim, eles compartilham um notebook Colab para implementar o sistema e ajustar as configurações de qualidade para diferentes prompts.

  • 00:50:00 Nesta seção, o palestrante discute as curvas de aprendizado e o processo de otimização envolvidos na criação de conteúdo 3D usando campos neurais consistentes. Eles explicam diferentes fatores que afetam o processo de otimização, como a transparência dos pixels na cena e o número de aumentos de dados por iteração. Eles também sugerem ajustar os parâmetros de configuração para reduzir o uso de memória, o que inclui reduzir o número de amostras e usar o CLIP b32 em vez do CLIP b16 padrão. Por fim, eles mencionam a opção de paralelização entre várias GPUs para otimizar o desempenho.
 

MIT 6.S192 - Aula 20: Arte generativa usando difusão, Prafulla Dhariwal



MIT 6.S192 - Aula 20: Arte generativa usando difusão, Prafulla Dhariwal

Nesta palestra, Prafulla Dhariwal da OpenAI discute o progresso da modelagem generativa para tarefas criativas difíceis, particularmente com modelos de difusão. O processo envolve começar com uma imagem e lentamente adicionar ruído Gaussiano a ela, então reverter o processo tomando algum dano com ruído e eliminando-o para criar imagens menos ruidosas. O modelo generativo é obtido treinando um modelo para reverter ruído como este, produzindo uma imagem de ruído puro no momento do teste, executando o modelo passo a passo para trás. A previsão reversa do processo também se parece com uma distribuição gaussiana quando a quantidade de ruído adicionada é muito pequena, que é usada para prever a média e a variância do modelo. Dhariwal também discute como usar modelos de difusão para pintura interna e abordar os perigos potenciais do conteúdo gerado por IA.

  • 00:00:00 Nesta seção do vídeo, Prafulla Dhariwal, da OpenAI, discute seu histórico e as motivações para conduzir pesquisas de IA. Ele também mostra alguns exemplos de poderosos modelos criativos de ML, como GPT-3 e JukeBox, que podem gerar poesia e música, respectivamente, a partir de apenas alguns exemplos. O vídeo também inclui uma saída de amostra do JukeBox, que gerou a música e a letra juntas, pois são interdependentes. Os espectadores são incentivados a fazer perguntas a qualquer momento durante a apresentação.

  • 00:05:00 Nesta seção, Prafulla Dhariwal discute o progresso da modelagem generativa para tarefas criativas difíceis. O palestrante explica que uma forma de entender se os modelos estão realmente aprendendo algo é vendo se eles podem criar coisas complexas e difíceis de entender. Modelos de treinamento para criar imagens, áudio e vídeo é uma das tarefas mais difíceis nesses domínios, mas houve muito progresso na tentativa de criar coisas a partir de modelos ou modelagem generativa. Dhariwal discute como os modelos generativos funcionam, quais entradas eles exigem e como são avaliados. O palestrante também fala sobre os avanços recentes dos modelos de difusão, que podem gerar rostos realistas e diferentes categorias de imagens. Dhariwal mostra que esses modelos são melhores que os GANs na geração de imagens.

  • 00:10:00 Nesta seção da palestra, Prafulla Dhariwal discute a arte generativa por meio do uso de modelos de difusão. Os modelos funcionam começando com uma imagem e lentamente adicionando ruído gaussiano a ela, tentando reverter o processo tomando alguns danos ruidosos e eliminando-os para criar imagens menos ruidosas. O modelo generativo é obtido treinando um modelo para reverter ruído como este, produzindo uma imagem de ruído puro no momento do teste, executando o modelo passo a passo para trás. A previsão reversa do processo também se parece com uma distribuição gaussiana quando a quantidade de ruído adicionada é muito pequena, que é usada para prever a média e a variância do modelo.

  • 00:15:00 Nesta seção, Prafulla Dhariwal discute o processo de usar a difusão para reverter o ruído adicionado a uma imagem. O processo envolve prever um gaussiano na direção reversa e usar truques de treinamento para simplificar o processo. O modelo recebe uma imagem x0, ruído aleatório e uma combinação dos dois para produzir um x_t com ruído, e a rede é treinada para prever o ruído que foi adicionado à imagem usando a perda L2. Os modelos usados para esta tarefa são geralmente modelos de estilo UNet convolucionais, que reduzem a amostra da imagem e aprendem recursos em diferentes níveis de granularidade antes de aumentá-la novamente em uma previsão de ruído. O processo pode ser usado para obter um modelo generativo prevendo a média do processo reverso.

  • 00:20:00 Nesta seção, aprendemos como tornar a classe do modelo de difusão condicional fornecendo rótulos ao modelo durante o tempo de treinamento, para que o modelo possa produzir uma imagem de p de x dado y, a distribuição de imagens representada por um rótulo. Além disso, o modelo pode ser condicionado em imagens de baixa resolução e aumentá-las para imagens de alta resolução. No entanto, esse tipo de modelo produz amostras incoerentes, então o truque da orientação é introduzido. Isso envolve treinar um classificador em imagens ruidosas e, em seguida, usar o gradiente do classificador para guiar o modelo de difusão no sentido de gerar imagens com maior probabilidade de serem classificadas como o rótulo desejado.

  • 00:25:00 Nesta seção, Dhariwal explica a necessidade de manter o classificador no processo de amostragem, pois os gradientes são usados diretamente do classificador. O processo reverso modificado usa um termo com variância adicional, que é o controle do tamanho do passo no processo, com escala do parâmetro extra, s. O parâmetro s ajuda o modelo a se concentrar nos modos da distribuição e nos resultados mais restritos. Um pequeno valor de s não influencia muito o classificador, enquanto um grande valor o influencia muito. O fator de escala controla a orientação recebida do classificador e afeta a distribuição na qual ele colapsa.

  • 00:30:00 Nesta seção, Prafulla Dhariwal discute o uso de modelos de difusão para gerar arte com base em descrições de texto. Ao condicionar os modelos de difusão em descrições de texto, o modelo pode ser levado a produzir imagens que se alinhem com o texto. O CLIP pode ser usado para medir o quão próximo a imagem e o texto se alinham, e um gradiente pode ser usado para direcionar o processo de geração do modelo para a descrição do texto. Alternativamente, a orientação sem classificador pode ser usada para treinar um modelo de difusão com e sem rótulos e, em seguida, a diferença entre as duas previsões pode ser usada como uma direção nudging durante o tempo de teste. O parâmetro de escala é usado para controlar a quantidade de deslocamento em direção à distribuição baseada em rótulo.

  • 00:35:00 Nesta seção, o palestrante discute uma forma de orientação para modelos condicionais de texto chamada orientação livre de classificador. Esse método envolve o uso do próprio modelo de difusão para orientação, solicitando ao modelo que preveja qual caminho ele deve seguir para aumentar a probabilidade de a imagem gerada ser da classe correta. O palestrante também aborda uma questão sobre a adição gradual de elementos a uma imagem e sugere dois métodos possíveis para conseguir isso, um dos quais envolve modificar a imagem gerada iterativamente usando ruído e reexecutar o processo com novos prompts. O palestrante apresenta amostras comparando a eficácia da orientação CLIP e da orientação sem classificador, com a última produzindo os melhores resultados.

  • 00:35:00 Nesta seção, Prafulla Dhariwal discute uma nova classe de modelo para geração de imagens que usa uma técnica de difusão. Ele explica que esse modelo não está fazendo as coisas autorregressivamente, mas sim gerando uma imagem inteira, o que permite tarefas mais complicadas, como a pintura interna. A pintura interna envolve mascarar uma parte de uma imagem e, em seguida, usar o modelo para preencher essa parte. Isso também pode ser feito com pintura de condição de texto, onde um rótulo de texto é fornecido para informar ao modelo como pintar a região. A pintura iterativa pode ser usada para adicionar coisas à imagem uma a uma, como adicionar a pintura de um corgi em uma parede acima de um sofá. O modelo gerou amostras mais realistas do que modelos mais antigos, como DALL·E, e usou menos parâmetros.

  • 00:40:00 Nesta seção da palestra, Prafulla Dhariwal discute como a pintura pode ser usada para remover objetos de uma imagem ou preencher qualquer informação ausente. Ele também explica a pintura externa, que envolve mover o retângulo para fora da imagem e pedir ao modelo para preencher essa área. Além disso, Dhariwal observa que os notebooks lançados usam um modelo GLIDE filtrado, pois o original pode gerar imagens problemáticas. Apesar da diferença de desempenho, o modelo menor ainda pode gerar imagens realistas. Ele demonstra exemplos de obras de arte geradas por usuários no Twitter, encontrando prompts interessantes e expandindo-os com a técnica de pintura externa. Por último, há a questão sobre o perigo criado pelo modelo GLIDE original, para o qual Dhariwal recomenda a leitura do documento para maiores detalhes.

  • 00:45:00 Nesta seção, o palestrante discute as compensações entre a utilidade dos modelos e o perigo potencial do conteúdo gerado. O palestrante destaca a dificuldade de garantir que os modelos produzam apenas conteúdos seguros, visto que são ferramentas poderosas que podem facilmente gerar dados enganosos ou violentos. Para filtrar partes inseguras do modelo, a equipe deve treinar classificadores para identificar pontos de dados potencialmente problemáticos. O palestrante discute questões práticas ao implantar o modelo, como escolher as escalas e os intervalos de tempo para o processo de difusão, bem como adicionar máscaras personalizadas a arquivos de imagem para pintar uma área específica.

  • 00:55:00 Nesta seção, Prafulla Dhariwal recomenda leitura adicional para aqueles interessados na teoria por trás dos modelos usados na arte generativa. Ele sugere a leitura do "De-Noising Diffusion Probabilistic Models Paper" de Jonathan Ho, bem como seu próprio artigo sobre "Diffusion Models Beat GANs on Image Synthesis" para obter mais informações sobre orientação CLIP e orientação livre de classificadores. Além disso, Dhariwal recomenda o artigo de Yang Song, "Generative Modeling by Estimating Gradients of the Data Distribution", que aborda o problema de uma perspectiva diferente de correspondência de pontuação, uma lente diferente para entender os modelos de difusão. Durante as perguntas e respostas, Dhariwal observa que existe uma relação entre o ruído bidimensional usado e as saídas do modelo, mas é indireta. Ele sugere amostrar o ruído uma vez no início e, em seguida, executar um processo reverso determinístico para obter amostras do modelo como uma forma de tornar essa relação mais clara.

  • 01:00:00 Nesta seção, os palestrantes discutem o processo de redução de ruído e o papel do condicionamento de texto na geração de imagens sem CLIP. Eles explicam que treinar um modelo sem rótulos de texto dificulta a geração de uma amostra para uma determinada distribuição de texto, mas o modelo de difusão é treinado para ser condicional de texto. Embora a orientação possa ser usada em modelos incondicionais e condicionais, o modelo original também pode usar orientação para melhorar sua capacidade de produzir uma imagem a partir de um texto. Os palestrantes incentivam os espectadores a ler blogs e explorar outros cadernos do Colab para obter mais informações.
 

MIT 6.S192 - Aula 21: Entre Arte, Mente e Máquinas, Sarah Schwettmann



MIT 6.S192 - Aula 21: Entre Arte, Mente e Máquinas, Sarah Schwettmann

Nesta palestra, Sarah Schwettmann discute a interseção entre arte, mente e máquinas. Ela se aprofunda na percepção visual e no desafio de experimentar um rico mundo 3D por meio de uma tela 2D, que exige que o cérebro resolva um problema inverso e construa a melhor explicação para as informações recebidas. Schwettmann também fala sobre projetos que envolvem modelos generativos profundos treinados em obras de arte, como o uso da inversão GAN para incorporar imagens da coleção Met no espaço de recursos de um modelo de fundação para entender a estrutura da criatividade humana e a criação de um vocabulário de conceito visual para um arbitrário GAN espaço latente por amostragem do espaço de transformações salientes ou possíveis e usando essas direções de amostra como uma tela para projetar julgamentos perceptivos humanos. A interação humana e a rotulagem são importantes nesse processo, e o vocabulário resultante pode ser aplicado a outros modelos e usado para manipular imagens de várias maneiras. Apesar do ruído nos dados devido à escolha variável de palavras, seu método de destilar vocabulários usando qualquer tamanho de biblioteca de anotações pode ser ampliado e pode envolver o treinamento de um legendador para rotular as direções automaticamente.

Sarah Schwettmann também discute várias maneiras de explorar e atribuir significado a direções dentro de modelos treinados na criação humana. Ela apresenta um experimento capturando e aprendendo direções visuais sem linguagem, o que permite aos humanos definir a transformação que desejam puramente visualmente, interagindo com um pequeno lote de imagens amostradas do espaço latente ou do espaço de recursos. Esse método é útil para rotular e entender imagens com recursos diferenciados e difíceis de explicar. Além disso, o espaço latente pode se tornar uma tela na qual as experiências humanas podem ser projetadas, permitindo que os pesquisadores entendam melhor os aspectos da percepção humana que, de outra forma, seriam difíceis de formalizar.

  • 00:00:00 Nesta seção, Sarah Schwettmann discute sua formação em neurociência e como ela se interessou pelo ponto de encontro entre o eu e o mundo, especificamente nas áreas onde a arte visual e os aspectos de alto nível da cognição se cruzam. Ela descreve a percepção visual como fundamentalmente construtiva, exigindo um pouco de criatividade para resolver problemas inversos mal colocados, e observa que a parte de trás do olho humano é uma tela plana 2D composta por uma hierarquia de células que constituem uma tela 2D que abrange dados de imagem recebidos e representa imagens em termos de padrões de ativações por meio de um mosaico de células.

  • 00:05:00 Nesta seção da palestra, Sarah Schwettmann discute o desafio de experimentar um rico mundo 3D enquanto o visualiza através de uma tela 2D. Embora os problemas clássicos de visão computacional possam reconhecer a estrutura 3D de um objeto, ele não pode transmitir os significados e associações associados que o acompanham. Nosso cérebro precisa resolver um problema inverso para ir de informações bidimensionais baixas para 3D rico, o que é um problema mal colocado porque existem infinitas configurações que poderiam causar a mesma projeção 2D. A percepção é fundamentalmente construtiva e requer que o cérebro construa a melhor explicação para a informação recebida, tornando-a um ato de criação. Uma maneira popular de resolver esse problema de inferência é usar modelos do mundo, como abordagens bayesianas ou de aprendizado profundo. Schwettmann então fornece um exemplo de demonstração ao vivo em que a informação visual é restrita a uma única linha de luz laser vermelha, forçando o público a inferir o que está sobre uma mesa coberta de veludo preto.

  • 00:10:00 Nesta seção do vídeo, Sarah Schwettmann discute como nossos modelos mentais sobre formas podem ajudar a informar nossa percepção. Ela apresenta um exemplo em que uma única linha de luz laser se move sobre a superfície de várias formas diferentes e como podemos inferir quais são essas formas com base em como a luz se curva em torno da superfície. Isso leva a uma discussão sobre física intuitiva e como o cérebro representa propriedades físicas como massa, que podem ser usadas como entrada para um mecanismo generalizado abstrato para simulação física. Schwettmann também aborda o tema dos modelos na arte, explicando como é difícil desenvolver um formalismo computacional para certas obras de arte em que as dimensões subjacentes não são claras.

  • 00:15:00 Nesta seção, o Dr. Sarah Schwettmann discute o curso Vision in Art and Neuroscience que o MIT oferece. É um seminário aprofundado que investiga os princípios subjacentes à visão por meio da literatura de neurociência, computação e prática artística. Schwettmann apresenta exemplos da fotografia de Minor White e discute como diferentes fatores podem afetar a percepção verídica. O curso também inclui uma seção de estúdio onde os alunos exploram como externalizar e visualizar princípios de visão em contextos artísticos. Além disso, o curso culmina no desenvolvimento de uma peça de exibição de arte, proporcionando aos alunos uma oportunidade única de mostrar suas próprias obras de arte.

  • 00:20:00 Nesta seção, Sarah Schwettmann discute um projeto que se concentrou em como modelos generativos profundos poderiam ser usados para entender a estrutura da criatividade humana. O Metropolitan Museum of Art forneceu um conjunto de dados de algumas centenas de milhares de imagens digitais de obras em sua coleção. Os pesquisadores perguntaram se poderiam construir modelos generativos profundos associados a esses arquivos que incorporassem o trabalho criado em seu contexto cultural. Eles usaram a inversão GAN (rede adversária generativa) para incorporar cada imagem no conjunto de dados no espaço de recursos de um modelo de fundação. Isso permitiu que eles definissem subespaços desses grandes modelos com os quais poderiam interagir, em vez de ter que treinar novamente um modelo em seu conjunto de dados. O projeto visava experimentar a história cultural em uma linha do tempo que permitisse uma rápida evolução no presente.

  • 00:25:00 Nesta seção, Schwettmann discute um projeto no qual ela trabalhou envolvendo a coleção Met e BigGAN ImageNet. Eles selecionaram categorias que foram compartilhadas entre os dois e criaram uma perda de duas partes para maximizar a semelhança entre a imagem do Met e a imagem do BigGAN nos níveis de pixel e semântico. Eles foram capazes de visualizar incorporações individuais e fazer interpolações entre as imagens existentes no gráfico para criar imagens hipotéticas ou oníricas que existem entre os espaços das obras existentes na coleção. O projeto foi exposto no Met e uma versão web app foi disponibilizada. O projeto continua a evoluir com o uso do StyleGAN2-ADA para treinar em conjuntos de dados menores.

  • 00:30:00 Nesta seção, Schwettmann fala sobre um projeto que envolve a criação de pinturas a óleo em camadas a partir de caminhadas curtas no espaço latente usando um pintor a óleo robótico para representar visualmente o trabalho de dirigibilidade abordado no curso. Este projeto está sendo exibido na galeria de arte contemporânea da University of North Texas. Ela também discute a importância de entender e interpretar as dimensões subjacentes aos modelos generativos treinados em corpos de trabalho artístico de coleções digitais de museus, com o objetivo de criar histórias alternativas e imaginárias da arte construídas a partir de caminhadas latentes únicas. O objetivo é entender aspectos compartilhados da linguagem da imagem que podem estar presentes em gêneros de arte muito diferentes.

  • 00:35:00 Nesta seção, Schwettmann discute a interseção entre a criatividade de modelagem e o aprendizado de máquina, particularmente no que diz respeito à modelagem de técnicas e estilos individuais de criação de arte. Ela também observa que modelos generativos treinados em obras de arte podem oferecer insights sobre a estrutura subjacente à criatividade e podem ser usados como ferramentas para colaboração. Schwettmann então explora maneiras pelas quais os humanos podem interagir com modelos generativos para aprender mais sobre a visão humana e construir vocabulários compartilhados, como projetar experimentos que permitem a visualização e interação de caminhadas latentes. A interação humana nesse processo envolve uma seleção de imagens representativas para conjuntos de dados de treinamento e a seleção de caminhadas arbitrárias pelo espaço latente, sendo o próximo passo criar uma linguagem mais sistemática para as diferentes caminhadas.

  • 00:40:00 Nesta seção, Sarah Schwettmann discute o uso da interação humana na rotulagem e seleção de diferentes caminhadas pelo espaço latente para produzir mudanças sutis no desenvolvimento da arte. Ela destaca a importância de envolver modelos diretamente, em vez de depender de um legendador intermediário, e colocar diferentes tipos de humanos no circuito para usar seu conhecimento para criar uma síntese única com o modelo generativo. Schwettmann então discute um projeto focado na construção de um vocabulário de conceito visual para um espaço latente GAN arbitrário, que envolve a amostragem do espaço de transformações salientes ou possíveis e o uso dessas direções de amostra como uma tela para projetar julgamentos perceptivos humanos. O objetivo é separar os conceitos em um vocabulário de conceitos visuais composicionais abertos e definir um vocabulário compartilhado entre recursos profundos na representação de um modelo e conceitos significativos para os humanos na compreensão visual da cena.

  • 00:45:00 Nesta seção da palestra, Sarah Schwettmann discute como humanos podem ser usados para rotular um conjunto de dados para um vocabulário que é diverso e específico. Ao definir direções seletivas de camadas mutuamente ortogonais que minimizam a mudança na representação de recursos em alguma camada do BigGAN, Schwettmann é capaz de capturar mudanças focadas e mudanças em diferentes níveis de abstração. Essas transformações significativas mínimas são então rotuladas por espectadores humanos, que Schwettmann então decompõe em um vocabulário de conceito visual que consiste em direções únicas rotuladas com palavras únicas. Mais de 2.000 conceitos correspondem a muitos tipos diferentes de mudanças visuais, permitindo manipulações como zoom, rotação, cor e até mudanças de humor. Por meio desse processo, Schwettmann é capaz de desembaraçar transformações que correspondem a conceitos rotulados pelo espectador, como tornar uma cozinha mais moderna e aplicar essas transformações a outras imagens.

  • 00:50:00 Nesta seção, Sarah Schwettmann discute a natureza componível e generalizável de seu método proposto para encontrar dimensões de interesse visual que sejam significativas para os humanos no espaço latente de um modelo treinado em imagens do mundo real. Eles conduziram um conjunto de experimentos comportamentais para avaliar o sucesso de seu método e descobriram que é possível adicionar conceitos aprendidos em uma categoria a uma categoria diferente. O método é independente de modelo e pode ser aplicado a outros modelos, inclusive aqueles treinados em arquivos de imagens de arte. Existem também diferentes métodos que podem ser usados para amostrar o espaço latente, mas o método de seleção de camada foi considerado o mais eficaz para isolar alterações específicas. A intervenção humana ainda é necessária para a anotação, mas o trabalho futuro pode envolver o treinamento de um legendador em um conjunto de dados rotulado maior ou o uso de algo como o CLIP para anotações automáticas, preservando a oportunidade para os especialistas anotarem modelos especializados.

  • 00:55:00 Nesta seção do vídeo, Sarah Schwettmann discute o processo de anotação do projeto e a tomada de decisão por trás da escolha de quais direções visualizar. A equipe coletou pelo menos duas anotações para cada direção para medir a concordância intersujeito e usou BLEU e BERTScores para a concordância entre anotadores. Eles visualizaram 64 z por categoria e um monte de diferentes direções mínimas significativas para eles. A decisão foi um tanto ad hoc, mas o método que eles usaram pode destilar vocabulários usando qualquer tamanho de biblioteca de anotações. Eles agora estão decidindo se devem aumentar e coletar mais anotações para treinar um legendador para rotular as direções automaticamente. Em termos de rotulagem, não havia padrões para os anotadores em termos de escolha de palavras, o que resultou em algum ruído nos dados. Embora eles tenham feito uma execução prática e analisado exemplos antes das anotações, o acordo entre anotadores foi baseado apenas na janela bruta para a percepção que sua escolha de palavras forneceu.

  • 01:00:00 Nesta seção, o palestrante discute suas pesquisas sobre a avaliação do vocabulário usado para descrever as mudanças no céu. Eles descobriram que o uso de BERTScores para avaliar a semelhança semântica de anotações era mais eficaz do que apenas olhar para a correspondência baseada em palavras. Eles também discutem a ideia de agrupar anotações semelhantes sob o mesmo guarda-chuva para aumentar o poder, mas observam a beleza das diferentes palavras usadas para descrever as mudanças. O orador e o público discutem então caminhadas não lineares por subespaços em espaços latentes e a falta de normalização no significado visual correspondente aos adjetivos. O palestrante conclui com um método beta para construir um vocabulário compartilhado entre humanos e modelos.

  • 01:05:00 Nesta seção, Sarah Schwettmann descreve sua experiência de capturar e aprender direções visuais sem linguagem. Esse método é inspirado no "trabalho de dirigibilidade" e permite que os humanos definam a transformação que desejam de forma puramente visual, interagindo com um pequeno lote de imagens amostradas do espaço latente ou do espaço de recursos. Os usuários podem classificar as imagens na direção do recurso visual específico que desejam definir, e o método é compatível com o trabalho de dirigibilidade. Eles definiram uma transformação puramente aprendendo um hiperplano que separa diferentes classes de imagens e imagens amostradas do espaço latente. É possível discernir essas direções com algum grau de confiabilidade usando algumas imagens em cada categoria, facilitando a interação do usuário com esses sistemas. Esse método é útil para rotular e entender imagens que possuem recursos diferenciados e difíceis de explicar.

  • 01:10:00 Nesta seção da palestra, Sarah Schwettmann discute o espaço latente e como ele pode ser usado para explorar e atribuir significado às direções encontradas nos modelos que foram treinados na criação humana. Ao examinar como um modelo aprende as diferenças visuais entre as categorias, os pesquisadores podem aprender dimensões significativas, como plenitude, que podem ser aplicadas a cenas além das quais o modelo foi treinado. Por meio desse processo, o espaço latente pode se tornar uma tela na qual as experiências humanas podem ser projetadas, permitindo que os pesquisadores entendam melhor os aspectos da percepção humana que, de outra forma, seriam difíceis de formalizar. O resultado é uma colaboração entre humano e máquina que pode produzir resultados requintados.

  • 01:15:00 Nesta seção, Sarah Schwettmann discute a ideia de espaços latentes e a conexão entre nossa imaginação e os modelos que criamos. Ela expressa seu apreço por esse relacionamento e, em seguida, encerra o vídeo permitindo que o público faça quaisquer perguntas restantes.
 

MIT 6.S192 - Aula 22: Modelos Probabilísticos de Difusão, Jascha Sohl-Dickstein



MIT 6.S192 - Aula 22: Modelos Probabilísticos de Difusão, Jascha Sohl-Dickstein

Nesta palestra, Jascha Sohl-Dickstein discute modelos de difusão, que são usados para aprender tarefas separadas dos dados de treinamento. Os modelos são probabilísticos e podem ser usados para codificar ou decodificar dados. O processo de difusão direta é um processo fixo, e o processo inverso também é verdadeiro.

Esta palestra discute modelos probabilísticos de difusão e explica que, embora haja uma correspondência biunívoca entre o espaço latente e o espaço da imagem, é possível trabalhar com várias classes dentro do mesmo modelo. A palestra então explica como usar esses modelos para gerar novas imagens.

  • 00:00:00 Nesta palestra, Jascha Sohl-Dickstein discute modelos de difusão, que são usados para gerar imagens em diversas disciplinas, incluindo arte. Ele também compartilha exemplos de como os modelos de difusão estão sendo usados em conjunto com o texto para produzir imagens melhores.

  • 00:05:00 Nesta palestra, Jascha Sohl-Dickstein discute a intuição física por trás dos modelos de difusão e mostra como eles podem ser usados para gerar amostras de uma distribuição de dados. Ele então discute conexões entre modelos de difusão e EDOs neurais.

  • 00:10:00 Neste vídeo, a professora Jascha Sohl-Dickstein, do Departamento de Engenharia Elétrica do MIT, discute modelos de difusão, que são usados para estudar o comportamento de sistemas ao longo do tempo. Uma das principais vantagens dos modelos de difusão é que eles podem ser usados para gerar amostras de dados que representam o sistema conforme ele evolui ao longo do tempo, sem perder informações sobre a estrutura subjacente do sistema.

  • 00:15:00 Nesta palestra, Jascha Sohl-Dickstein explica como funcionam os modelos de difusão. Primeiro, ele mostra como um exemplo 1D é ilustrado em três milhões de dimensões. A seguir, ele explica como funcionam os modelos de difusão em 2D e 3D. Por fim, ele demonstra como os modelos de difusão podem ser usados para aprender funções que descrevem a média e a covariância de uma sequência de gaussianas.

  • 00:20:00 Nesta palestra, Jascha Sohl-Dickstein aborda os fundamentos matemáticos dos modelos de difusão, explicando como treiná-los usando um limite variacional. Ele também discute a desigualdade de Jensen e como reduzir o limite da verossimilhança do modelo. Se as distribuições direta e reversa sobre as trajetórias se sobrepõem exatamente, a verossimilhança logarítmica pode ser escrita como uma soma sobre as divergências KL, sendo que ambas as distribuições são gaussianas.

  • 00:25:00 Nesta palestra, Dr. Sohl-Dickstein discute a divergência KL entre duas distribuições de probabilidade, explicando sua importância para o aprendizado supervisionado. Ele continua dizendo que, em geral, KL é calculado de dados para modelo e que está conectado ao log verossimilhança dos dados. Ele também observa que pode ser difícil calcular a divergência KL na direção oposta.

  • 00:30:00 Nesta palestra, Jascha Sohl-Dickstein explica como usar equações diferenciais estocásticas (SDEs) para modelar a difusão de ruído em uma distribuição de dados. Ele explica como transformar o processo de difusão em uma equação diferencial estocástica e como usar o gradiente da função de pontuação de log-verossimilhança para treinar uma aproximação de teta para a função de pontuação.

  • 00:35:00 Esta palestra discute o algoritmo de modelagem difusiva e suas vantagens sobre outras técnicas de modelagem. O algoritmo é descrito em termos de um SDE de tempo discreto e uma função de pontuação, e o processo de amostragem é descrito em termos de uma rede neural. A palestra termina com uma demonstração de algumas técnicas de geração de amostras.

  • 00:40:00 Esta palestra aborda a diferença entre modelos estocásticos e determinísticos e como converter entre os dois. A palestra também discute as vantagens e desvantagens de usar um SDE vs. ODE para modelagem.

  • 00:45:00 Nesta palestra, Jascha Sohl-Dickstein cobre a teoria por trás dos modelos de difusão, explicando como eles diferem dos modelos lineares comuns e como eles podem ser usados para vários propósitos, como controlar a geração de amostras de ruído sob condições controladas. Ele também menciona a regra de Bayes, que pode ser usada para treinar o segundo termo do modelo de difusão sem exigir conhecimento prévio da distribuição condicional.

  • 00:50:00 Nesta palestra, Jascha Sohl-Dickstein explica como modelos de difusão podem ser usados para gerar pinturas ou cores plausíveis em imagens. Ele também menciona que a codificação do modelo é identificável de forma única, o que é positivo ou negativo, dependendo de como você o olha. Finalmente, ele mostra como o modelo pode ser usado para gerar novas criações artísticas sem ter que retreinar o modelo.

  • 00:55:00 Esta palestra discute modelos de difusão, que são usados para aprender tarefas separadas dos dados de treinamento. Os modelos são probabilísticos e podem ser usados para codificar ou decodificar dados. O processo de difusão direta é um processo fixo, e o processo inverso também é verdadeiro.

  • 01:00:00 Esta palestra discute modelos probabilísticos de difusão e explica que, embora haja uma correspondência biunívoca entre o espaço latente e o espaço da imagem, é possível trabalhar com várias classes dentro do mesmo modelo.
 

GenRep: modelos generativos como fonte de dados para aprendizagem de representação multiview em ICLR2022

Código: https://github.com/ali-design/GenRep



GenRep: modelos generativos como fonte de dados para aprendizagem de representação multiview em ICLR2022

Os apresentadores discutem o conceito de zoológicos modelo, onde modelos generativos pré-treinados são disponibilizados sem acesso aos dados subjacentes. Ao utilizar o aprendizado contrastivo, os pesquisadores podem criar diferentes visões do mesmo objeto, que cairão na mesma vizinhança dentro do espaço de representação. Eles descobriram que transformações gaussianas simples no espaço latente eram eficazes e que gerar mais amostras de IGMs leva a melhores representações. IGMs especializados, como o StyleGAN Car em domínios específicos, podem superar as representações aprendidas com dados reais. O site do projeto e o código do Github estão disponíveis para exploração adicional.

  • 00:00:00 Nesta seção, os apresentadores discutem o conceito de zoológicos modelo, onde modelos generativos pré-treinados são disponibilizados sem acesso aos dados subjacentes. Eles explicam como modelos generativos implícitos podem ser direcionados para oferecer muitas transformações de imagens geradas. Ao utilizar o aprendizado contrastivo, os pesquisadores podem criar diferentes visões do mesmo objeto, que cairão na mesma vizinhança dentro do espaço de representação. Ao mudar no espaço latente, criando diferentes visões para a âncora e combinando as transformações, os pesquisadores podem aprender representações desses IGMs. Esta pesquisa mostrou que se ambas as transformações que os IGMs oferecem forem aplicadas, eles podem se aproximar do desempenho dos dados reais e rivalizá-los. Os resultados foram surpreendentemente superiores aos dados reais no caso do StyleGAN Car.

  • 00:05:00 Nesta seção, o palestrante discute o uso de aprendizado contrastivo e dirigibilidade na criação de diferentes visões para o aprendizado de representação. Eles descobriram que transformações gaussianas simples no espaço latente eram eficazes e que gerar mais amostras de IGMs leva a melhores representações. Eles também descobriram que IGMs especializados, como o StyleGAN Car em domínios específicos, podem superar as representações aprendidas com dados reais. O site do projeto e o código do Github estão disponíveis para exploração adicional.
GitHub - ali-design/GenRep
GitHub - ali-design/GenRep
  • ali-design
  • github.com
Table of Contents: Setup Visualizations - plotting image panels, videos, and distributions Training - pipeline for training your encoder Testing - pipeline for testing/transfer learning your encoder Notebooks - some jupyter notebooks, good place to start for trying your own dataset generations Colab Demo - a colab notebook to demo how the...
 

Uma entrevista com Gilbert Strang sobre métodos de ensino de matriz em análise de dados, processamento de sinal e aprendizado de máquina



Uma entrevista com Gilbert Strang sobre métodos de ensino de matriz em análise de dados, processamento de sinal e aprendizado de máquina

Gilbert Strang, um renomado matemático, enfatiza a importância dos projetos sobre os exames no ensino de aprendizado profundo, uma parte crucial do aprendizado de máquina que depende fortemente da álgebra linear. Ele acredita que os projetos permitem que os alunos entendam como aplicar o aprendizado profundo no mundo real e são uma maneira mais eficaz de aprender. Strang também enfatiza que ensinar é aprender e trabalhar com os alunos, e não apenas avaliá-los. Ele aconselha os novos professores a usar giz grande e dedicar seu tempo para ficar com a classe para ter sucesso no ensino.

  • 00:00:00 Nesta seção, Gilbert Strang discute como ele se envolveu no ensino de aprendizado profundo, uma parte importante do aprendizado de máquina que depende fortemente da álgebra linear. Ele também enfatiza que os projetos são muito melhores do que os exames, pois dão aos alunos uma ideia de como usar o aprendizado profundo em situações do mundo real e são uma maneira mais eficaz de aprender. Ao fazer com que os alunos façam suas próprias perguntas e escrevam seus próprios programas, eles podem criar projetos interessantes e memoráveis. No entanto, Strang admite que não tinha ideia do que esperar quando começou a ministrar o curso dessa maneira e levou algum tempo para descobrir a logística de facilitar os projetos.

  • 00:05:00 Nesta seção do vídeo, Gilbert Strang discute sua filosofia em relação à avaliação do trabalho dos alunos. Ele acredita que sua principal função como professor é ensinar ou aprender junto com os alunos, não dar nota a eles. Ele reconhece que a classificação é importante, mas não é sua principal preocupação. Ele aconselha os novos professores a usar giz grande e não se apressar, mas ficar com a classe. Ele acredita que ensinar é o melhor trabalho possível.
 

MIT 18.065. Métodos matriciais em análise de dados, processamento de sinais e aprendizado de máquina



Introdução ao Curso pelo Professor Strang

O professor Strang apresenta seu novo curso 18.065, que abrange quatro tópicos principais: álgebra linear, aprendizado profundo, otimização e estatística. O curso se concentrará nas melhores matrizes, matrizes simétricas e ortogonais e sua relação com a álgebra linear. Ele também abordará o aprendizado profundo, que é fundamental para a álgebra linear e envolve cálculos complexos que podem exigir o uso de GPUs durante dias ou até semanas. O curso abordará estatísticas, que desempenham um papel em manter os números na função de aprendizado dentro de uma boa faixa, otimização e teoria da probabilidade, que são importantes no aprendizado de algoritmos e equações diferenciais, que desempenham um papel fundamental nas aplicações de ciência e engenharia. . O curso inclui exercícios, problemas e discussões para fornecer uma apresentação completa do assunto.

  • 00:00:00 Nesta seção, o professor Strang apresenta seu novo curso 18.065 e o novo livro sobre álgebra linear e aprendizado com dados. Ele explica que o curso abrange duas disciplinas matemáticas essenciais e duas complementares, mas importantes. O primeiro grande assunto é a álgebra linear, que se tornou cada vez mais importante na prática, e o professor Strang se concentra nas melhores matrizes, matrizes simétricas e ortogonais e suas relações. O segundo tópico importante é o aprendizado profundo, que lida com a criação de uma função de aprendizado que reconhece padrões em entradas e produz resultados, usando multiplicações de matrizes e uma função não linear muito simples. O curso também cobre otimização e teoria da probabilidade, que são importantes no aprendizado de algoritmos, e equações diferenciais, que desempenham um papel fundamental em aplicações de ciência e engenharia.

  • 00:05:00 Nesta seção, o professor Strang apresenta quatro tópicos principais que serão abordados no curso: álgebra linear, aprendizado profundo, otimização e estatística. A álgebra linear é fundamental para entender o aprendizado profundo, que envolve cálculos complexos que podem exigir o uso de GPUs durante dias ou até semanas. O curso também abordará estatísticas, que desempenham um papel em manter os números na função de aprendizado dentro de uma boa faixa. Embora este curso não seja focado em estatísticas, ele será usado no contexto de aprendizado profundo. O curso abrange uma ampla gama de materiais além de apenas vídeos, incluindo exercícios, problemas e discussões para fornecer uma apresentação completa do assunto.
 

Aula 1: O espaço coluna de A contém todos os vetores Ax



Aula 1: O espaço coluna de A contém todos os vetores Ax

Esta palestra enfoca o conceito de espaço coluna de uma matriz, que é uma coleção de todos os vetores que podem ser obtidos multiplicando a matriz por todos os vetores possíveis. O palestrante explica que o espaço coluna depende da matriz e pode ser todo o espaço de R3 ou um subconjunto menor dele. O professor discute ainda os conceitos de espaço de linha, classificação de coluna e classificação de linha, bem como a relação entre essas classificações. A palestra também aborda brevemente o primeiro grande teorema da álgebra linear, que afirma que o posto de coluna de uma matriz é igual ao posto de linha da matriz. Além disso, o professor discute métodos para multiplicação de matrizes e o número de multiplicações necessárias para o processo. No geral, a palestra oferece uma introdução à álgebra linear e sua importância no aprendizado com dados.

  • 00:00:00 Nesta seção, o professor apresenta a si mesmo e ao curso, que se concentra no aprendizado com dados e envolve muita álgebra linear. Ele menciona um site público com um índice para o próximo livro, bem como o fato de que não haverá questionários, apenas tarefas de casa que cobrirão questões de álgebra linear e aplicações práticas, como reconhecer caligrafia e unir imagens. O professor então começa com os fundamentos da álgebra linear demonstrando a maneira correta de multiplicar uma matriz por um vetor e explorará a multiplicação de matrizes por matrizes posteriormente.

  • 00:05:00 Nesta seção, o palestrante explica a importância de pensar uma matriz como um objeto inteiro que multiplica um vetor para dar outro vetor. Ele introduz o conceito de espaço coluna de uma matriz, que é uma coleção de todos os vetores que podem ser obtidos multiplicando a matriz por todos os vetores possíveis. Ele explica que o espaço coluna depende da matriz e pode ser todo o espaço de R3 ou um subconjunto menor dele. Por fim, o professor enfatiza que a álgebra linear fornece uma maneira de responder a perguntas sobre coleções de vetores, como o espaço coluna de uma matriz.

  • 00:10:00 Nesta seção, o palestrante explica que o espaço da coluna de uma matriz 3x3 aleatória pode não ser necessariamente todos os nossos três, mas pode ser um plano ou mesmo uma linha. Ele dá um exemplo de uma matriz cujo espaço de coluna é apenas uma linha, e outro exemplo de uma matriz cuja terceira coluna é uma combinação das duas primeiras, tornando seu espaço de coluna um plano em vez de todo o espaço. Em seguida, ele apresenta matrizes de nível um, que são blocos de construção de álgebra linear e ciência de dados, e mostra como elas podem ser pensadas como uma coluna multiplicada por uma multiplicação de linhas.

  • 00:15:00 Nesta seção, o palestrante discute o espaço coluna de uma matriz, que é o conjunto de todas as combinações possíveis de suas colunas. Ele explica o conceito de colunas independentes e quantas colunas independentes uma matriz possui, o que é conhecido como sua classificação. A classificação é o número de colunas independentes que preenchem o espaço e uma base é composta pelas colunas independentes. O palestrante demonstra como encontrar uma forma natural de criar uma base para o espaço colunar procurando por vetores que não sejam combinações dos já escolhidos. Ele apresenta uma matriz com três colunas, duas das quais são independentes e formam a base do espaço coluna, enquanto a terceira não é independente e não pode fazer parte da base.

  • 00:20:00 Nesta seção da palestra, o instrutor explica o processo de fatoração de matrizes e apresenta a primeira fatoração de matrizes, que é famosa no ensino próximo à álgebra. O processo envolve a produção de uma matriz R que informa ao usuário como obter as colunas de uma matriz das colunas de outra matriz. A forma de R é determinada pela matriz original, e o instrutor passa a explicar como inserir os números corretos para obter a fatoração correta da matriz. A palestra também aborda brevemente o primeiro grande teorema da álgebra linear, que afirma que o posto de coluna de uma matriz é igual ao posto de linha da matriz.

  • 00:25:00 Nesta seção, o palestrante apresenta o conceito de espaço linha e sua relação com o espaço coluna. Ele explica que o espaço linha de uma matriz é a combinação de suas linhas, enquanto o espaço coluna de uma matriz é a combinação de suas colunas. Ele explica ainda que a dimensão do espaço linha é o posto linha da matriz, que pode ser determinado encontrando uma base para o espaço linha. O palestrante destaca a importância desse fato e oferece uma prova, mostrando que as linhas de uma matriz podem formar uma base para o seu espaço linha.

  • 00:30:00 Nesta seção da palestra, o professor explica como verificar se dois vetores são base para o espaço linha verificando se eles são independentes e se suas combinações produzem todas as linhas. Ele demonstra isso por meio de um exemplo envolvendo multiplicação de matrizes e mostra que a fatoração a = CR é a ideia-chave para encontrar o espaço linha. O espaço da coluna, também conhecido como intervalo, também é discutido com ênfase em várias linguagens e diferentes formas de expressar conceitos matemáticos fundamentais.

  • 00:35:00 Nesta seção, o palestrante discute os conceitos de posto de coluna e posto de linha, que são o número de colunas e linhas respectivamente em uma matriz que são linearmente independentes, bem como a relação entre esses dois postos. Ele explica que, para uma matriz grande, não é prático examinar todas as entradas, e a amostragem aleatória deve ser usada, por exemplo, tomando um vetor aleatório X e observando seu eixo correspondente. O palestrante também aborda as fatorações, como tomar colunas ou linhas de uma matriz e a forma escalonada reduzida por linhas de uma matriz.

  • 00:40:00 Nesta seção do vídeo, o professor Gilbert Strang explica que os problemas de álgebra linear farão parte da lição de casa do curso. No entanto, o que torna este curso especial são os outros trabalhos de casa online, que podem ser feitos usando MATLAB, Python ou Julia. Ele fala sobre como os conceitos do curso são creditados ao professor Rao, da Universidade de Michigan, que já havia criado problemas de lição de casa online para um curso bem-sucedido de EE em Michigan. O professor Johnson, parte deste curso, dá um tutorial sobre Julia a cada semestre, que os alunos podem assistir. Embora o MATLAB tenha lançado uma rampa para aprendizado profundo, Julia também está se tornando uma linguagem popular para aprendizado profundo devido à sua facilidade de uso.

  • 00:45:00 Nesta seção da palestra, o instrutor aborda o tópico da multiplicação de uma matriz por um vetor. Embora isso possa parecer simples para muitos, o instrutor explora uma maneira mais profunda de entender a multiplicação de matrizes, onde ela se torna uma combinação de colunas vezes linhas. Essa abordagem é uma generalização da ideia AX=B, onde AB é a soma dos produtos externos. A palestra aborda brevemente o número de multiplicações individuais necessárias para uma matriz M por N multiplicada por uma matriz N por P.

  • 00:50:00 Nesta seção, o palestrante discute o número de multiplicações necessárias para a multiplicação de matrizes usando o exemplo de um método antigo e um novo método. No método antigo, n multiplicações são necessárias para fazer um produto escalar, e há produtos escalares m e p na resposta, resultando em multiplicações m e p no geral. No entanto, o novo método requer mp multiplica para cada multiplicação de coluna e linha, e há n deles, levando a mp vezes n multiplica. Apesar das metodologias diferentes, ambos os métodos resultam na mesma resposta, e o palestrante indica que discutirá mais sobre isso na sexta-feira.