Apprendimento automatico e Reti Neurali - pagina 23

 

Machine Learning for Pathology - Lezione 19



Machine Learning for Pathology - Lezione 19 - MIT Deep Learning in the Life Sciences (primavera 2021)

La conferenza copre vari aspetti dell'applicazione del deep learning nella patologia computazionale, comprese le sfide e i limiti della tecnologia. L'oratore discute la necessità di cautela nel fidarsi ciecamente degli algoritmi e sottolinea l'importanza di capire cosa sta imparando una rete. La conferenza esplora diversi esempi di come il deep learning viene utilizzato nella diagnosi del cancro, nella prognosi e nella valutazione della risposta al trattamento per sviluppare strumenti prognostici e predittivi per la medicina di precisione. Il relatore discute anche le sfide dello sviluppo di trattamenti multifarmaco per la tubercolosi e propone vari progetti di laboratorio per affrontare il problema. Nel complesso, la conferenza sottolinea il potenziale del deep learning in patologia, pur riconoscendo i suoi limiti e la necessità di un approccio multidisciplinare per garantire il suo effettivo impiego in contesti clinici.

In questo video di YouTube intitolato "Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (Spring 2021)", il relatore discute i tentativi del proprio team di affrontare l'eterogeneità da batch a batch e da cella a cella nell'apprendimento automatico per la patologia utilizzando il tipico normalizzazione della variazione (TVN) e approccio k-nearest neighbor. Descrivono anche l'utilizzo della profilazione morfologica per classificare i farmaci in base ai loro effetti sui batteri e lo sviluppo di un approccio basato sui dati per progettare e dare priorità alle combinazioni di farmaci utilizzando sia l'apprendimento supervisionato che non supervisionato. Inoltre, il relatore ringrazia i membri del suo laboratorio per i loro contributi agli studi sulla sinergia dei farmaci contro l'antagonismo, sottolineando l'importanza di considerare il contesto più ampio per comprendere e far progredire la ricerca nel campo.

  • 00:00:00 In questa sezione, Anand Madabhushi discute l'impatto del deep learning nel campo della patologia computazionale, in particolare per quanto riguarda l'analisi delle immagini mediche. Sebbene la digitalizzazione della patologia l'abbia resa un focolaio per l'applicazione del deep learning a causa della grande quantità di dati disponibili, Madabhushi avverte che le metodologie specializzate che implicano caratteristiche artigianali attraverso decenni di esperienza potrebbero non essere state superate dai metodi di deep learning . Fornisce anche alcune statistiche sulla diagnosi del cancro e sui tassi di mortalità per sottolineare l'importanza di una diagnosi accurata del cancro in una fase iniziale attraverso l'uso dell'imaging. Madabhushi spera di condividere le sue lezioni apprese e pensieri su dove e come il deep learning può essere più utile in questo campo.

  • 00:05:00 In questa sezione, il relatore discute la questione della diagnosi eccessiva e del trattamento eccessivo dei tumori, in particolare quelli indolenti come il cancro alla prostata. Nonostante i progressi nei biomarcatori e nelle terapie, la sovradiagnosi e il sovratrattamento rimangono problematici e contribuiscono alla tossicità finanziaria per i pazienti. Il relatore esplora quindi il potenziale dell'apprendimento automatico nel contesto della diagnosi del cancro, della prognosi e della valutazione della risposta al trattamento per aiutare a sviluppare strumenti prognostici e predittivi per la medicina di precisione. Sebbene esistano già strumenti come i saggi basati sull'espressione genica, hanno dei limiti e non tengono conto dell'eterogeneità intra-tumorale. L'apprendimento automatico rappresenta un'opportunità per superare questi limiti e gestire e curare meglio i tumori.

  • 00:10:00 In questa sezione, il docente discute l'uso di vetrini patologici digitalizzati e l'analisi avanzata delle immagini di apprendimento automatico per identificare caratteristiche e schemi che non possono essere individuati visivamente dai patologi umani. Identificando singole cellule, linfociti e cellule tumorali, i data scientist possono utilizzare la teoria delle reti per esaminare l'architettura spaziale delle singole cellule e analizzare diverse metriche quantitative dalla disposizione spaziale delle singole cellule per comprendere meglio la diagnosi, la prognosi e la risposta al trattamento dei pazienti . Questo processo consente un approccio non invasivo e basato sul cloud all'analisi della patologia.

  • 00:15:00 In questa sezione, il relatore discute l'impatto del deep learning nel campo della patologia computazionale, dove la quantità di dati nelle diapositive di patologia ha superato qualsiasi altro dominio di imaging medico. Sei anni fa è stata pubblicata una rete neurale che utilizzava annotazioni di singole celle per l'autoencoder sparso impilato dove apprendeva in base alle annotazioni delle celle, consentendo alla rete neurale di raccogliere dettagli più piccoli come i gradienti e le forme ellittiche approssimative del cellule. La rete è stata addestrata su patch che avevano celle e non avevano celle etichettate a mano dagli studenti che scomponevano l'immagine in una serie di riquadri di delimitazione. Sebbene alcune cellule siano state perse, la rete è stata in grado di cogliere le sfumature dei diversi tipi di cellule.

  • 00:20:00 In questa sezione, il relatore discute i limiti del deep learning in patologia, in particolare per quanto riguarda la colorazione e le annotazioni. La colorazione può avere un impatto significativo sulla fedeltà delle segmentazioni e la rete non è stata addestrata nel modo più robusto a causa della discrepanza tra celle piccole e grandi. Il relatore discute anche il loro lavoro nell'addestrare un algoritmo CNN basato sulla generazione di funzionalità senza supervisione per distinguere tra cuori normali e quelli a rischio di insufficienza cardiaca. L'algoritmo CNN ha superato i patologi, raggiungendo un AUC di 0,97 rispetto all'AUC dei patologi di solo 0,74.

  • 00:25:00 In questa sezione, il relatore discute una scoperta sorprendente che hanno fatto eseguendo lo stesso algoritmo su due gruppi di pazienti della stessa istituzione e scanner. Nonostante nessuna differenza nella patologia delle immagini, l'AUC del secondo set è sceso drasticamente a causa di un piccolo aggiornamento del software che ha leggermente modificato le caratteristiche dell'immagine. Ciò ha sottolineato la necessità di cautela nel fidarsi ciecamente degli algoritmi, anche in contesti apparentemente controllati. Il pannello in f ha anche mostrato che mentre la generazione di caratteristiche senza supervisione con CNN ha appreso principalmente convoluzioni che erano sensibili a fonti di variazione pre-analitiche, ha anche evidenziato l'importanza di alcuni tipi di celle e delle loro disposizioni spaziali. Ciò ha portato a un approccio successivo che ha generato un AUC paragonabile al punteggio elevato iniziale ma con una maggiore resilienza alle variazioni tra siti e tele.

  • 00:30:00 In questa sezione, il relatore discute l'importanza di comprendere ciò che una rete sta imparando e di essere cauti nel fidarsi degli algoritmi di forza bruta nella diagnosi medica. Condivide un esempio di una rete che ha imparato a distinguere tra husky e lupi basandosi esclusivamente sulla presenza di neve sullo sfondo, il che sottolinea la necessità di cautela nell'interpretazione dei risultati della rete. Nonostante queste limitazioni, il relatore identifica l'utilità del deep learning nelle attività di rilevamento e segmentazione in patologia e condivide uno strumento interattivo chiamato Quick Annotator, che consente agli utenti di segmentare alcuni esempi rappresentativi, addestrare una rete in background e mettere a punto i risultati in una modalità di apprendimento interattivo.

  • 00:35:00 In questa sezione, il relatore discute le sfide con il processo di annotazione per le immagini patologiche, in particolare la mancanza di tempo a disposizione per i patologi. Per affrontare questo problema, il relatore spiega in che modo le funzionalità create a mano possono aiutare a migliorare l'efficienza del processo di annotazione. Forniscono esempi di utilizzo del deep learning per identificare diversi compartimenti tissutali e tipi di cellule, quindi invocano reti di grafici per esaminare le statistiche spaziali e l'interazione di diversi tipi di cellule all'interno dei compartimenti tissutali. Il relatore descrive anche come è stato utilizzato il deep learning per segmentare le fibre di collagene e assegnare un vettore al loro orientamento, che è stato poi utilizzato per determinare l'entropia e il valore prognostico per i pazienti affetti da cancro al seno. Infine, il relatore presenta un nuovo studio sul cancro alla prostata che utilizza il deep learning per eseguire la segmentazione delle ghiandole e quindi esamina la disposizione spaziale e l'architettura delle ghiandole per prevedere quali pazienti avranno una recidiva dopo l'intervento chirurgico.

  • 00:40:00 In questa sezione, il relatore discute un confronto testa a testa tra un test molecolare commerciale per prevedere gli esiti del cancro alla prostata e un approccio basato sulle immagini che utilizza algoritmi di deep learning. I risultati hanno mostrato che l'approccio basato sull'immagine, combinato con due semplici fattori clinici, ha dato risultati quasi doppi rispetto al costoso test molecolare. Inoltre, l'approccio basato sull'immagine che utilizza algoritmi di deep learning ha prodotto caratteristiche interpretabili e convalidate, che potrebbero essere analizzate a un costo molto inferiore rispetto all'analisi molecolare. Il relatore ha anche evidenziato la necessità di interpretabilità nelle applicazioni cliniche del deep learning e ha sottolineato l'importanza dell'ingegneria delle caratteristiche artigianale in combinazione con gli approcci di deep learning.

  • 00:45:00 In questa sezione, l'attenzione si concentra sulle sfide dell'interpretabilità nell'apprendimento automatico per la patologia, in particolare nel contesto della progettazione di terapie multifarmaco per la tubercolosi (TB). La mancanza di interpretabilità pone una sfida significativa per i clinici, che hanno bisogno di comprendere le rappresentazioni alla base dei modelli per fidarsi delle loro decisioni. Il relatore sottolinea la necessità di mettere costantemente in discussione la rete e di non dare nulla per scontato. Discutono anche dell'importanza di iniziare prima con la metodologia più semplice e di decidere quando utilizzare il deep learning. Il lavoro del laboratorio sulla tubercolosi evidenzia la difficoltà nel trattare la malattia, la necessità di terapie multifarmaco e la significativa eterogeneità coinvolta.

  • 00:50:00 In questa sezione, il relatore discute le sfide dello sviluppo di trattamenti multifarmaco per la tubercolosi a causa dei diversi microambienti dei batteri nei polmoni, che richiedono farmaci diversi per garantire la suscettibilità. Il relatore osserva che mentre attualmente sono disponibili molti farmaci per il trattamento della tubercolosi, il vasto spazio di combinazione inesplorato rende difficile testare ogni potenziale combinazione. Il relatore propone due progetti di laboratorio per affrontare questo problema: in primo luogo, restringendo lo spazio del singolo farmaco attraverso l'imaging per identificare il percorso d'azione di nuovi farmaci, e in secondo luogo, utilizzando l'apprendimento automatico per effettuare misurazioni sistematiche di combinazione e sviluppare classificatori per prevedere il più efficace combinazioni inedite. Il laboratorio utilizza l'imaging time-lapse per catturare i cambiamenti nella morfologia cellulare dei batteri per valutare i diversi risultati del trattamento.

  • 00:55:00 In questa sezione, il relatore descrive un progetto che ha utilizzato l'apprendimento e il raggruppamento senza supervisione per associare profili di farmaci simili in E.coli. Hanno ipotizzato che quando i profili sembrano uguali, quei farmaci hanno un meccanismo d'azione simile. Hanno applicato questa idea alla tubercolosi, ma le cellule non hanno assunto la colorazione come previsto e le caratteristiche morfologiche non sembravano molto distinte l'una dall'altra. Tuttavia, hanno ancora trovato differenze statisticamente significative rispetto alle cellule non trattate in alcuni gruppi di trattamento. È stata stabilita la tipica pipeline per la profilazione citologica e speravano di fare una prova di classificazione per cercare di capire quali gruppi di trattamento fossero più simili tra loro. Hanno scoperto che i patogeni stavano rispondendo ai farmaci, ma erano diversi nel loro meccanismo di risposta e avevano pareti cellulari estremamente spesse che rendevano difficile l'ingresso dei farmaci.

  • 01:00:00 In questa sezione della conferenza, il relatore discute i tentativi del proprio team di affrontare l'eterogeneità da batch a batch e da cellula a cellula dei loro esperimenti di machine learning per la patologia. Hanno provato a utilizzare una rete neurale, che non ha funzionato a causa dei dati variabili. Hanno quindi utilizzato un metodo chiamato normalizzazione della variazione tipica (TVN), sviluppato dal loro collaboratore Mike Ando di Google, per allineare le matrici di covarianza prodotte dall'analisi delle componenti principali (PCA) dei controlli non trattati di ciascun esperimento per ridurre le variazioni non biologiche. Hanno anche incorporato le metriche di eterogeneità da cellula a cellula e sono passati dall'uso della PCA a un approccio k-vicino più vicino per catturare i sottili cambiamenti morfologici. Hanno usato un approccio stocastico per evitare la fragilità e hanno selezionato una nuova serie di controlli non trattati per ogni prova di classificazione.

  • 01:05:00 In questa sezione, il relatore descrive il processo di utilizzo del profilo morfologico per classificare i farmaci in base ai loro effetti sui batteri. Il processo prevede il trattamento dei batteri con una dose bassa e alta di un farmaco, il fissaggio e la colorazione dei batteri, l'estrazione delle caratteristiche, la normalizzazione dei dati e l'esecuzione di simulazioni stocastiche. La classificazione del consenso risultante è accurata al 75% circa e viene utilizzato un diagramma di rete per visualizzare le connessioni tra i farmaci. Tuttavia, il relatore osserva che un farmaco, la bedaquilina, è stato classificato erroneamente come agente che agisce sulla parete cellulare, il che ha portato all'ipotesi che stesse inducendo una crisi energetica nei batteri. Questa ipotesi è stata confermata dalla crescita dei batteri sugli acidi grassi, che ha portato a una diversa classificazione.

  • 01:10:00 In questa sezione della conferenza, il relatore discute il meccanismo d'azione del farmaco Bedaquilina sulla tubercolosi e come dipende dallo stato metabolico dei batteri. Il relatore descrive anche l'utilizzo del profilo morfologico per determinare i danni prossimali e gli effetti secondari degli antibatterici sulla tubercolosi. Spiegano che questo metodo fornisce un approccio mirato per aiutare a indirizzare i ricercatori verso lo spazio del percorso su cui dovrebbero concentrarsi per gli studi secondari. Il relatore tocca anche la misurazione delle combinazioni di farmaci utilizzando un test a scacchiera, che è tradizionalmente inefficiente per le combinazioni di ordine elevato nel trattamento della tubercolosi.

  • 01:15:00 In questa sezione, il relatore discute le sfide associate alla misurazione delle combinazioni di farmaci di ordine elevato nella tubercolosi e presenta una soluzione chiamata Diamond (Misurazioni diagonali delle interazioni farmacologiche a n vie). Diamond è un'ottimizzazione geometrica del saggio a scacchiera che preserva l'unità di una curva dose-risposta e misura le parti più ricche di informazioni della scacchiera. Proiettando una linea, il relatore spiega come il grado di interazione farmacologica può essere quantificato con la concentrazione inibitoria frazionaria. Il diamante è stato utilizzato per misurare in modo efficiente fino a 10 combinazioni di farmaci. Il relatore discute un ampio set di dati che è stato utilizzato per affrontare i due problemi principali nella progettazione di combinazioni multifarmaco utilizzando studi in vitro sulla tubercolosi. Lo studio ha misurato tutte le combinazioni di farmaci singole, a coppie e a tre vie in vitro in otto diversi ambienti di crescita per unirle computazionalmente insieme, modellando ciò che accade in diversi modelli animali. Il relatore conclude che i profili di interazione farmacologica dipendono fortemente dall'ambiente di crescita e non esiste un'unica combinazione sinergica in tutte le condizioni.

  • 01:20:00 In questa sezione, il relatore ha discusso il loro approccio basato sui dati per la progettazione e l'assegnazione di priorità alle combinazioni di droghe utilizzando l'apprendimento automatico. Hanno utilizzato l'apprendimento sia supervisionato che non supervisionato per assemblare i propri dati in un cubo di dati e hanno trovato un segnale forte che delinea le combinazioni in base al fatto che sarebbero migliori dello standard di cura o meno. Hanno anche trovato un modo per limitare il numero di condizioni di crescita che effettuano le loro misurazioni utilizzando diversi metodi di apprendimento supervisionato come i modelli forestali casuali. Il relatore ha sottolineato che l'approccio più semplice ha funzionato meglio per loro per proporre un percorso su come esplorare al meglio lo spazio di combinazione in modo sistematico ed efficiente utilizzando modelli in vitro convalidati. Nel complesso, il loro approccio potrebbe contribuire a ridurre il numero di esperimenti in vitro e portare alle migliori combinazioni di farmaci.

  • 01:25:00 In questa sezione, l'oratore ringrazia le persone del suo laboratorio che hanno lavorato a vari progetti difficili e disordinati, che includono studi sulla sinergia di farmaci contro l'antagonismo. Questi studi alla fine aiutano a fornire un contesto più ampio per l'apprendimento automatico e il deep learning nelle scienze della vita, evidenziando che sono un piccolo pezzo di un'equazione molto più ampia. Viene sottolineata l'importanza di considerare questo contesto più ampio in quanto non è sempre l'approccio giusto, ma necessario per comprendere e far progredire la ricerca nel campo. Nel complesso, il discorso del relatore è stato molto illuminante e ha fornito preziose informazioni sull'intersezione tra apprendimento automatico e patologia.
Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (Spring 2021)
Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest Lecturers: Anan...
 

Deep Learning per la segmentazione dell'imaging cellulare - Lezione 20



Deep Learning for Cell Imaging Segmentation - Lezione 20 - MIT ML in Life Sciences (primavera 2021)

In questo video, i relatori discutono dell'uso del deep learning per il monitoraggio delle cellule, che comporta la determinazione del movimento delle cellule nell'imaging time-lapse. Spiegano che i tradizionali metodi di tracciamento manuale sono costosi e richiedono tempo e che i metodi di deep learning possono accelerare notevolmente il processo fornendo al contempo una maggiore precisione. I relatori discutono di varie architetture di deep learning per il tracciamento cellulare, tra cui U-Net, StarDist e DeepCell. Notano inoltre che una delle sfide nel tracciamento delle celle è distinguere tra celle vicine o sovrapposte e che metodi come il tracciamento di più oggetti o gli approcci basati su grafici possono aiutare a risolvere questo problema. I relatori sottolineano l'importanza di confrontare diversi metodi di deep learning per il monitoraggio delle celle e fornire set di dati ad accesso aperto per la riproducibilità e il confronto. Evidenziano anche le potenziali applicazioni del tracciamento cellulare in vari campi, come la ricerca sul cancro e la scoperta di farmaci.

  • 00:00:00 In questa sezione, Juan Casado discute il concetto di fenotipizzazione basata sull'immagine, che è un metodo per comprendere i sistemi biologici attraverso l'uso della microscopia e di altre tecniche di imaging. Spiega come le immagini di strutture biologiche, come le cellule, possono essere quantificate per diversi fenotipi, comprese le dimensioni delle cellule e il contenuto di DNA, e utilizzate per guidare le decisioni sui trattamenti e sulla scoperta di farmaci. Casado fornisce un esempio di un candidato farmaco di successo per la leucemia che è stato scoperto attraverso la misurazione precisa delle dimensioni delle cellule utilizzando immagini al microscopio, portando alla sua eventuale approvazione da parte della FDA. Sottolinea il potenziale impatto della profilazione basata su immagini nel campo della biologia e dello sviluppo di farmaci.

  • 00:05:00 In questa sezione, l'attenzione si concentra sulla sfida di confrontare popolazioni di cellule che hanno caratteristiche diverse e identificare quali trattamenti sono efficaci. Ciò richiede più informazioni e strategie per estrarre informazioni dalle immagini cellulari, ed è qui che entra in gioco la profilazione basata su immagini. Ciò comporta l'estensione della morfologia delle cellule o dello stato delle cellule utilizzando le immagini per estrarre informazioni quantitative per la scoperta di farmaci e la genomica funzionale. I due problemi computazionali associati a questo approccio sono la segmentazione cellulare e l'apprendimento della rappresentazione di una singola cella, in cui l'obiettivo è identificare dove si trovano le singole celle nelle immagini senza dover spendere tempo ed energia per regolare gli algoritmi di segmentazione per diversi tipi di immagine. In definitiva, l'obiettivo è creare algoritmi di segmentazione per le cellule che funzionino come rilevatori di fase nelle immagini naturali.

  • 00:10:00 In questa sezione, il relatore parla della BioImage Challenge 2018, che mirava a far funzionare le tecnologie di visione artificiale per la segmentazione in biologia. La sfida prevedeva la creazione di un set di dati con annotazioni, la sua suddivisione in partizioni di addestramento e test, la definizione di una metrica di successo e la fornitura di feedback ai partecipanti attraverso un sistema di punteggio basato sull'intersezione rispetto all'unione. I partecipanti dovevano utilizzare un modello di apprendimento automatico supervisionato per apprendere le relazioni tra input e output e generare una mappa di segmentazione dell'immagine che hanno fornito come input. I vincitori sono stati coloro che sono stati in grado di segmentare il set di test finale in modo più accurato in base alla metrica utilizzata.

  • 00:15:00 In questa sezione, il relatore discute i primi tre concorrenti in una competizione di segmentazione dell'imaging cellulare e il loro utilizzo di diverse architetture per i loro modelli di apprendimento automatico. Il terzo classificato ha utilizzato l'architettura Mask RCNN, che scompone un'immagine in regioni e genera candidati che vengono esaminati da una rete per determinare se si tratta di oggetti reali o meno, prima di identificare l'esatto riquadro di delimitazione e la maschera per separare l'oggetto dal sfondo. Il secondo classificato ha utilizzato una rete piramidale di immagini, che calcola più mappe di caratteristiche per generare output intermedi e aggrega informazioni da tutte le diverse risoluzioni per generare l'output finale. Il relatore osserva che sebbene l'architettura svolga un ruolo nel raggiungimento di un'elevata precisione per la segmentazione cellulare, anche il modo in cui vengono eseguiti regolarmente gli esperimenti di calibrazione e convalida incrociata è cruciale.

  • 00:20:00 In questa sezione, il relatore discute un nuovo approccio alla segmentazione delle immagini. Anziché utilizzare maschere binarie per determinare la posizione degli oggetti in un'immagine, la soluzione prevede la previsione di mappe di distanza o mappe angolari che misurano le distanze in direzioni diverse dal centro della cella. Le uscite sono state ingegnerizzate manualmente per fornire misurazioni più precise della posizione dell'oggetto, ottenendo il secondo posto nella competizione. Sebbene questa idea fosse nuova all'epoca, i lavori successivi ne hanno valutato il valore e l'hanno trovata robusta, soprattutto per le immagini affollate con molti oggetti. L'architettura encoder-decoder utilizzata non era innovativa, ma la novità derivava dal replicare l'esatta architettura in 32 modelli diversi, formando un insieme, che li ha aiutati a vincere la competizione.

  • 00:25:00 In questa sezione, i relatori discutono le prestazioni di un approccio d'insieme rispetto a modelli più semplici per la segmentazione dell'immagine cellulare. Spiegano che mentre l'approccio dell'insieme può essere computazionalmente intensivo, i modelli più semplici possono ancora essere efficaci nella pratica. Discutono anche dei limiti delle competizioni e notano che sarebbe utile analizzare i singoli modelli all'interno di un insieme per poterli ridurre solo a quelli più accurati. I relatori passano quindi a valutare i miglioramenti che possono essere apportati per facilitare la ricerca biologica attraverso la segmentazione, dimostrando che l'ottimizzazione degli algoritmi per specifici tipi di immagine può richiedere molto tempo e la precisione può variare in base al tipo di immagine. Notano inoltre che gli squilibri nelle annotazioni e la difficoltà nella segmentazione di determinati tipi di immagini possono presentare sfide nelle situazioni del mondo reale.

  • 00:30:00 In questa sezione, il relatore discute le sfide dell'analisi di diversi tipi di tecniche di imaging, dalle piccole immagini fluorescenti alle immagini rosa e viola che sono più difficili da segmentare. Esistono diversi approcci alla segmentazione delle immagini come l'addestramento di un modello per tipo di immagine o l'utilizzo di algoritmi classici con parametri regolati. Inoltre, ora sono disponibili modelli pre-addestrati per la segmentazione cellulare, come Nucleizer, CellPose e Mesmer. Tuttavia, ci sono ancora sfide aperte nella segmentazione, come la raccolta di set di dati più grandi e l'ottimizzazione del tempo che gli esperti dedicano all'identificazione degli oggetti. Il relatore tocca anche brevemente l'importanza di misurare il fenotipo delle cellule utilizzando metodi di apprendimento automatico che possono apprendere caratteristiche oltre le misurazioni morfologiche classiche.

  • 00:35:00 In questa sezione, il relatore discute l'uso dei metodi di apprendimento automatico nella segmentazione dell'imaging cellulare per la scoperta di farmaci. Gli esperimenti di perturbazione vengono utilizzati dove le cellule vengono trattate con composti, ma gli effetti batch possono causare rumore e confondere la comprensione del fenotipo. Poiché non esiste una verità fondamentale, viene utilizzato un metodo di apprendimento debolmente supervisionato, in cui viene utilizzata una rete neurale per classificare il composto applicato. L'obiettivo è ottenere caratteristiche per organizzare le cellule in modo significativo, che possono informare se i composti sono simili o meno. La valutazione prevede l'osservazione di gruppi di composti che condividono effetti biologici simili, con l'obiettivo di ridurre lo spazio di ricerca ai composti utili. Il confronto tra funzionalità di deep learning e funzionalità classiche mostra una differenza significativa.

  • 00:40:00 In questa sezione, il relatore discute l'uso del deep learning per la segmentazione dell'imaging cellulare, in particolare per determinare connessioni biologicamente significative tra i composti e identificare l'impatto delle mutazioni nel cancro. Confrontando il tipo originale di un gene con un mutante, i ricercatori possono misurare la somiglianza fenotipica tra di loro per determinare se il mutante è alla base del cancro o meno. Tuttavia, la correzione batch rimane una sfida nel deep learning, in quanto può influenzare le funzionalità apprese dalle immagini. Il relatore suggerisce di utilizzare l'adattamento del dominio, in cui viene utilizzata una rete neurale con due teste per la classificazione dei composti e la determinazione del lotto. Il gradiente negativo viene quindi utilizzato per distruggere le potenziali informazioni associate al lotto, determinando una determinazione fenotipica più chiara. Nel complesso, il relatore conclude che le immagini sono una grande fonte di informazioni per la scoperta biologica, ma riconosce anche le sfide aperte nell'apprendimento della rappresentazione e nei modelli spiegabili.
Deep Learning for Cell Imaging Segmentation - Lecture 20 - MIT ML in Life Sciences (Spring 2021)
Deep Learning for Cell Imaging Segmentation - Lecture 20 - MIT ML in Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecture: Juan C...
 

Deep Learning Registrazione e analisi delle immagini - Lezione 21



Deep Learning Image Registration and Analysis - Lezione 21 - MIT ML in Life Sciences (primavera 2021)

In questa lezione, Adrian Dalock approfondisce l'argomento dell'allineamento delle immagini mediche e il problema di ottimizzazione che ne deriva. Propone un nuovo metodo chiamato voxel morph, che prevede l'utilizzo di set di dati senza etichetta per addestrare le reti neurali per la registrazione delle immagini. Il relatore discute anche la sfida della robustezza per nuovi dati e sequenze che le reti neurali non hanno mai visto prima e propone di simulare condizioni diverse ed estreme per addestrare modelli robusti. Il relatore confronta i modelli di registrazione classici con i modelli voxel morph e synthmorph, con quest'ultimo notevolmente robusto. Infine, il relatore discute lo sviluppo di una funzione che genera modelli basati sulle proprietà desiderate piuttosto che l'apprendimento diretto di un modello e il potenziale utilizzo dell'endoscopia video della capsula per rilevare anomalie del colon.

Il relatore in questa conferenza discute vari approcci di apprendimento automatico per superare la mancanza di dati medici, in particolare nel contesto dei video di colonscopia per il rilevamento dei polipi. Introducono un'architettura di registrazione e analisi delle immagini di deep learning che utilizza pesi pre-addestrati e inizializzazione casuale per affrontare lo spostamento del dominio e migliorare le prestazioni. La lezione copre anche l'apprendimento debolmente supervisionato, l'apprendimento auto-supervisionato e la segmentazione video debolmente supervisionata. Il relatore riconosce le sfide affrontate nell'utilizzo di approcci di apprendimento automatico nell'analisi dei dati medici e incoraggia a testare questi approcci in procedure mediche reali per ridurre il carico di lavoro.

  • 00:00:00 In questa sezione della conferenza, Adrian Dalock discute l'importanza dell'allineamento delle immagini mediche e il problema di ottimizzazione che ne deriva. Spiega che l'allineamento delle immagini a un quadro di riferimento comune è fondamentale per l'analisi delle immagini mediche, poiché consente l'identificazione di strutture e malattie, nonché il confronto tra soggetti. Tuttavia, la fase di allineamento tradizionale richiedeva molto tempo, fino a due ore per cervello, il che ostacolava lo sviluppo di modelli sofisticati. Dalock introduce un metodo significativamente più veloce, che è meno di un minuto su una CPU e meno di un secondo su una GPU, e consente una ricerca più rapida ed efficiente in questo campo. Definisce l'allineamento o la registrazione come la ricerca di un campo di deformazione che corrisponda alle immagini ed è stato ampiamente studiato in vari domini, tra cui la visione artificiale e la biologia computazionale.

  • 00:05:00 In questa sezione, il relatore discute l'evoluzione dei metodi di registrazione delle immagini, partendo dai modelli classici e progredendo fino ai metodi basati sull'apprendimento emersi tre anni fa. Tuttavia, questi ultimi metodi, sebbene efficaci, sono ostacolati dalla mancanza di un campo di deformazione di verità fondamentale da utilizzare per i dati supervisionati. Il relatore propone un nuovo metodo che prevede l'utilizzo di set di dati senza etichetta per addestrare le reti neurali, ottenendo soluzioni end-to-end più eleganti ed efficienti per la registrazione delle immagini. Il framework prevede l'utilizzo delle funzioni di perdita dei modelli classici per ottimizzare un'intera nuova rete neurale, con conseguente maggiore precisione e velocità più elevate.

  • 00:10:00 In questa sezione, il relatore descrive un metodo per la registrazione delle immagini utilizzando tecniche di deep learning, che prende in prestito dai metodi classici ma ottimizza una rete neurale per produrre campi di deformazione piuttosto che ottimizzare direttamente i campi. Il campo di deformazione viene applicato a tutte le immagini in un set di dati e vengono utilizzate tecniche di gradiente stocastico per ottimizzare la rete. Il relatore spiega come vengono utilizzate le perdite differenziabili per garantire l'uniformità del campo di deformazione e i risultati vengono valutati confrontando le strutture anatomiche prima e dopo il processo di deformazione, nonché misurando le sovrapposizioni di volume. Il metodo proposto, chiamato voxel morph, è in grado di stimare l'output di una procedura di ottimizzazione e fornisce un'approssimazione per modelli probabilistici, offrendo eleganti connessioni tra immagini, campi di deformazione e stime di incertezza.

  • 00:15:00 In questa sezione, il relatore discute la sua analisi dell'addestramento di una rete neurale voxel morph con solo poche immagini, rivelando che anche con solo 10 immagini, l'output del campo di deformazione dalla rete è vicino allo stato dell'arte . Inoltre, il relatore tocca la questione di delineare specifiche aree di interesse, come l'ippocampo in un cervello, e come sono stati in grado di insegnare alla rete a identificare quest'area senza effettivamente etichettarla facendole eseguire una "segmentazione morbida" durante formazione. Infine, il relatore discute la sfida delle diverse immagini mediche e di come le reti di formazione su una sola modalità possano limitare la loro capacità di lavorare con altre modalità, presentando un progetto che risolve questo problema.

  • 00:20:00 In questa sezione, il relatore discute la sfida di creare reti neurali robuste per nuovi dati e sequenze che non hanno mai visto prima. Propongono di simulare condizioni diverse ed estreme per esporre la rete a una variabilità significativa in modo che decida di ignorare alcuni valori anomali, consentendo una migliore generalizzazione ai dati del mondo reale. Per raggiungere questo obiettivo, deformano in modo casuale le immagini, aggiungono diversi modelli di rumore, riempiono in modo casuale valori e intensità e simulano vari effetti per generare dati. Hanno sperimentato la simulazione di dati diversi per documenti di registrazione e segmentazione e la simulazione di forme casuali, che hanno fornito loro un campo di deformazione che potrebbe essere utilizzato per testare la qualità delle informazioni.

  • 00:25:00 In questa sezione, il relatore discute i risultati dell'addestramento di diversi modelli per la registrazione e l'analisi delle immagini. Hanno addestrato modelli voxel morph e due versioni del modello synthmorph utilizzando metriche diverse per l'addestramento. I modelli classici funzionano bene, ma i modelli voxel morph con variabilità e robustezza funzionano ancora meglio. I modelli che sono stati addestrati con immagini di cervelli o blob simulati fanno all'incirca lo stesso dei modelli voxel morph e meglio dei modelli classici. Tuttavia, quando si tratta di registrarsi tra le modalità, i modelli che sono stati addestrati con le metriche dello stesso contrasto collassano. Nel frattempo, i modelli synthmorph sono notevolmente robusti, anche con immagini reali. Tuttavia, la capacità del modello potrebbe portare a un problema in cui le caratteristiche delle immagini reali potrebbero non essere acquisite.

  • 00:30:00 In questa sezione della conferenza, il relatore discute la capacità dei modelli di apprendimento automatico e come il campo si sta muovendo verso l'uso di più parametri. Simulano scansioni cerebrali con diverse modalità e confrontano le prestazioni dei modelli classici, voxel morph, e il loro metodo, synthmorph. Hanno scoperto che il loro metodo è robusto in quanto è in grado di ignorare completamente il contrasto ed estrarre solo l'anatomia necessaria, che viene eseguita imparando a ignorare la risposta alla variazione del contrasto nelle caratteristiche della rete. Introducono anche il loro nuovo metodo, hypermorph, che apprende l'effetto degli iperparametri sui campi di registrazione. Il potenziale di questo metodo è che richiede solo l'addestramento di un modello e l'ottimizzazione successiva, il che elimina la necessità di addestrare più modelli.

  • 00:35:00 In questa sezione, il relatore discute una tecnica chiamata iperreti, che prevede l'addestramento di una piccola rete che prende un valore di iperparametro come input e restituisce i pesi di una rete più grande che genera campi di deformazione per la registrazione dell'immagine. Regolando il valore dell'iperparametro, il campo di deformazione può essere regolato senza richiedere il riaddestramento e un singolo modello di ipermorfosi può catturare un'ampia gamma di variazioni del campo di deformazione. Questa tecnica può essere applicata a varie impostazioni di apprendimento automatico oltre alla registrazione dell'immagine e può essere utile per consentire la messa a punto interattiva del modello o regolarlo in base ai dati di convalida. Il valore ottimale dell'iperparametro varia a seconda del set di dati, dell'età dei pazienti e dell'attività di registrazione, tra gli altri fattori.

  • 00:40:00 In questa sezione della lezione, il relatore discute l'importanza di selezionare diversi valori di iperparametri per diverse regioni del cervello quando si esegue la registrazione dell'immagine. Confrontano anche un modello addestrato su dati reali con uno che è stato addestrato su dati casuali, spiegando come il primo sia più suscettibile al rumore in diverse regioni. Quindi introducono un progetto incentrato sull'idea di allineare i dati a un quadro di riferimento comune senza costruire un cervello centroidale o utilizzare un modello. Invece, propongono di stimare un atlante contemporaneamente alla registrazione delle immagini, e lo strumento risultante si è dimostrato flessibile e in grado di risolvere molti problemi che in precedenza erano difficili da risolvere, come la creazione di modelli separati per diverse popolazioni.

  • 00:45:00 In questa sezione, il relatore discute il concetto di "modelli condizionali" nella registrazione e analisi di immagini di deep learning, che implica l'apprendimento di una funzione che genera un modello basato su una proprietà desiderata (come età, sesso o genetica informazioni) piuttosto che apprendere direttamente un modello. Alimentando i dati dei pazienti e le informazioni sull'età, la rete è in grado di apprendere un atlante uniforme dipendente dall'età che cattura determinati effetti tra cervelli diversi, come i cambiamenti nelle dimensioni del ventricolo. Il relatore discute anche il potenziale dell'analisi correlata alla genetica utilizzando metodi simili, nonché l'uso di codificatori variazionali e altri concetti di apprendimento automatico in questo campo.

  • 00:50:00 In questa sezione della conferenza, il relatore discute la motivazione alla base del loro lavoro sul rilevamento automatico della patologia per la videoendoscopia con capsula, che è una collaborazione tra l'Università norvegese di scienza e tecnologia e un ospedale norvegese. Il colon umano è suscettibile a malattie come il cancro del colon-retto e la colite ulcerosa che erodono la levigatezza delle pareti del colon e possono portare a sanguinamento o altre complicazioni. Le colonscopie sono raccomandate dai medici per le persone di età superiore ai 50 anni, ma potrebbero non essere accettate dai pazienti. Le video endoscopie della capsula offrono un modo alternativo per visualizzare le pareti del colon e rilevare anomalie utilizzando una piccola telecamera delle dimensioni di una pillola che trasmette quasi 50.000 fotogrammi per produrre una grande quantità di dati.

  • 00:55:00 In questa sezione, i relatori discutono delle sfide dell'imaging con l'endoscopia video della capsula, in cui una capsula ingeribile cattura le immagini mentre viaggia attraverso il tratto digestivo. La capsula deve essere assunta a stomaco vuoto e può mancare di funzionalità nelle pieghe del colon. Inoltre, la capsula può bloccarsi o incontrare ostacoli geometrici mentre viaggia attraverso l'intestino tenue, portando potenzialmente a un intervento chirurgico. La qualità video risultante non è buona come la qualità dell'immagine HD, con colori limitati e fluidità di transizione. Nonostante queste limitazioni, la videoendoscopia con capsula può aiutare a diagnosticare condizioni come la diverticolite e i medici cercano anomalie nel video per guidare il trattamento.

  • 01:00:00 In questa sezione della conferenza, il relatore discute le sfide dell'utilizzo di approcci di apprendimento automatico nell'analisi dei dati medici, in particolare nel contesto dei video di colonscopia per il rilevamento dei polipi. Il problema principale è la mancanza di dati dovuta alla natura costosa e lenta dell'acquisizione dei dati medici e alla difficoltà di ottenere l'etichettatura da parte di diversi patologi. Il relatore delinea diversi approcci di machine learning per superare la mancanza di dati, come il transfer learning e l'apprendimento supervisionato, e spiega gli attuali approcci di deep learning utilizzando immagini RGB, caratteristiche geometriche e convoluzioni 3D. Infine, il relatore introduce l'approccio wine it per il rilevamento dei polipi, che prevede l'utilizzo della registrazione per allineare le immagini della colonscopia e migliorare le prestazioni di rilevamento dei polipi.

  • 01:05:00 In questa sezione della conferenza, il relatore discute un'architettura di registrazione e analisi delle immagini di deep learning che utilizza pesi pre-addestrati e inizializzazione casuale per affrontare lo spostamento del dominio e migliorare le prestazioni nel rilevamento degli oggetti e nella segmentazione delle immagini. L'architettura è composta da due codificatori, uno pre-addestrato da ImageNet e l'altro con pesi randomizzati, oltre all'aumento delle immagini di input. I tassi di apprendimento per ciascun codificatore dipendono dal livello su cui si stanno allenando e vengono utilizzate l'entropia incrociata binaria e la funzione di perdita dei dadi. L'architettura viene testata su un set di dati di video contenenti polipi e raggiunge un punteggio F1 di 85,9 utilizzando più variazioni dello stesso input. Infine, il relatore presenta video che mostrano l'efficacia dell'architettura.

  • 01:10:00 In questa sezione, il docente discute la sfida della raccolta di dati etichettati per un problema di registrazione delle immagini e introduce il concetto di apprendimento a istanze multiple con supervisione debole. Il presupposto è che ci sia un sacchetto positivo con almeno un caso della patologia di interesse, mentre il sacchetto negativo ha sempre casi negativi. Il problema è formulato come trovare quali fotogrammi contengono la patologia e può essere ottimizzato prevedendo il contributo individuale di ogni fotogramma e ottimizzando la perdita sull'etichetta video finale dell'aggregazione. Si noti che questo problema è impegnativo a causa dei dati etichettati limitati e dell'assenza di dati sui singoli componenti, che richiedono un approccio debolmente supervisionato.

  • 01:15:00 In questa sezione, il relatore discute di come sono state estratte le caratteristiche di risonanza 50 da video con patologie e video normali e le hanno passate attraverso blocchi LSTM residui che contengono LSTM bidirezionale con una connessione skip. Spiegano che l'obiettivo è trovare gli alfa che sono il contributo di ciascun fotogramma al problema di classificazione video finale. Discutono anche di sfruttare frame ad alto valore di attenzione per identificare patologie e separarli dalle classi negative. La funzione di perdita finale è un'entropia incrociata della classificazione video e la separazione delle borse tra banche positive e negative. Il relatore condivide quindi come hanno eseguito uno studio sull'appellativo per determinare dove apprendere l'attenzione, con i migliori risultati ottenuti assistendo alla rappresentazione nascosta finale e applicandola all'output finale. L'approccio è stato testato rispetto ad altri metodi che utilizzano l'apprendimento metrico.

  • 01:20:00 In questa sezione, il relatore discute l'uso dell'apprendimento auto-supervisionato nell'imaging medico e le sfide che pone. Dicono che un approccio che ha riscontrato un certo successo è l'utilizzo di un problema di puzzle in cui le immagini vengono suddivise in patch e ricostruite. Tuttavia, il problema con l'imaging medico è che non esiste una rotazione invariante, il che rende difficile trovare cluster significativi. Il relatore suggerisce che il miglioramento della localizzazione dei frame video attraverso la conoscenza del dominio, come la comprensione di come si manifestano le diverse malattie, potrebbe essere un approccio utile per migliorare la classificazione delle patologie.

  • 01:25:00 In questa sezione, il relatore discute la segmentazione video debolmente supervisionata e la necessità di rilevare dove sono localizzati i frame per fornire spiegazioni migliori in ambito medico. Citano anche la progettazione di compiti pre-test auto-supervisionati e l'apprendimento contrastivo come approcci nuovi ed entusiasmanti in quest'area, con nuovi lavori pubblicati ogni giorno. Il relatore riconosce il progetto icomet e incoraggia a testare questi approcci in procedure mediche reali per ridurre il carico di lavoro. L'ospite esprime apprezzamento per i veri professionisti che risolvono problemi medici e ringrazia l'oratore per la conferenza informativa.
Deep Learning Image Registration and Analysis - Lecture 21 - MIT ML in Life Sciences (Spring 2021)
Deep Learning Image Registration and Analysis - Lecture 21 - MIT ML in Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecturers: Adri...
 

Fascicolo sanitario elettronico - Lezione 22



Fascicolo sanitario elettronico - Lezione 22 - Deep Learning in Life Sciences (Primavera 2021)

L'emergere dell'apprendimento automatico nel settore sanitario è dovuto all'adozione di cartelle cliniche elettroniche negli ospedali e alla grande quantità di dati dei pazienti che possono essere utilizzati per approfondimenti sanitari significativi. La modellazione della progressione della malattia viene discussa utilizzando i dati longitudinali trovati nei registri delle malattie, che possono porre sfide a causa di dati longitudinali ad alta dimensione, mancanza e censura sinistra e destra. La conferenza esplora l'uso di modelli non lineari come i modelli di Markov profondi per gestire queste sfide e modellare efficacemente la densità non lineare dei biomarcatori longitudinali. Inoltre, il relatore discute l'uso della conoscenza del dominio per sviluppare nuove architetture neurali per la funzione di transizione e l'importanza di incorporare la conoscenza del dominio nella progettazione del modello per una migliore generalizzazione. C'è anche la sperimentazione con la complessità del modello per quanto riguarda le funzioni degli effetti del trattamento, e il relatore prevede di rivisitare questa domanda su una coorte più ampia per determinare ulteriori risultati.

  • 00:00:00 In questa sezione, Rahul Krishnan, ricercatore senior presso Microsoft Research, spiega l'emergere dell'apprendimento automatico nel settore sanitario a causa della digitalizzazione dei dati delle cartelle cliniche elettroniche. L'adozione di sistemi di cartelle cliniche elettroniche negli ospedali ha portato a una grande quantità di dati dei pazienti che potrebbero essere utilizzati per approfondimenti sanitari significativi. Krishnan evidenzia l'uso dei registri delle malattie, che sono set di dati più focalizzati su una singola malattia, rilasciati da organizzazioni senza scopo di lucro affinché i ricercatori possano studiare e rispondere alle domande. Tecniche di apprendimento automatico come l'apprendimento non supervisionato vengono utilizzate per studiare la sottostruttura di questi set di dati e creare strumenti per aiutare i medici. La presentazione si concentra sulla modellazione della progressione della malattia e su parte del lavoro svolto dai ricercatori in questo campo.

  • 00:05:00 In questa sezione, il relatore discute la modellazione della progressione della malattia utilizzando i dati longitudinali trovati nei registri delle malattie. La modellazione della progressione della malattia esiste da decenni e tenta di costruire modelli statistici in grado di catturare i dati complessi e disordinati trovati nei registri delle malattie, comprese le covariate di base, i biomarcatori longitudinali e le informazioni sul trattamento. Questo problema è spesso posto come apprendimento non supervisionato, in cui i modelli mirano a massimizzare la probabilità logaritmica di osservare la sequenza longitudinale di biomarcatori di un paziente condizionata dalle informazioni di base e dalla sequenza di interventi. Il relatore presenta un nuovo approccio per la modellazione della progressione della malattia che sarà pubblicato quest'anno all'ICML.

  • 00:10:00 In questa sezione, il relatore discute le sfide dell'utilizzo delle cartelle cliniche elettroniche per modellare la progressione della malattia nel contesto del mieloma multiplo, un raro tumore del midollo osseo. Poiché la malattia è così rara, spesso c'è solo un piccolo numero di pazienti da cui imparare, rendendo difficile fare una buona modellazione e stima della densità. Inoltre, i dati sanitari presentano sfide come i dati longitudinali ad alta dimensione con variazione non lineare, mancanza e censura destra e sinistra. Il relatore suggerisce di utilizzare modelli non lineari come i modelli di Markov profondi per gestire queste sfide e modellare efficacemente la densità non lineare dei biomarcatori longitudinali.

  • 00:15:00 In questa sezione, la lezione descrive un modello di variabili latenti per le cartelle cliniche elettroniche, in cui i dati sono generati dalle variabili latenti e dalle osservazioni ottenute nel tempo. Il modello presuppone che la scelta del farmaco prescritto da un medico dipenda dai valori dei biomarcatori clinici ottenuti da precedenti osservazioni. Il relatore affronta anche il problema dei dati mancanti, che possono essere superati emarginando le variabili mancanti durante la stima di massima verosimiglianza. Tuttavia, per l'inferenza variazionale che utilizza una rete di inferenza, il modello richiede approssimazioni per stimare i dati mancanti e sono necessarie ulteriori ricerche per capire in che modo la mancanza influisce sulla distorsione della distribuzione posteriore approssimativa.

  • 00:20:00 In questa sezione, il relatore spiega come utilizzare un modello per prevedere l'anamnesi di un paziente modellando le sue interazioni con un medico nel tempo. Il modello utilizza una rappresentazione latente, che cambia nel tempo, per prevedere lo stato medico del paziente. Il relatore evidenzia le sfide nella modellizzazione dei dati medici a causa della non linearità e della rarità di alcune malattie. Esplorano l'uso della conoscenza del dominio per sviluppare una nuova architettura neurale per la funzione di transizione. Il relatore discute anche l'uso di un orologio globale e di orologi locali per tenere traccia rispettivamente della durata del trattamento e del tempo trascorso fino a un evento di progressione importante. Spiegano come approssimare l'effetto meccanicistico dei farmaci e incorporare questa conoscenza nel modello.

  • 00:25:00 In questa sezione, il relatore discute l'uso della farmacocinetica e della farmacodinamica per approssimare l'effetto dei farmaci prescritti per il trattamento del cancro sul tumore di un paziente. Propongono tre nuove architetture neurali per modellare l'effetto di più farmaci somministrati congiuntamente ai pazienti, combinandoli utilizzando un meccanismo di attenzione per creare un'unica funzione. L'obiettivo è eseguire la stima della densità condizionale, utilizzando la conoscenza del dominio per combattere l'overfitting. Il modello, chiamato SSNPK, viene applicato a una coorte di pazienti con mieloma multiplo trattati secondo l'attuale standard di cura, con 16 biomarcatori clinici nel tempo, nove indicazioni di trattamento e 16 caratteristiche di base.

  • 00:30:00 In questa sezione, il relatore discute i risultati dell'utilizzo di diversi modelli per analizzare i dati clinici, concentrandosi in particolare sull'uso del deep learning e dei modelli state-space. Confrontano l'efficacia dei diversi modelli nella generalizzazione con nuovi dati e scoprono che l'uso di ssnpkpd si traduce costantemente in prestazioni migliori su linee di base lineari e non lineari. Conducono anche un'analisi di ablazione per identificare quali biomarcatori contribuiscono maggiormente ai guadagni osservati nei modelli e scoprono che l'uso di orologi locali e globali è utile per modellare la dinamica dei dati. Inoltre, usano lo spazio latente del modello addestrato per esplorare ulteriormente e comprendere il comportamento dei dati nel tempo.

  • 00:35:00 In questa sezione della conferenza, il relatore discute i risultati dell'utilizzo del modello SSNPKPD per prevedere i futuri biomarcatori clinici di un paziente in base ai loro biomarcatori di riferimento. Il modello mostra un maggiore adattamento ai dati rispetto a una linea di base lineare, indicando che le rappresentazioni latenti acquisite da SSNPKPD conservano la storia del paziente rilevante per la previsione di futuri biomarcatori clinici. Il relatore riassume il punto principale del discorso, ovvero l'importanza di incorporare la conoscenza del dominio nella progettazione del modello per una migliore generalizzazione, e sottolinea le opportunità per la ricerca futura nella combinazione di diverse modalità di dati nell'assistenza sanitaria. Il relatore rileva inoltre la continua convalida dei risultati in una coorte più ampia e la possibilità di incorporare il modello in strumenti di supporto alle decisioni cliniche e quadri di apprendimento per rinforzo basati su modelli.

  • 00:40:00 In questa sezione, il relatore discute la loro sperimentazione con la complessità del modello per quanto riguarda le funzioni degli effetti del trattamento. Hanno provato variazioni del modello creando copie delle funzioni dell'effetto del trattamento, che vanno da tre a dodici, e hanno scoperto che c'era un punto in cui la complessità aggiuntiva non migliorava significativamente le prestazioni e addirittura le diminuiva. Tuttavia, quando hanno rimosso alcune delle funzioni dell'effetto del trattamento, hanno riscontrato un calo delle prestazioni, ma hanno comunque superato il modello lineare. Il relatore intende rivisitare questa questione di generalizzazione su una coorte più ampia con il VA per determinare l'entità di questi risultati.
Electronic health records - Lecture 22 - Deep Learning in Life Sciences (Spring 2021)
Electronic health records - Lecture 22 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.05.16
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecture: Rahul ...
 

Deep Learning e Neuroscienze - Lezione 23



Apprendimento profondo e neuroscienze - Lezione 23 - Apprendimento profondo nelle scienze della vita (primavera 2021)

La conferenza discute l'interazione tra deep learning e neuroscienze, in particolare nell'area delle scienze visive. L'obiettivo è decodificare l'intelligenza visiva umana, che si riferisce alle capacità comportamentali che gli esseri umani esibiscono in risposta ai fotoni che colpiscono i loro occhi. Il relatore sottolinea la spiegazione di queste capacità nel linguaggio dei meccanismi, come le reti di neuroni simulati, per abilitare sistemi predittivi costruiti che possono beneficiare sia le scienze del cervello che l'intelligenza artificiale. La conferenza esplora come i modelli di deep learning siano ipotesi su come il cervello esegue i processi del sistema sensoriale e le potenziali applicazioni oltre alla semplice imitazione dell'evoluzione del cervello. Inoltre, la conferenza mostra esempi pratici di come le reti neurali possono manipolare i ricordi e cambiare il significato di qualcosa.

Questo video discute il potenziale del deep learning nella comprensione delle funzioni cognitive del cervello e nell'utilizzo di questa comprensione per scopi ingegneristici. Il relatore sottolinea la rilevanza delle reti neurali ricorrenti con le loro capacità di memoria e dinamiche interne in questo settore. La conferenza esplora la capacità dei sistemi neurali di apprendere attraverso l'imitazione e come questa possa essere utilizzata per apprendere rappresentazioni, calcoli e manipolazioni della memoria di lavoro. Il video copre anche la difficoltà nel trovare prove dell'apprendimento tramite feedback come condizione di apprendimento e il potenziale dei meccanismi di correzione degli errori per mettere a punto il sistema. La conferenza si conclude riflettendo sulla diversità degli argomenti trattati nel corso e su come il deep learning possa aiutare a interpretare i sistemi cognitivi in futuro.

  • 00:00:00 In questa sezione, il relatore discute l'interazione tra deep learning e neuroscienze, in particolare nell'area delle scienze visive. Spiega come i modelli di deep learning possono essere visti come ipotesi scientifiche su come possono funzionare gli aspetti della funzione cerebrale e come i neuroscienziati e gli scienziati cognitivi valutano la qualità di tali ipotesi rispetto ai dati. Il discorso di Carlo si concentra sull'obiettivo del reverse engineering dell'intelligenza visiva umana, che si riferisce alle capacità comportamentali che gli esseri umani esibiscono in risposta ai fotoni che colpiscono i loro occhi. Sottolinea l'importanza di spiegare queste capacità nel linguaggio dei meccanismi, come le reti di neuroni simulati, per consentire sistemi costruiti predittivi che possono beneficiare sia le scienze del cervello che l'intelligenza artificiale.

  • 00:05:00 In questa sezione, il docente discute l'intelligenza visiva e come il cervello stima ciò che è là fuori in una scena, come l'identificazione di auto o persone; tuttavia, prevedere cosa accadrà dopo e altri problemi guidati dalla fisica sono ancora una sfida da comprendere per gli scienziati. Nonostante ciò, gli scienziati hanno compiuto progressi significativi nella modellazione delle immagini fondamentali che elaboriamo in ogni scorcio di 200 millisecondi di una scena, noto anche come riconoscimento dell'oggetto principale. Il docente fornisce esempi di test che misurano la nostra capacità di riconoscere gli oggetti e confrontarli con altre specie, come i sistemi di visione artificiale e primati non umani come le scimmie rhesus.

  • 00:10:00 In questa sezione, il relatore discute la capacità degli esseri umani e dei primati di distinguere gli oggetti. Osserva che gli esseri umani e i primati si comportano in modo simile nei compiti di riconoscimento visivo, con gli esseri umani che si comportano solo leggermente meglio. Inoltre, il relatore discute i sistemi di apprendimento profondo e il modo in cui si confrontano con le capacità di riconoscimento visivo di esseri umani e primati. L'oratore passa quindi a discutere le aree del cervello della scimmia rhesus coinvolte nei compiti di riconoscimento visivo e mette in evidenza la corteccia infratemporale come l'area di livello più alto. Infine, il relatore osserva le scale temporali tipiche per l'emergere dei modelli di attività neurale nella corteccia infra-temporale e come corrisponde al tempo necessario per le abilità di campionamento comportamentale palese.

  • 00:15:00 In questa sezione della conferenza video, il relatore discute di come i ricercatori studiano la risposta dei singoli neuroni nella corteccia visiva di animali come le scimmie alle immagini utilizzando elettrodi di registrazione invasivi. Misurando i modelli di attività elettrica dei neuroni in risposta a diverse immagini, i ricercatori possono quantificare la risposta utilizzando le frequenze medie dei picchi. Questi modelli di attività possono essere raggruppati insieme da somiglianze nella loro selettività, e nella corteccia visiva sono state identificate aree speciali di raggruppamento per certi tipi di oggetti, come i volti. L'uso di array di registrazione cronica consente ai ricercatori di registrare dagli stessi siti neurali per settimane o mesi e misurare le risposte a migliaia di immagini.

  • 00:20:00 In questa sezione, l'oratore spiega un esperimento in cui sono stati registrati dati neurali mentre un animale stava fissando o eseguendo un compito o osservando immagini. Addestrando decodificatori lineari su piccoli campioni di dati, sono emersi modelli indistinguibili da quelli osservati negli esseri umani e nelle scimmie. Ciò ha consentito lo sviluppo di un potente insieme di spazi di funzionalità che potrebbero essere utilizzati nelle applicazioni di interfaccia cervello-macchina per visualizzare determinate percezioni. Il relatore discute quindi le trasformazioni non lineari che si verificano tra l'attività neurale e l'immagine, suggerendo che quest'area è dove il deep learning e la scienza della visione si uniscono.

  • 00:25:00 In questa sezione, il relatore discute di come le reti convoluzionali profonde siano state inizialmente costruite sulla base di principi noti nelle neuroscienze, come il concetto di rilevamento dei bordi, filtraggio, non linearità di output e controllo del guadagno. Tuttavia, poiché questi modelli sono stati testati rispetto ai dati neurali nelle aree visive del cervello, non sono stati all'altezza e non sono stati in grado di prevedere i modelli di risposta dei singoli neuroni in V4. Sebbene questi modelli fossero ipotesi costruite per i neuroscienziati, erano inadeguati nello spiegare come funziona il sistema visivo. Nonostante il fallimento di questi primi modelli, sono serviti da ispirazione per il lavoro in corso per separare i filtri appresi nelle reti profonde da quelli osservati in V1.

  • 00:30:00 In questa sezione, il relatore discute di come la collaborazione tra neuroscienze e deep learning abbia consentito l'ottimizzazione di parametri sconosciuti nelle reti neurali artificiali, dando vita a modelli che imitano da vicino i modelli di risposta neurale del cervello dei primati. Il relatore osserva che la svolta è arrivata nell'implementazione di un ciclo che ha consentito agli ingegneri di ottimizzare i microparametri dei filtri nelle reti neurali convoluzionali profonde. In questo modo, i modelli prodotti sono stati visti come nuove ipotesi su ciò che potrebbe accadere nel sistema visivo, consentendo il confronto con le reti neurali biologiche nel cervello. L'oratore prosegue mostrando esempi di come sono stati fatti questi confronti, che hanno portato alle prime ipotesi meccanicistiche sulla funzione cerebrale. Nel complesso, questa collaborazione ha consentito lo sviluppo di neuroni del flusso ventrale in silico che imitano da vicino quelli trovati nel flusso ventrale biologico, portando a una maggiore comprensione di come il cervello elabora le informazioni visive.

  • 00:35:00 In questa sezione, il relatore spiega che i modelli di apprendimento profondo che hanno sviluppato sono ipotesi su come il cervello esegue i processi del sistema sensoriale, in particolare nel dominio del riconoscimento visivo degli oggetti. Notano che questi modelli non sono perfetti e presentano alcune discrepanze, che mirano a ottimizzare e migliorare in futuro. Il relatore discute anche delle applicazioni più ampie del deep learning nell'ingegneria e nell'intelligenza artificiale, sottolineando che questi modelli possono essere utilizzati come strumento per guidare l'ulteriore comprensione e ottimizzazione scientifica. Concludono affermando la necessità di più dati e modelli per rappresentazioni più accurate dei processi cerebrali.

  • 00:40:00 In questa sezione, il relatore discute il potenziale di innovazione nell'apprendimento profondo e nell'intelligenza artificiale al di là della semplice imitazione dell'evoluzione del cervello. Suggeriscono che la maggior parte dell'innovazione verrà dalla scelta dell'architettura e gli strumenti di ottimizzazione saranno disponibili per consentire tale ottimizzazione. Le domande ricorrenti possono fornire informazioni sugli elementi subconsci della cognizione e l'anatomia del cervello collega le idee di ricorrenza, che possono portare ad aree a valle che coinvolgono maggiormente la cognizione. L'oratore tocca anche le connessioni saltate, le aree grigie e il modo in cui il lavoro svolto ora sta tentando di affrontare questo problema.

  • 00:45:00 In questa sezione del video, l'oratore discute il concetto di neotenia e come influisce sulla proporzione di funzioni e filtri hard-coded nella corteccia visiva in diverse specie. Man mano che avanzi nel sistema, c'è più plasticità nel cervello e le scimmie hanno aree fino a un certo livello, mentre gli umani hanno più tessuto cerebrale, consentendo una maggiore flessibilità. L'oratore ritiene che ci sia molto spazio per la flessibilità nel cervello, e sebbene faccia parte del nostro sistema di primati, una parte del cervello va oltre, e va bene così. Il relatore successivo discute poi il loro lavoro sul pensare ai cervelli come reti neurali ricorrenti e su come studiare l'intersezione tra sistemi neurali artificiali e reali può aiutarci a capire come funzionano.

  • 00:50:00 In questa sezione, l'attenzione è rivolta a come la codifica efficiente e sparsa può essere utilizzata per apprendere una base rappresentativa efficiente nei sistemi neurali artificiali e reali. Studiando i comportamenti simili al cervello nelle reti ricorrenti, si possono trovare principi che espandono le capacità delle reti ricorrenti artificiali e aiutano a capire come funzionano quelle reali. Le reti neurali ricorrenti imparano a memorizzare e modificare rappresentazioni e ricordi interni, consentendo loro di essere in grado di separare i segnali sovrapposti in un modo simile all'effetto cocktail party. I sistemi neurali reali sono eccellenti nell'immagazzinare e manipolare le rappresentazioni, come si vede nella regione del cervello chiamata memoria di lavoro nelle reti ricorrenti. L'obiettivo è trovare principi che espandano le capacità delle reti ricorrenti artificiali e aiutino a capire come funzionano quelle reali.

  • 00:55:00 In questa sezione della conferenza, la posizione di un topo viene decodificata dai neuroni chiamati cellule di posizione, che seguono il movimento del topo mentre si muove nello spazio. Il topo può anche manipolare la sua rappresentazione neurale per pianificare traiettorie future prima ancora di muoversi. La conferenza esplora quindi come le reti neurali possono manipolare i ricordi, come la capacità dell'uccello canoro di imparare a cantare imitando gli adulti. La conferenza discute come le reti neurali possono apprendere processi complessi di manipolazione delle informazioni osservando esempi e introduce il concetto di un attrattore caotico come modello di memoria e un semplice sistema dinamico non lineare chiamato serbatoio come modello di rete neurale. Il parametro di controllo del serbatoio viene utilizzato per modificare la rappresentazione della rete di qualunque memoria abbia appreso e la lezione fornisce esempi pratici di come questo controllo può cambiare il significato di qualcosa.

  • 01:00:00 In questa sezione, il relatore discute in che modo l'abilità di modulazione del contesto influisce sull'apprendimento e sulla capacità della rete neurale. Spiegano che polarizzare la rete con variabili di contesto significa che sono necessari più dati per l'addestramento per apprendere parametri comuni. Il relatore parla anche dell'uso del metodo di calcolo del serbatoio per immagazzinare i ricordi nelle reti neurali e di come semplici schemi di apprendimento per imitare gli input osservati siano sufficienti per immagazzinare i ricordi. Discutono quindi della modifica dei ricordi all'interno delle reti neurali osservando la traduzione degli attrattori nella direzione x1 e modificando il valore del parametro di contesto c per ogni traduzione.

  • 01:05:00 In questa sezione, il relatore discute la capacità dei serbatoi di imparare a interpolare ed estrapolare operazioni di trasformazione sulla sua rappresentazione interna di varietà attrattori. Il team ha fornito quattro esempi di addestramento di un attrattore di Lorenz compresso nella direzione x1 e ha eseguito addestramento e feedback. Si è scoperto che i serbatoi imparano a interpolare ed estrapolare operazioni di trasformazione che possono essere arbitrarie, tra cui un allungamento o una multivariazione. Il team ha anche scoperto che i serbatoi possono prevedere la struttura di biforcazione globale dell'attrattore di Lorenz e prevedere i diagrammi di biforcazione di molte altre forme normali dinamiche, come la modalità a sella e le biforcazioni a forca supercritica. Le reti neurali possono persino imparare a prevedere traiettorie cinematiche non dinamiche, come nell'esempio di un collegamento Jansen modificato.

  • 01:10:00 In questa sezione della conferenza, il relatore discute un metodo chiamato sincronizzazione generalizzata invertibile, che è un modo per formalizzare l'idea di mappare gli stimoli alla neurodinamica in un sistema neurale. L'oratore spiega che per formare una rappresentazione, i neuroni devono formare una rappresentazione distribuita invece di codificare individualmente parti specifiche degli stimoli di input. Devono anche essere in grado di guidare se stessi con la propria rappresentazione, che è il meccanismo chiave dietro l'archiviazione degli input come ricordi. Infine, il relatore dimostra che le reti neurali ricorrenti possono sostenere ricordi caotici, consentendo loro di tradurre e trasformare i ricordi.

  • 01:15:00 In questa sezione, il relatore discute la capacità dei sistemi neurali di apprendere imitando esempi visti e come questo può essere utilizzato per apprendere rappresentazioni, calcoli e manipolazioni della memoria di lavoro. La conversazione si sposta quindi sulla questione dell'apprendimento tramite feedback e su come si applica ai modelli presentati. Mentre ci sono prove di separabilità lineare e ricostruibilità dei termini in alcune parti della corteccia visiva, il relatore nota la difficoltà nel trovare prove dell'apprendimento tramite feedback in quanto è una condizione di apprendimento piuttosto estrema. Si suggerisce di utilizzare meccanismi di correzione degli errori per mettere a punto il sistema, ma viene anche discussa l'idea di un insieme fisso di parametri in cui il risultato viene giudicato rispetto alle aspettative del mondo esterno e alla formazione di ricordi salienti quando l'aspettativa devia notevolmente.

  • 01:20:00 In questa sezione, il docente sottolinea il potenziale del deep learning nella comprensione delle funzioni cognitive del cervello e nella loro ingegnerizzazione. Le reti neurali ricorrenti, con la loro capacità di memoria e dinamica interna, sono particolarmente rilevanti in quest'area. Il docente incoraggia a pensare a questi sistemi come entità viventi e che respirano, piuttosto che semplici approssimatori di funzioni. Il nucleo di questi sistemi cognitivi risiede nell'RNN, sebbene possano essere aumentati con reti neurali convoluzionali per input e output. L'ippocampo e le connessioni che crea con diversi aspetti del sistema nervoso sono citati come un affascinante esempio di come i ricordi sono codificati attraverso un sistema di neuroni interagenti. La conferenza si conclude riflettendo sulla diversità degli argomenti trattati nel corso e su come il deep learning possa aiutare a interpretare i sistemi cognitivi in futuro.
Deep Learning and Neuroscience - Lecture 23 - Deep Learning in Life Sciences (Spring 2021)
Deep Learning and Neuroscience - Lecture 23 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.05.19
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

MIT 6.S192 - Lezione 1: Estetica computazionale, design, arte | Imparare generando



MIT 6.S192 - Lezione 1: Estetica computazionale, design, arte | Imparare generando

Questa conferenza copre una varietà di argomenti relativi all'estetica computazionale, al design e all'arte. Viene discusso il ruolo dell'intelligenza artificiale nella democratizzazione dell'accesso alla creazione artistica, l'automazione del design e la spinta ai confini dell'arte, nonché le sfide nella quantificazione dell'estetica e nel raggiungimento dell'equilibrio visivo nel design utilizzando rappresentazioni di alto e basso livello. Il docente sottolinea inoltre il potenziale del design computazionale per scoprire modelli e trasmettere messaggi in modo efficace, con esempi che coinvolgono la semantica del colore e il design di copertine di riviste. Gli esperimenti di crowdsourcing vengono utilizzati per determinare le associazioni di colori con vari argomenti e vengono esplorate le potenziali applicazioni di questo metodo in diverse aree. Nel complesso, la conferenza introduce il ruolo dell'IA nelle applicazioni creative e il potenziale per rivoluzionare il modo in cui creiamo arte, design e altre forme di espressione creativa.

Il video discute l'uso dell'estetica computazionale, del design e dell'arte per generare opere creative utilizzando modelli generativi, come StyleGAN e DALL-E. Il docente sottolinea inoltre l'importanza dell'apprendimento generando e incoraggia gli spettatori a scomporre i problemi e utilizzare i dati per trovare soluzioni innovative e creative. Tuttavia, il relatore affronta anche i limiti dei modelli generativi, come i dati distorti e la capacità di generalizzare e pensare fuori dagli schemi. Tuttavia, il docente incarica gli studenti di rivedere il codice fornito e sperimentare le varie tecniche per generare immagini esteticamente gradevoli incoraggiando la partecipazione a un dibattito socratico tra Berkeley e il MIT sull'estetica computazionale e il design.

  • 00:00:00 In questa sezione della conferenza, il relatore discute le motivazioni per implementare l'IA nell'arte, nell'estetica e nella creatività. Spiegano che l'arte è un aspetto chiave dell'evoluzione umana e della comunicazione, e l'intelligenza artificiale può democratizzare l'accesso alla creazione artistica, alimentare la creatività e spingere i confini dell'arte. Con milioni di foto caricate ogni giorno e 650 annunci pubblicati al giorno, l'intelligenza artificiale può aiutare a progettare automaticamente buoni design e capire cosa rende un design buono o cattivo. Infine, l'oratore sostiene che l'IA giocherà un ruolo fondamentale in futuro, dove l'IA creerà film, opere teatrali e altro ogni secondo, portando alla domanda se vogliamo plasmare quel futuro.

  • 00:05:00 In questa sezione, il relatore discute il ruolo dell'IA nell'arte, nell'estetica e nella creatività. Spiega che le reti neurali convoluzionali (CNN) possono essere prevenute verso le trame, ma questo può essere sminuito generando stili diversi e incorporandoli nei dati. Inoltre, menziona che nel 2018 un dipinto realizzato utilizzando un modello generativo è stato venduto per mezzo milione di dollari. Affronta anche la questione se l'estetica possa essere quantificata, affermando che filosofi e artisti discutono di questo argomento da generazioni. Infine, tocca gli obiettivi del corso, che prevedono l'apprendimento di come applicare algoritmi di intelligenza artificiale ad applicazioni creative e la risoluzione di problemi interessanti.

  • 00:10:00 In questa sezione del video, l'istruttore risponde a una domanda sulla necessità di una conoscenza preliminare del deep learning per il corso. Spiega che mentre il corso toccherà l'apprendimento profondo, non è l'obiettivo principale e che ci sono altre risorse per apprendere l'argomento. Passa poi a discutere il suo precedente lavoro sulla quantificazione dell'estetica, osservando che misurare l'estetica non è un concetto nuovo e che esistono già modelli consolidati, come il modello di Birkhoff dell'inizio del XX secolo, che possono essere utilizzati per quantificare l'estetica in vari contesti come come design visivo, poesia e persino interfacce.

  • 00:15:00 In questa sezione, il relatore discute la quantificazione dell'estetica e le sfide per raggiungerla, usando l'equilibrio visivo come esempio. Sono necessarie buone rappresentazioni, sia di alto che di basso livello. Le rappresentazioni di alto livello possono includere l'equilibrio visivo e il ritmo, mentre le rappresentazioni di basso livello si basano su caratteristiche estratte utilizzando reti neurali. I dati sono necessari anche per quantificare l'estetica, compreso il tipo di dati utilizzati e da dove provengono. Il relatore spiega come l'equilibrio sia spesso insegnato ai progettisti dall'intuizione, ma gli ingegneri vogliono quantificarlo e determinarne il significato nel design.

  • 00:20:00 In questa sezione, il relatore discute la nozione di correttezza visiva ed equilibrio nel design, noto anche come armonia. Parla del lavoro di Arnheim, che ha suggerito che l'inserimento di elementi di design in specifici punti caldi può creare equilibrio visivo. Il relatore esplora se questa ipotesi può essere confermata attraverso l'analisi guidata dai dati e studia le parti salienti di un'immagine utilizzando un algoritmo di salienza, sovrapponendo i suoi risultati alla rete strutturale. Usa un crawler per raccogliere oltre 120.000 immagini da un sito Web di fotografia per studiare i modelli di salienza su queste immagini.

  • 00:25:00 In questa sezione, è stato utilizzato un set di dati con un algoritmo di salienza per adattare una combinazione di gaussiane al fine di trovare modelli in immagini aggregate di varie categorie come ritratti, architettura e moda. Sono stati analizzati i punti caldi della salienza, con una somiglianza con la teoria di Arnheim sul centro di massa e la regola dei terzi. Tuttavia, i risultati possono essere influenzati dal modo in cui i fotografi ritagliano le immagini, come mostrato negli studi sulla validità della regola dei terzi.

  • 00:30:00 In questa sezione, il docente discute il tema dell'estetica computazionale e del design. Menzionano la disponibilità del set di dati AVA che contiene annotazioni per l'estetica, la semantica e lo stile fotografico. Il docente dimostra quindi come gli algoritmi di deep learning possono apprendere e prevedere le valutazioni estetiche e suggerisce che questo può essere utilizzato per migliorare e modificare le immagini. La conferenza passa quindi a discutere il potenziale del design computazionale e la sua importanza nello scoprire modelli nel design e nell'esprimersi meglio.

  • 00:35:00 In questa sezione della conferenza, il relatore introduce il concetto di design computazionale e discute la differenza tra design e arte. Il problema nel design è dato e il compito del designer è quello di trasmettere un messaggio per risolvere quel problema, mentre gli artisti definiscono il problema da soli e usano tecniche artistiche per risolverlo. I principi del design, come la comunicazione rispetto alla decorazione, possono essere difficili da trasmettere a una macchina, ma è possibile utilizzare varie teorie, metriche e regole, tra cui la gestalt e l'armonia dei colori, per creare e consigliare automaticamente i contenuti. Il relatore fornisce anche un esempio di software di progettazione automatizzata in grado di impaginare testo ed elementi di progettazione sopra una determinata immagine di sfondo.

  • 00:40:00 In questa sezione del video, il relatore spiega come ha creato un design automatico per copertine di riviste scegliendo colori complementari e studiando il lavoro svolto da Itten e Matsuda, insieme a Kobiashi che ha studiato combinazioni di colori per 30 anni, e come i colori possono essere associati a parole come romantico, morbido e pulito. Sulla base di questo lavoro, il relatore ha creato un sistema di progettazione automatica in grado di fornire consigli agli utenti in base ai colori che scelgono e creare stili per le copertine delle riviste. Inoltre, il relatore ha esplorato se i dati di designer professionisti potessero estrarre modelli nelle tavolozze dei colori per le copertine delle riviste.

  • 00:45:00 In questa sezione del video, il relatore discute il loro progetto che prevedeva la raccolta di un set di dati di copertine di riviste di 12 generi diversi per trovare simultaneamente il testo, il genere e le combinazioni di colori utilizzate sulle copertine. Il relatore ha utilizzato la modellazione degli argomenti per estrarre diversi argomenti, che sono una combinazione di parole e colori, e ha mostrato come le nuvole di parole e le tavolozze dei colori possono essere utilizzate per visualizzare questi argomenti. Il relatore ha anche discusso dell'uso del crowdsourcing per determinare se i risultati del progetto fossero universali o meno.

  • 00:50:00 In questa sezione, il relatore discute un esperimento di crowdsourcing che ha condotto per capire se diverse culture e dati demografici concordano sulle associazioni di colore con vari argomenti. L'esperimento ha comportato la visualizzazione di una tavolozza di colori scelta a caso da un argomento e quindi la visualizzazione di diverse nuvole di parole e la richiesta ai soggetti di abbinarle. Hanno partecipato oltre 1.000 partecipanti provenienti da vari paesi e la matrice di correlazione o pertinenza risultante ha rivelato alcuni modelli interessanti. L'esperimento ha mostrato che, per la maggior parte, i partecipanti erano d'accordo sulle associazioni di colore con vari argomenti, anche se c'erano alcune eccezioni. Il relatore ha anche evidenziato le potenziali applicazioni di questo metodo nella progettazione di tavolozze di colori per diversi tipi di prodotti.

  • 00:55:00 In questa sezione della conferenza, il relatore discute varie applicazioni della semantica del colore in attività come la raccomandazione della tavolozza dei colori, il recupero di immagini, la ricolorazione e persino il web design. Dimostra come gli algoritmi possono essere utilizzati per consigliare colori e copertine di riviste sulla base di concetti o temi specifici, nonché per analizzare e visualizzare i modelli nel web design nel tempo. L'uso delle reti neurali convoluzionali è dimostrato anche nell'identificazione delle tavolozze dei colori e delle tendenze del design dei siti Web di epoche specifiche.

  • 01:00:00 In questa sezione, il relatore discute l'uso del design computazionale e dell'estetica nella previsione dell'anno di un progetto. Spiegano che non sono solo i colori che il modello prende in considerazione, ma anche caratteristiche di alto livello come la tipografia. L'accuratezza della classificazione non è stata menzionata, ma è stato notato che è superiore al caso. Il design computazionale è stato utilizzato anche per analizzare annunci pubblicitari, creare loghi e icone e progettare tavolozze di colori per la moda.

  • 01:05:00 In questa sezione, il relatore discute l'uso di modelli generativi nella moda, nel design del prodotto e nell'arte. Mostra esempi di set di dati utilizzati per comprendere gli elementi della moda, come colori e tag, e cita i colleghi che utilizzano set di dati simili per consigliare il design del prodotto. L'oratore parla anche di modelli generativi che possono prendere uno schizzo di input e produrre un design di prodotto o alterare un'immagine per assomigliare a un capo di moda diverso. Inoltre, tocca argomenti relativi all'arte computazionale e alla creatività, inclusi strumenti per il trasferimento di stili e la generazione di contenuti.

  • 01:10:00 In questa sezione del video, il professore discute l'uso dell'arte computazionale e dell'intelligenza artificiale nella generazione di opere creative, incluso il trasferimento di immagini e stili, la generazione di contenuti e modelli generativi per i video. La discussione include diversi esempi di lavori recenti in queste aree, tra cui StyleGAN, DALL-E di OpenAI e modelli generativi per la modifica della posa video. Nonostante questi progressi, rimane la questione se le macchine possano davvero essere artisti o se la creatività e l'arte appartengano solo agli esseri umani.

  • 01:15:00 In questa sezione, il relatore discute il loro entusiasmo nella direzione dell'apprendimento generando e condivide alcuni risultati. Spiegano che l'apprendimento generando è interessante perché è un modo per addestrare l'IA a sviluppare algoritmi basati su come gli esseri umani imparano a risolvere i problemi. Il relatore affronta anche una domanda sulla quantificazione dell'estetica e menziona che un modo per colmare il divario tra termini di alto livello nel linguaggio umano e termini computazionali è utilizzare dati e modelli, incorporare concetti culturali e persino chiedere alle persone le loro opinioni attraverso il crowdsourcing.

  • 01:20:00 In questa sezione del video, il relatore discute l'importanza di utilizzare i dati nell'apprendimento automatico per evitare pregiudizi e ottenere risultati interessanti. Incoraggia gli ascoltatori a pensare a come progettare algoritmi o rappresentazioni che possano portare a soluzioni innovative e creative. Il relatore ritiene che la creatività e l'innovazione siano componenti essenziali dell'intelligenza artificiale e cita esempi di come sono state utilizzate nella progettazione di oggetti e concetti. Sottolinea che l'apprendimento generando è un modo efficace per sviluppare capacità di risoluzione dei problemi e incoraggia gli ascoltatori a suddividere i problemi più grandi in sottoinsiemi più piccoli e risolverli uno alla volta.

  • 01:25:00 In questa sezione del video, il relatore discute il concetto di generalizzazione e il pensiero fuori dagli schemi nella creatività e nell'intelligenza artificiale. Il relatore pone la questione se i modelli generativi siano capaci o meno di generalizzazione e pensiero fuori distribuzione. Per esplorare questo argomento, il relatore introduce il concetto di guidabilità delle reti generative avversarie (GAN) e dimostra la capacità di manipolare le immagini trovando una passeggiata nello spazio latente del generatore. Mostrano che gli attuali modelli GAN possono esibire trasformazioni come lo zoom avanti e indietro, lo spostamento e la rotazione. Il relatore spiega il processo di ricerca di un vettore latente per manipolare l'immagine e lo utilizza per mostrare il potenziale dei modelli generativi nella creatività e nell'innovazione.

  • 01:30:00 In questa sezione del video, il relatore discute i limiti dei modelli generativi come BigGAN e perché li hanno. Spiega che possono essere introdotti pregiudizi nel modello, che sono presenti anche nella semantica delle classi. Ciò significa che un modello può generalizzare, ma non così bene come può farlo un essere umano. Il relatore prosegue mostrando che il modello può uscire dalla distribuzione del set di dati e trasformare in una certa misura l'aspetto delle immagini, ma solo se il set di dati sottostante è diverso. Il documento suggerisce che un modo per superare i limiti dei dati distorti è aumentarli, ad esempio ingrandendo o ruotando le immagini.

  • 01:35:00 In questa sezione del video, il docente discute l'uso dello spazio latente per generare immagini esteticamente gradevoli attraverso le trasformazioni. Le trasformazioni possono essere ottenute camminando o sterzando nello spazio latente per cambiare il colore dell'immagine, lo zoom, la rotazione, i cambiamenti simili alla fotocamera e altro ancora. Il docente discute anche l'uso di una rete neurale per rilevare l'estetica dell'immagine, fornendo feedback sul fatto che una direzione o una trasformazione del cammino generino immagini esteticamente più gradevoli. La conferenza incoraggia gli studenti a partecipare a un imminente dibattito socratico tra Berkeley e il MIT sull'estetica computazionale e il design. Inoltre, il docente incarica gli studenti di rivedere il codice fornito e sperimentare le varie tecniche per generare immagini esteticamente gradevoli.

  • 01:40:00 In questa sezione del video, il relatore discute il repository del proprio lavoro e incoraggia gli spettatori a utilizzare PyTorch anziché TensorFlow per eseguire i notebook forniti. Spiegano anche il sistema Colab utilizzato per visualizzare i risultati del codice e sottolineano l'importanza di generare immagini e riportare i risultati. Il relatore ricorda inoltre agli spettatori che possono inviare loro qualsiasi domanda tramite e-mail e li ringrazia per aver partecipato al corso.
MIT 6.S192 - Lecture 1: Computational Aesthetics, Design, Art | Learning by Generating
MIT 6.S192 - Lecture 1: Computational Aesthetics, Design, Art | Learning by Generating
  • 2021.01.21
  • www.youtube.com
First lecture of MIT 6.S192: Deep Learning for Art, Aesthetics, and Creativity, by Ali Jahanian.In this lecture, I start introducing the course and discuss C...
 

MIT 6.S192 - Lezione 2: Un dibattito socratico, Alyosha Efros e Phillip Isola



MIT 6.S192 - Lezione 2: Un dibattito socratico, Alyosha Efros e Phillip Isola

In questo video, Alyosha Efros e Phillip Isola discutono dell'idea di utilizzare le immagini per creare esperienze condivise. Sostengono che questo può aiutare a riportare alla memoria i ricordi e creare un senso di nostalgia.

Questo video è un dibattito tra due professori del MIT sul ruolo dei dati nell'intelligenza artificiale. Efros sostiene che i dati sono essenziali per l'IA, mentre Isola ribatte che i dati possono essere un ostacolo allo sviluppo dell'IA.

  • 00:00:00 In questa conferenza, Alyosha Efros e Phillip Isola discutono la visione dei modelli generativi come un nuovo tipo di dati. Efros sostiene che l'era attuale dei modelli generativi è proprio come i dati, ma migliore. Isola descrive come funzionano i modelli generativi e come possono essere utilizzati per creare contenuti interessanti.

  • 00:05:00 In questa conferenza, Alyosha Efros e Phillip Isola discutono del potere dei modelli generativi. I modelli generativi ci consentono di creare punti dati decorati con funzionalità extra, come una variabile latente che può essere utilizzata per modificare l'immagine. Questo apre molte possibilità per la creatività e la visualizzazione scientifica.

  • 00:10:00 Il video discute l'idea di manipolare le immagini attraverso lo spazio latente. Spiegano come ciò possa essere fatto cercando una direzione che si associ a una trasformazione significativa nello spazio dell'immagine. Fanno l'esempio di rendere un'immagine più memorabile ingrandendola. Infine, discutono su come utilizzare questa tecnica
    per visualizzare il concetto di cosa significhi che qualcosa sia memorabile.

  • 00:15:00 Questo video discute il concetto di modelli generativi, che sono un tipo di dati che possono essere manipolati per creare nuove immagini. Il video mostra la capacità di questi modelli di creare nuove immagini dal punto di vista compositivo aggiungendo insieme diverse parti di immagini diverse. Il video discute anche i limiti dei modelli generativi, come il loro pregiudizio verso determinati oggetti o la loro incapacità di rappresentare accuratamente determinate scene.

  • 00:20:00 Alyosha Efros e Phillip Isola discutono del concetto di data plus plus, che è un modo di pensare ai dati che include sia i dati stessi che i metodi utilizzati per generarli. Efros sostiene che questa prospettiva è utile perché consente un'interpolazione più significativa tra i punti dati. Isola si chiede come si scelga il percorso tra due punti dati ed Efros spiega che il modello sceglie il percorso più breve, che spesso sembra il più naturale.

  • 00:25:00 In questo video, Phillip Isola e Alyosha Efros discutono i meriti dell'algoritmo "Dall-E". Efros sostiene che l'algoritmo è impressionante perché è in grado di comprendere il linguaggio. Isola ribatte che l'algoritmo in realtà non sta comprendendo il linguaggio, ma sta invece comprendendo parole e grammi.

  • 00:30:00 L'oratore sostiene che i GAN non sono veramente creativi perché sono addestrati solo su dati altamente curati. Suggerisce che la mappatura bidirezionale è il modo migliore per procedere se te lo puoi permettere.

  • 00:35:00 In questa conferenza, Alyosha Efros e Phillip Isola discutono i meriti degli approcci basati sui dati rispetto a quelli basati sui modelli alla ricerca sull'intelligenza artificiale. Efros sostiene che sempre più i modelli diventeranno l'interfaccia principale per i dati e che i data scientist dovranno imparare a lavorare con i modelli invece che con i set di dati. Isola è d'accordo e aggiunge che i set di dati utilizzati per addestrare questi modelli stanno diventando sempre più grandi e complessi.

  • 00:40:00 Questo video è una conferenza di Alyosha Efros e Phillip Isola sul tema del contesto nell'arte. Efros parla di come una fotografia tratta da un'opera d'arte di Michael Galinsky intitolata Malls Across America gli abbia fatto una profonda impressione e di come il contesto in cui la fotografia viene vista possa influenzarne il significato. Isola racconta di come la fotografia di una ragazza che guarda il mare possa riportare ricordi e sensazioni a chi era vivo nel periodo in cui è stata scattata.

  • 00:45:00 Questo video è una discussione tra due professori sul concetto di nostalgia e su come può essere utilizzato per apprezzare l'arte. Usano l'esempio di una foto di due amici davanti a una porta, che è significativa solo per loro due a causa dei loro ricordi condivisi. Sostengono che questo tipo di nostalgia può essere trovato in molte forme diverse e che può essere un'esperienza piacevole per coloro che sono in grado di rievocare i ricordi.

  • 00:50:00 In questo video, Alyosha Efros e Phillip Isola discutono dell'idea di usare le immagini per evocare esperienze condivise tra le persone di una data città. Sostengono che questo può aiutare a riportare alla memoria i ricordi e creare un senso di nostalgia.

  • 00:55:00 Il dipinto "Olympia" di Edouard Monet fu un enorme scandalo quando fu pubblicato nel 1865 a causa della sua nudità e del tono della pelle appiattito. Alcuni credono che il posizionamento della mano nel dipinto sia stato ciò che ha fatto impazzire le persone.

  • 01:00:00 Questa lezione tratta di come l'arte può essere interpretata in modi diversi, a seconda del contesto in cui viene vista. L'esempio utilizzato è il dipinto "Venere sdraiata" di Amedeo Modigliani, che provocò indignazione quando fu esposto per la prima volta perché visto come una parodia di un famoso dipinto di una donna nuda. Tuttavia, se visto nel contesto di altri dipinti di donne nude, può essere visto come un'opera d'arte valida.

  • 01:05:00 Nel video di YouTube "MIT 6.S192 - Lecture 2: A Socratic discussion, Alyosha Efros and Phillip Isola", i due discutono sul significato dei dipinti del pittore russo Zlotnikov e del pittore americano Hurst. Efros sostiene che la direzione dei dipinti è determinata dai sentimenti di libertà e affollamento che evocano. Isola ribatte che la direzione è determinata dal dipinto del quadrato nero di Malevich, che vede come la risoluzione ultima di una particolare direzione.

  • 01:10:00 Phillip Isola e Alyosha Efros discutono sul significato dell'arte, in particolare su un quadrato nero dipinto da Malevich. Isola sostiene che il dipinto è un significante per niente, mentre Efros sostiene che si tratta di una progressione naturale per Malevich.

  • 01:15:00 Il punto di questo video è che potremmo sopravvalutare la complessità delle macchine e che ciò che a noi sembra magico potrebbe essere solo il risultato di semplici processi. Il libro di Braiterberg "Veicoli" è usato come esempio di come comportamenti complessi possano emergere da semplici interazioni.

  • 01:20:00 In questa lezione, Efros e Isola discutono sulla natura della creatività e della novità. Efros sostiene che entrambi sono il risultato di modifiche incrementali e che il processo creativo è solitamente molto fluido. Isola ribatte che la novità è spesso il risultato di casualità e fortuna.

  • 01:25:00 Questo è un dibattito tra due persone sul ruolo del contesto nell'arte e nella scienza. Una persona sostiene che il contesto è necessario affinché l'arte sia significativa, mentre l'altra sostiene che il contesto non è necessario e che l'arte può essere nuova senza di essa.

  • 01:30:00 In questa conferenza, Efros e Isola discutono sul ruolo della fortuna nel successo scientifico. Efros sostiene che la fortuna gioca un ruolo significativo, mentre Isola sostiene che ci sono modi per pianificare la grandezza.

  • 01:35:00 In questa conferenza, Alyosha Efros e Phillip Isola discutono del ruolo della fortuna nella creatività, con Efros che sostiene che ci deve essere qualcosa di più della semplice fortuna. Isola sostiene che data plus plus (la combinazione di dati e operazioni) è la chiave della creatività e che una volta che hai i dati giusti, le possibilità sono infinite.

  • 01:40:00 Questo video di YouTube è un dibattito tra Alyosha Efros e Phillip Isola sulle differenze tra lavorare con dati e modelli e se i dati diventeranno o meno obsoleti. Efros sostiene che i dati stanno già diventando meno importanti man mano che i modelli diventano più avanzati e che alla fine i modelli supereranno gli umani in termini di intelligenza. Isola sostiene che i dati sono ancora il gold standard e che i modelli non possono mai fare di più dei dati su cui si basano.

  • 01:45:00 In questo dibattito, i professori del MIT Alyosha Efros e Phillip Isola discutono del rapporto tra arte e intelligenza artificiale. Efros sostiene che il calcolo è il modo migliore per pensare alla relazione e che esiste una forte connessione tra arte ed evoluzione. Isola concorda sul fatto che esista una connessione tra i due, ma sostiene che i modelli attuali non sono in grado di estrapolare nuove informazioni dai dati e che questa è la chiave per un'IA veramente creativa.

  • 01:50:00 È stato fantastico parlare con Phillip e Alyosha di arte e calcolo. Entrambi pensano che l'arte sia in prima linea in un nuovo paradigma di pensiero e che il calcolo possa essere utilizzato per esplorare nuove idee.

  • 01:55:00 In questa conferenza, Alyosha Efros e Phillip Isola si impegnano in un dibattito socratico sul ruolo dei dati nell'intelligenza artificiale. Efros sostiene che i dati sono essenziali per l'IA, mentre Isola ribatte che i dati possono essere un ostacolo allo sviluppo dell'IA.
MIT 6.S192 - Lecture 2: A Socratic debate, Alyosha Efros and Phillip Isola
MIT 6.S192 - Lecture 2: A Socratic debate, Alyosha Efros and Phillip Isola
  • 2021.01.21
  • www.youtube.com
First, Phillip Isola: "Generative Models as Data++" Then, Alyosha Efros: "Nostalgia to Art to Creativity to Evolution as Data + Direction" 39:14The debase go...
 

MIT 6.S192 - Lezione 3: "GAN efficienti" di Jun-Yan Zhu



MIT 6.S192 - Lezione 3: "GAN efficienti" di Jun-Yan Zhu

La conferenza copre le sfide dell'addestramento dei modelli GAN, inclusa la necessità di calcoli elevati, grandi quantità di dati e algoritmi complicati che richiedono lunghe sessioni di formazione. Tuttavia, il docente introduce nuovi metodi che consentono ai GAN di apprendere più velocemente e di addestrarsi su un minor numero di set di dati, come la compressione dei modelli degli insegnanti utilizzando il framework generico della compressione GAN, l'aumento differenziabile e l'aumento dei dati. La conferenza dimostra anche l'editing interattivo delle immagini con i GAN e sottolinea l'importanza di set di dati ampi e diversificati per una formazione GAN di successo. I codici per l'esecuzione del modello sono disponibili su GitHub con istruzioni dettagliate per l'esecuzione del modello su diversi tipi di dati. La conferenza si conclude discutendo l'importanza della compressione del modello per scopi pratici.

  • 00:00:00 In questa sezione, il relatore introduce il concetto di GAN efficienti e quanto sono costosi i GAN. Sebbene i GAN siano stati utilizzati per varie attività di creazione di contenuti e creatività, lo sviluppo di nuovi algoritmi o l'esecuzione di prestazioni in tempo reale richiede GPU di fascia alta. Per lo sviluppo del progetto GauGAN, il ricercatore ha richiesto centinaia di GPU di fascia alta per la formazione e, anche dopo un anno di sviluppo, il team ha dovuto acquistare un costoso laptop per portare in giro il progetto. Il costo della formazione dei GAN e dello sviluppo degli algoritmi è elevato e attualmente è difficile per le università competere con grandi aziende come NVIDIA o DeepMind.

  • 00:05:00 In questa sezione, il relatore spiega i tre principali ostacoli che impediscono a più utenti di utilizzare i GAN in modo efficace, vale a dire la necessità di calcoli elevati, grandi quantità di dati e un algoritmo complicato che richiede molte sessioni di formazione. Spiega che i GAN sono computazionalmente costosi a causa delle immagini di alta qualità e delle fasi di pre-elaborazione necessarie per addestrare il modello. Inoltre, i grandi set di dati e la necessità di etichette rendono ulteriormente più impegnativa la formazione dei GAN. Tuttavia, introduce nuovi metodi che possono far sì che i GAN apprendano più velocemente e si allenino su un minor numero di set di dati, il che può aiutare i creatori di contenuti e gli artisti con accesso limitato alle risorse per addestrare e testare i propri modelli.

  • 00:10:00 In questa sezione della conferenza, Jun-Yan Zhu introduce un metodo per comprimere i modelli degli insegnanti utilizzando il framework generico della compressione GAN. L'obiettivo è trovare un modello studente con meno filtri in grado di produrre lo stesso tipo di output del modello insegnante. Il metodo prevede la creazione di una funzione di perdita per garantire che la distribuzione dell'output della zebra dello studente sia molto simile all'output dell'insegnante, la rappresentazione delle caratteristiche intermedie dello studente sia molto simile a quella dell'insegnante e l'output dello studente assomigli a una zebra secondo una perdita contraddittoria . Il processo prevede anche la ricerca del numero ottimale di canali, che possono produrre gli stessi risultati riducendo le dimensioni del modello e il tempo di addestramento. Il processo di condivisione dei pesi tra diverse configurazioni consente di allenare più configurazioni senza allenarle singolarmente, riducendo così i tempi di allenamento.

  • 00:15:00 In questa sezione, Jun-Yan Zhu discute il processo di addestramento e valutazione dei modelli GAN attraverso diverse configurazioni, insieme all'uso di varie funzioni di perdita per imitare i modelli degli insegnanti e condividere i pesi tra diverse configurazioni. I risultati sono stati presentati per modelli di diverse dimensioni e costi computazionali, insieme all'idea di comprimere i modelli per ottenere prestazioni in tempo reale sui dispositivi mobili. È stata inoltre introdotta l'applicazione di questa idea a StyleGAN2, mostrando come i modelli a basso costo possono essere utilizzati per l'editing delle immagini prima di applicare l'output finale dal modello originale.

  • 00:20:00 In questa sezione, il relatore mostra una demo dell'editing interattivo delle immagini con i GAN. L'obiettivo della demo è consentire agli utenti di modificare un'immagine in vari attributi come aggiungere un sorriso o cambiare il colore dei capelli e ottenere un feedback immediato in base alle loro modifiche. Il sistema utilizza un modello più piccolo che produce un output coerente con il modello grande per garantire che l'anteprima rimanga informativa. Una volta finalizzate le modifiche, il modello originale può essere eseguito per generare un output di alta qualità. L'editing interattivo è più veloce e fornisce risultati di alta qualità rispetto al software esistente per la creazione di contenuti non di deep learning.

  • 00:25:00 In questa sezione della conferenza, il professor Jun-Yan Zhu discute le sfide dell'addestramento dei modelli GAN, citando la necessità di grandi quantità di dati di alta qualità per prestazioni efficaci. Sebbene sia possibile utilizzare software di rendering o altri strumenti per accelerare il processo e generare anteprime, l'addestramento di modelli personalizzati richiede la raccolta di quantità significative di dati annotati. Zhu fornisce l'esempio dell'addestramento di un modello stylegan2 su un set di dati di soli 50 o 100 volti, che ha prodotto immagini distorte. La conferenza sottolinea l'importanza di set di dati ampi e diversificati per una formazione GAN di successo.

  • 00:30:00 In questa sezione, il relatore discute l'importanza di disporre di una quantità sufficiente di dati di addestramento nei modelli GAN. Dimostrano che durante l'allenamento su set di dati più piccoli, il discriminatore può facilmente sovradimensionare e classificare correttamente tutte le immagini, ma avrà difficoltà a generalizzare alle immagini reali. Ciò porta il generatore a produrre molte immagini spazzatura o a collassare. L'oratore sottolinea che se si utilizzassero i GAN per i propri scopi o su piccoli set di dati, l'overfitting diventa molto più grave e ottenere dati sufficienti è fondamentale per creare GAN efficienti.

  • 00:35:00 In questa sezione, il professore discute l'idea dell'aumento dei dati per combattere l'overfitting nell'apprendimento automatico, che prevede la creazione di più versioni di una singola immagine per aumentare il set di dati senza raccogliere nuovi campioni. Tuttavia, l'applicazione di questo metodo all'addestramento dei GAN è più complicata perché le immagini generate hanno anche l'effetto della stessa trasformazione o aumento applicato alle immagini reali, che possono portare a artefatti replicati. Per evitare questo problema, il professore suggerisce di aumentare sia le immagini reali che quelle false e di farlo solo per l'addestramento del discriminatore per bilanciare le differenze nei dati aumentati tra il generatore e il discriminatore.

  • 00:40:00 In questa sezione, il relatore discute il concetto di aumento differenziabile come approccio per colmare il divario tra gli obiettivi del generatore e del discriminatore nei GAN. L'idea principale è aumentare sia le immagini false che quelle reali in modo differenziabile in modo che i gradienti dal discriminatore possano essere retropropagati al generatore. Il relatore dimostra attraverso esempi che l'aumento differenziabile consente risultati migliori con dati di addestramento minimi, riducendo così la necessità di set di dati su larga scala. Il relatore conclude che l'aumento differenziabile è una tecnica cruciale da ricordare durante l'addestramento dei GAN.

  • 00:45:00 In questa sezione, il docente spiega che tutti i codici per l'esecuzione del modello sono disponibili su GitHub con istruzioni passo-passo per l'esecuzione del modello su diversi tipi di dati, anche su immagini facciali personali. Discutono anche degli strumenti specifici disponibili per designer e artisti e il docente menziona che David Bau parlerà di strumenti online per visualizzare e monitorare le unità interne. Viene anche discusso il processo di compressione del modello, con l'obiettivo di sviluppare la capacità di comprimere un modello una volta e distribuirlo su più dispositivi, il che è importante per scopi pratici, in quanto fa risparmiare tempo agli sviluppatori riducendo il tempo necessario agli utenti per accedere al modello .
MIT 6.S192 - Lecture 3: "Efficient GANs" by Jun-Yan Zhu
MIT 6.S192 - Lecture 3: "Efficient GANs" by Jun-Yan Zhu
  • 2021.01.21
  • www.youtube.com
Jun-Yan Zhu Assistant Professor, School of Computer Science, Carnegie Mellon Universityhttps://www.cs.cmu.edu/~junyanz/More about the course: http://deepcrea...
 

MIT 6.S192 - Lezione 5: "Dipingere con i neuroni di un GAN" di David Bau



MIT 6.S192 - Lezione 5: "Dipingere con i neuroni di un GAN" di David Bau

David Bau discute l'evoluzione dell'apprendimento automatico e il potenziale per la creazione di sistemi di autoprogrammazione. Introduce le reti generative avversarie (GAN) e spiega come possono essere addestrate per generare immagini realistiche. Bau discute il suo processo per identificare le correlazioni tra neuroni specifici in un GAN progressivo e alcune caratteristiche semantiche nelle immagini generate. Dimostra come può aggiungere vari elementi a un'immagine, come porte, erba e alberi, con l'aiuto di un GAN. Inoltre, discute la sfida di aggiungere nuovi elementi a un GAN e le preoccupazioni etiche che circondano le rappresentazioni realistiche del mondo.

  • 00:00:00 In questa sezione, David Bau discute l'evoluzione dell'apprendimento automatico, dalle sue radici nell'analisi statistica al suo potenziale per la creazione di sistemi di autoprogrammazione. In qualità di ricercatore accademico, ritiene che questo sia un momento interessante per porre domande sulla direzione del campo e sulle implicazioni dei modelli di apprendimento automatico. Il problema principale che affronterà nel suo discorso è la generazione di immagini e introduce il processo di raccolta di un set di dati di immagini reali e l'addestramento di una rete di generatori per ricrearle.

  • 00:05:00 In questa sezione, David Bau introduce le reti generative avversarie (GAN) e spiega come possono essere addestrate per generare immagini realistiche. Descrive come il trucco con i GAN consiste nell'addestrare prima un discriminatore per classificare se un'immagine è reale o falsa, quindi collegare questo discriminatore al generatore per creare immagini che ingannano il discriminatore. Tuttavia, osserva che il generatore può imparare a ingannare il discriminatore con schemi semplici che non assomigliano a immagini realistiche, quindi il trucco con i GAN è iterare il processo e andare avanti e indietro tra il generatore e il discriminatore per produrre sempre di più immagini realistiche. Infine, mostra esempi di immagini generate da GAN, spesso difficili da distinguere dalle immagini reali.

  • 00:10:00 In questa sezione, il relatore discute alcuni degli artefatti visti nelle immagini generate da GAN, come le filigrane, e le loro origini provenienti dal set di addestramento. L'oratore ha continuato spiegando come ha trovato i neuroni collegati alle impressioni della filigrana e come può disattivarli. Disattivando i neuroni della filigrana, l'output ottenuto dal generatore diventa privo di qualsiasi filigrana o artefatti correlati, rendendolo una scoperta entusiasmante, dimostrando che ci sono interruttori all'interno delle reti che controllano diverse caratteristiche delle immagini generate.

  • 00:15:00 In questa sezione, David Bau discute il suo processo per identificare le correlazioni tra neuroni specifici in un GAN progressivo e alcune caratteristiche semantiche nelle immagini generate. Spiega che questo è stato ottenuto testando ogni neurone individualmente per vedere dove si attivava di più, indicando alcune caratteristiche a cui era associato. Attraverso questo processo, è stato in grado di identificare i neuroni correlati agli alberi, costruendo parti come finestre e porte, sedie e persino cupole. Bau osserva che ciò è stato ottenuto senza alcuna formazione supervisionata o etichette e mostra come la rete abbia imparato a distinguere tra diversi esempi di queste caratteristiche, rappresentandole in componenti distinti.

  • 00:20:00 In questa sezione, David Bau discute l'obiettivo di mappare tutti i diversi neuroni in un modello per la generazione di cucine, che ha portato a cataloghi di diversi tipi di neuroni correlati. Bau ha scoperto che gli strati intermedi del modello avevano neuroni altamente correlati con gli oggetti semantici, mentre gli strati successivi avevano più correlazioni fisiche. Bau ha scoperto che le correlazioni erano così sorprendenti da portare ad applicazioni interessanti, inclusa l'accensione e lo spegnimento di diversi oggetti in una generazione di immagini. Bau ha dimostrato come lo spegnimento di alcuni neuroni degli alberi ha rimosso gli alberi dalla scena e il generatore ha riempito ciò che c'era dietro gli alberi. Al contrario, l'attivazione dei neuroni ha fatto apparire una porta nella scena, dove il generatore ha inserito le dimensioni, l'orientamento e lo stile appropriati della porta.

  • 00:25:00 In questa sezione del video, David Bau mostra come può aggiungere vari elementi a un'immagine, come porte, erba e alberi, con l'aiuto di un GAN. Attivando solo specifici neuroni correlati a un particolare oggetto o elemento, può manipolare la semantica dell'immagine. Discute anche i limiti dei GAN, come la possibilità di modificare solo immagini generate casualmente, che possono essere risolte con un problema di inversione che richiede l'apprendimento di come eseguire il modello all'indietro.

  • 00:30:00 In questa sezione, David Bau discute i limiti dell'utilizzo di un Generative Adversarial Network (GAN) per generare immagini, in quanto potrebbe rivelare cose che la rete non può fare. Tuttavia, è possibile ottimizzare i pesi della rete per generare una rete molto vicina che colpisca esattamente un'immagine di destinazione, mantenendo la rete relativamente invariata, rendendo ancora possibile la modifica. Bau dimostra l'utilizzo di questa tecnica per modificare le foto reali invertendo la foto attraverso la rete, ottenendo un'immagine iniziale, mettendo a punto la rete per produrre l'immagine di destinazione e quindi modificando l'immagine. Il processo consente di aggiungere o rimuovere oggetti, come cupole e porte, che corrispondono allo stile architettonico dell'immagine.

  • 00:35:00 In questa sezione del video, David Bau spiega come ha utilizzato la tecnologia GAN per modificare le immagini utilizzando una rete ottimizzata per l'overfit su un'immagine specifica. Modificando i pesi pre-addestrati della rete in un modo che cerca di non modificare troppo i livelli principali dello schermo, Bau è stato in grado di modificare le immagini e creare un'approssimazione approssimativa per l'immagine di destinazione. Tuttavia, la rete non generalizza questa conoscenza, il che significa che non può generare cambiamenti significativi per qualsiasi immagine diversa dall'immagine di destinazione.

  • 00:40:00 In questa sezione, David Bau discute la sfida di aggiungere nuovi elementi a una rete generativa avversaria (GAN). Sebbene il sistema possa essere addestrato per generare immagini di un oggetto specifico, è difficile insegnargli nuovi concetti se non esiste un set di dati o regole precedenti codificati. Bau, quindi, ha sviluppato una tecnica per modificare i pesi di un modello pre-addestrato per adattarsi a nuove regole, come l'aggiunta di alberi in cima alle torri o il disegno di Cadillac davanti agli edifici, senza riqualificare il modello. Dimostra l'applicazione in StyleGAN2, in cui gli utenti possono specificare una regola e manipolare l'output in base alle proprie preferenze.

  • 00:45:00 In questa sezione, David Bau spiega come selezionare alcuni esempi dalle sue immagini generate e trovare i neuroni condivisi responsabili della loro forma utilizzando il GAN. Una volta selezionato, può ridefinire la loro rappresentazione e generare nuove immagini calcolando le giuste modifiche al modello del GAN per trasformare, ad esempio, le cime delle torri appuntite in alberi. Bau mostra che questo processo è influenzato da tutte le immagini di torri appuntite nei suoi risultati di ricerca, portando a una rappresentazione completamente nuova delle immagini delle torri appuntite. Inoltre, Bau spiega che si può pensare che ogni livello del GAN risolva un semplice problema di corrispondenza di coppie chiave-valore utilizzate come memoria per la rappresentazione del contesto. Osserva che la matrice dei pesi è la soluzione al problema dei minimi quadrati e anche la modifica di una regola nella coppia chiave-valore di uno strato è un problema dei minimi quadrati, che può essere scritto allo stesso modo per il confronto.

  • 00:50:00 In questa sezione, David Bau discute un metodo per cambiare una cosa che una rete ha memorizzato senza cambiare l'intera regola, consentendo la creazione di modelli che rappresentano cose che non esistono ancora. Ciò si ottiene trovando una chiave e scrivendo un nuovo valore, utilizzando gli aggiornamenti di rango uno in direzioni specifiche per modificare solo i valori della chiave. Ciò consente agli utenti di modificare le regole all'interno di un GAN e utilizzarle per creare cose basate sulla loro immaginazione piuttosto che solo sui dati di addestramento. Questo metodo può essere utilizzato anche dove non ci sono dati sufficienti, fornendo un potenziale percorso per creare nuovi mondi utilizzando l'apprendimento automatico.

  • 00:55:00 In questa sezione, David Bau discute il potenziale del suo metodo per cambiare le regole del mondo rendendole più visibili e manipolabili dagli esseri umani e consentendo alle persone di costruire un mondo migliore. Affronta anche una domanda sul fatto che questo metodo possa funzionare con più modelli diversi o abbia successo solo quando si prende un cappello dall'interno di questo modello e lo si mette su un corno. Spiega che attualmente il metodo è in grado di ricablare solo un modello, ma è un obiettivo ovvio poter spostare un pezzo di calcolo da una rete neurale a un'altra. Infine, parla delle preoccupazioni etiche che circondano le rappresentazioni realistiche del mondo e di come se ne stia già facendo un uso improprio, citando il fenomeno dei deep fake e la creazione di milioni di falsi profili Facebook utilizzando i generatori di volti.

  • 01:00:00 In questa sezione, David Bau discute le implicazioni e le potenziali conseguenze della generazione di immagini realistiche utilizzando reti neurali profonde. Sebbene sia necessario il lavoro forense per rilevare immagini false, sottolinea che è più eccitante comprendere la struttura interna e apprendere come funzionano questi modelli all'interno. La trasparenza nella comprensione della rete profonda è essenziale, poiché queste reti neurali non sono adatte a rispondere alla domanda sul perché prendono determinate decisioni. L'obiettivo di Bau è smontare le regole applicate all'interno della rete per prendere la sua decisione e sviluppare un modo per chiedersi perché, aiutando a definire la trasparenza come un aspetto etico cruciale delle reti neurali profonde. Inoltre, il lavoro di Bau sulla dissezione tramite scansione mostra che è possibile identificare i neuroni che contribuiscono a creare artefatti di cattivo aspetto, che possono migliorare la qualità dell'output in queste reti.

  • 01:05:00 In questa sezione, David Bau discute di come alcuni GAN presentino artefatti o distorsioni nelle loro immagini generate che a volte possono essere rimosse o ridotte con determinati metodi di apprendimento. Suggerisce che, sebbene l'attuale generazione di GAN possa essere più avanzata di quella che ha sperimentato, varrebbe comunque la pena indagare se questo fenomeno si verifica ancora. David osserva che porre le domande giuste e imparare a farlo è essenziale in questo campo e invita chiunque sia interessato al suo lavoro a contattarlo.
MIT 6.S192 - Lecture 5: "Painting with the Neurons of a GAN" by David Bau
MIT 6.S192 - Lecture 5: "Painting with the Neurons of a GAN" by David Bau
  • 2021.01.27
  • www.youtube.com
https://people.csail.mit.edu/davidbau/home/More about the course: http://deepcreativity.csail.mit.edu/Information about accessibility can be found at https:/...
 

MIT 6.S192 - Conferenza 7: "La forma della storia dell'arte agli occhi della macchina" di Ahmed Elgemal



MIT 6.S192 - Conferenza 7: "La forma della storia dell'arte agli occhi della macchina" di Ahmed Elgemal

Ahmed Elgamal, professore di informatica e fondatore dell'Art and Artificial Intelligence Lab, discute l'uso dell'intelligenza artificiale per comprendere e generare prodotti creativi a livello umano. Elgamal discute l'approccio scientifico alla storia dell'arte e l'importanza di far progredire l'intelligenza artificiale per comprendere l'arte come fanno gli umani. Discute anche dell'uso dell'apprendimento automatico per classificare gli stili artistici, analizzando le rappresentazioni interne, identificando le differenze tra gli stili artistici e quantificando la creatività nell'arte attraverso l'intelligenza artificiale. Elgamal propone anche il concetto di oggetti primari nella storia dell'arte ed esplora il potenziale dell'intelligenza artificiale di generare arte, riconoscendo i limiti degli attuali approcci di intelligenza artificiale nelle attività creative. Tuttavia, Elgamal discute anche degli esperimenti in corso per spingere i confini della rete AI per creare arte astratta e interessante.

Ahmed Elgammal discute anche i risultati di un test di messa a punto per determinare se gli esseri umani possono distinguere l'arte creata da un GAN da quella degli umani, utilizzando le opere d'arte come base. Gli esseri umani pensavano che l'arte realizzata dalle macchine GAN fosse prodotta dagli esseri umani il 75% delle volte, sottolineando il concetto di ambiguità di stile e la sua importanza nel collegare la visione artificiale e l'apprendimento automatico con la storia dell'arte e gli interessi artistici.

  • 00:00:00 In questa sezione, il professor Ahmed Elgammal, professore presso il Dipartimento di Informatica della Rutgers University e fondatore dell'Art and Artificial Intelligence Lab, parla della sua passione per l'arte e di come ha realizzato l'importanza di combinare intelligenza artificiale e arte . Spiega che l'arte è molto più del riconoscimento di oggetti e coinvolge strati di contesto, comprensione delle emozioni e contesti storici e sociali che richiedono capacità cognitive e intellettuali simili a quelle degli esseri umani. Crede che comprendere e generare prodotti creativi a livello umano sia fondamentale per dimostrare che gli algoritmi di intelligenza artificiale sono intelligenti e discute la questione della combinazione di estetica e soggettività con oggettività e scienza. Il professor Elgammal sostiene un approccio scientifico alla storia dell'arte e sottolinea l'importanza di far progredire l'intelligenza artificiale per comprendere l'arte come fanno gli esseri umani.

  • 00:05:00 In questa sezione, Ahmed Elgemal discute l'idea che qualsiasi aspetto dell'arte, anche gli elementi creativi e soggettivi, possono essere studiati oggettivamente attraverso gli occhi di una macchina. Spiega che il suo obiettivo è comprendere le implicazioni del guardare all'arte attraverso l'IA e come può far progredire l'IA e la comprensione della storia dell'arte. Elgemal parla del suo lavoro nel quantificare i diversi elementi e principi dell'arte e dello stile, incluso come caratterizzare la sequenza e l'evoluzione del cambiamento dello stile artistico nel tempo e quali fattori influenzano questi cambiamenti. Discute anche i limiti degli attuali approcci di intelligenza artificiale nella comprensione del concetto di stile nell'arte.

  • 00:10:00 In questa sezione, il relatore discute un problema di apprendimento automatico supervisionato per classificare diversi stili artistici, utilizzando codifiche visive per catturare diversi livelli di caratteristiche. Il progresso di questo tipo di ricerca viene confrontato dagli anni di Hog's Years al deep learning. La macchina è in grado di classificare gli stili artistici allo stesso livello di uno studente di storia dell'arte del primo anno. L'oratore sostiene che classificare l'arte in base alla macchina è importante per comprendere le caratteristiche dello stile e ciò che guida i cambiamenti di stile. Le rappresentazioni interne della macchina di questi stili sono difficili da interpretare, ma studiare la relazione tra il modo in cui la macchina identifica lo stile e il modo in cui gli storici dell'arte pensano allo stile può fornire informazioni utili. Ad esempio, la teoria sullo stile di Heinrich Wolfflin suggerisce schemi visivi che differenziano gli elementi di stili diversi.

  • 00:15:00 In questa sezione, Elgemal discute l'uso dell'apprendimento automatico per classificare gli stili artistici e analizzare la rappresentazione interna della classificazione della macchina. Hanno addestrato diversi modelli CNN, tra cui VGGNet e ResNet, per eseguire la classificazione degli stili in modo supervisionato. Analizzando la rappresentazione interna, hanno scoperto che un piccolo numero di fattori può spiegare la maggior parte delle variazioni nella storia dell'arte occidentale, con le prime due modalità di variazione che spiegano fino al 74% della varianza, indipendentemente dalla rete utilizzata. Hanno anche scoperto che non c'è nulla nell'oggetto o nella composizione che conta quando si tratta di classificare gli stili artistici. Questo approccio fornisce un modo basato sui dati per comprendere come la macchina classifica l'arte e fornisce approfondimenti sulla struttura della storia dell'arte.

  • 00:20:00 In questa sezione, il docente spiega come, sebbene le macchine non siano informate sulle tempistiche dei vari stili artistici, possano imparare a classificare questi stili da sole attraverso le immagini fornite. Ciò è confermato dal fatto che la macchina mette l'arte in un ordine storico in quanto vi è una correlazione di 0,7 tra la progressione degli stili e il tempo. Il docente approfondisce i due fattori che aiutano a spiegare il 75% della storia dell'arte, che sono planare contro recessione e lineare contro pittorico. Osserva che la storia dell'arte ha attraversato un ciclo a 360 gradi negli ultimi 500 anni nella civiltà occidentale e questo è catturato in un diagramma creato dalla rappresentazione che la macchina ha appreso osservando gli stili artistici.

  • 00:25:00 In questa sezione, il relatore discute l'uso dell'intelligenza artificiale nel determinare le differenze tra gli stili artistici. Mentre alcuni stili, come il Rinascimento e il Barocco, possono essere distinti utilizzando fattori specifici, come il colore e la trama, altri stili come l'Impressionismo non possono essere identificati attraverso questi fattori. I collettori di attivazione delle reti di intelligenza artificiale mostrano come i movimenti artistici siano cambiati nel tempo, con particolare enfasi sulle opere di Cezanne, che ha agito da ponte tra l'impressionismo e gli stili del primo Novecento come il cubismo e l'astrattismo. Inoltre, alcune opere d'arte rinascimentali vengono allontanate dalla nuvola rinascimentale, con artisti particolari come El Greco e Durer che influenzano l'arte moderna. Il discorso passa quindi a una discussione sulla quantificazione della creatività nell'arte attraverso l'intelligenza artificiale.

  • 00:30:00 In questa sezione, Elgemal discute lo sviluppo di un algoritmo per valutare la creatività di un dipinto in base al contesto e alla storia dell'arte. Sostiene che la capacità di valutare la creatività è fondamentale per le macchine che creano arte e che l'algoritmo deve definire la creatività in modo quantificabile. Elgemal suggerisce che ci sono due condizioni principali affinché un prodotto possa essere definito creativo: deve essere nuovo rispetto al lavoro precedente e deve avere un certo valore, nel senso che diventerà influente. Osserva diversi modi per descrivere la creatività ed esplora i limiti degli algoritmi che valutano la creatività, sostenendo che devono considerare il contesto della storia dell'arte.

  • 00:35:00 In questa sezione, Ahmed Elgamal discute i limiti degli algoritmi nella storia dell'arte, incluso quello che chiama il "limite del mondo chiuso" dei dati disponibili e il "limite della quantificazione del concetto artistico" della codifica visiva utilizzata. Suggerisce che i parametri dell'algoritmo possono essere utilizzati per interpretare i punteggi della creatività e capire come influenzano i risultati. Elgamal propone un grafico diretto tra i dipinti con un peso che riflette la loro somiglianza visiva e lo utilizza per creare una formulazione per la creatività basata sull'influenza e sulla novità. La formula risultante è un'istanza di un problema di centralità della rete e può essere interpretata come una passeggiata casuale in una catena di Markov con alpha impostato su uno.

  • 00:40:00 In questa sezione, il docente discute come la centralità degli autovettori può essere utilizzata per misurare la centralità della rete nei social network invertendo la variante ponderata del page rank. Questo può anche essere esteso per separare l'originalità dall'influenza e l'accuratezza dell'algoritmo può essere valutata utilizzando set come wikiart e archivio che non sono stati supervisionati. Il docente spiega che, una volta testati, i risultati hanno mostrato che la macchina è stata in grado di identificare varie opere d'arte creative come le Dame di Algeri di Picasso come l'inizio del cubismo.

  • 00:45:00 In questa sezione, Ahmed Elgemal discute la valutazione della creatività dell'opera d'arte utilizzando una macchina d'archivio, che è avvenuta a causa di un errore nella datazione dell'opera d'arte di Mondrian. Il metodo prevedeva di prendere opere d'arte del periodo rinascimentale o barocco e spostarle in un periodo successivo, prendendo anche opere d'arte moderne e riportandole al periodo rinascimentale. I risultati hanno mostrato un consistente calo della creatività quando si spostano le opere d'arte rinascimentali e barocche avanti nel tempo, e un aumento della creatività quando si riportano le opere d'arte moderna al periodo rinascimentale. L'algoritmo utilizzato è stato in grado di quantificare la creatività e dare un punteggio che ha catturato novità e influenza, convalidando la capacità dell'algoritmo di valutare la creatività delle opere d'arte.

  • 00:50:00 In questa sezione, Ahmed Elgemal discute il concetto di oggetti primari nella storia dell'arte e come possono dar vita a nuovi stili. Confronta gli oggetti primi con i numeri primi in matematica, tracciando parallelismi tra la loro natura imprevedibile e la loro capacità di influenzare il lavoro successivo. Elgemal esplora anche il potenziale dell'intelligenza artificiale per generare arte, discutendo di Creative Adversarial Networks e della loro capacità di conoscere lo stile e deviare dalle norme. Tuttavia, Elgemal riconosce che il generatore nei GAN è limitato in quanto è addestrato a creare campioni che ingannano il discriminatore, senza alcuna motivazione per la creatività.

  • 00:55:00 In questa sezione, il relatore discute di come gli artisti debbano continuamente innovare per contrastare l'assuefazione, ma se innovano troppo, sarà difficile per le persone apprezzarlo. Mirano a spingere la rete ad essere innovativa, ma a mantenerla all'interno della stessa distribuzione per spingersi oltre i confini. L'oratore spiega che hanno aggiunto la perdita di ambiguità di stile al discriminatore per vedere se l'arte creata dal generatore si adatta agli stili o è ambigua in termini di classificazione, il che aiuterà la macchina a esplorare confini diversi. Hanno condotto esperimenti e hanno concluso che aggiungendo ambiguità di stile, la macchina ha generato interessanti opere d'arte astratte con nuove composizioni e combinazioni di colori che erano nella distribuzione di ciò che è attraente.

  • 01:00:00 In questa sezione, Ahmed Elgammal esplora i risultati di un test di messa a punto per determinare se un essere umano può distinguere tra l'arte creata da un GAN e quella di un essere umano. Le opere d'arte di una famosa mostra servono come punto di riferimento e si è scoperto che gli esseri umani pensavano che l'arte realizzata dalle macchine GAN fosse prodotta dagli esseri umani il 75% delle volte, rispetto all'85% dell'arte astratta e solo al 48% dell'arte dell'arte. Collezione Basilea. Elgammal discute anche il concetto di ambiguità di stile e la sua capacità di consentire la creazione di arte che appartiene all'arte senza uno stile specifico. Sottolinea l'importanza di collegare la visione artificiale e l'apprendimento automatico con la storia dell'arte e gli interessi artistici.
MIT 6.S192 - Lecture 7: "The Shape of Art History in the Eyes of the Machine " by Ahmed Elgemal
MIT 6.S192 - Lecture 7: "The Shape of Art History in the Eyes of the Machine " by Ahmed Elgemal
  • 2021.01.28
  • www.youtube.com
Abstract: In this talk, I will argue that teaching the machine how to look at art is not only essential for advancing artificial intelligence, but also has t...