Apprendimento automatico e Reti Neurali - pagina 24

 

MIT 6.S192 - Lezione 8: "In che modo l'apprendimento automatico può avvantaggiare i creatori umani" di Rebecca Fiebrink



MIT 6.S192 - Lezione 8: "In che modo l'apprendimento automatico può avvantaggiare i creatori umani" di Rebecca Fiebrink

Rebecca Fiebrink, ricercatrice nel campo della musica e dell'intelligenza artificiale, sottolinea l'importanza dell'interazione umana e di tenere gli esseri umani al corrente nell'uso e nello sviluppo dell'apprendimento automatico per scopi creativi. Discute il suo strumento, Wekinator, che consente l'uso dell'apprendimento automatico nella musica in tempo reale per la creazione umana. Dimostra la costruzione di vari strumenti controllati da gesti come una drum machine, un algoritmo di sintesi del suono chiamato Blotar e uno strumento a fiato chiamato blowtar. Sottolinea come l'apprendimento automatico può essere vantaggioso per i creatori consentendo loro di esplorare tavolozze sonore complesse e sfumate e semplificare l'analisi dei dati per sensori e dati in tempo reale. Affronta anche i vantaggi della manipolazione interattiva dei dati di addestramento e spiega come l'apprendimento automatico ci consente di comunicare con i computer in modo più naturale, oltre ad aggiungere sorprese e sfide al processo di lavoro creativo.

  • 00:00:00 In questa sezione del video, Rebecca Fiebrink, ricercatrice nel campo della musica e dell'intelligenza artificiale (AI), discute l'importanza dell'interazione umana e del tenere gli esseri umani al corrente dello sviluppo e dell'uso dell'apprendimento automatico per scopi creativi. Mette in dubbio il presupposto che l'utilizzo dell'apprendimento automatico per generare autonomamente un output creativo di tipo umano sia di per sé un supporto per i creatori umani. La ricerca di Fiebrink si è estesa ad altre aree come la pratica artistica e i giochi, e sottolinea la necessità di pensare all'utilità teorica e pratica dell'apprendimento automatico per i creatori umani.

  • 00:05:00 In questa sezione, il relatore discute il divario nel set di strumenti a disposizione dei creatori che desiderano lavorare con i dati o l'apprendimento automatico nei campi della musica e dell'arte. Sebbene diverse persone utilizzassero le librerie c plus o Python, non c'erano quasi strumenti disponibili da utilizzare in tempo reale o per lavorare con i dati multimediali, in particolare i dati audio. Molti creatori avevano già conseguito un dottorato di ricerca in informatica o ingegneria elettrica e c'era spazio per strumenti più accessibili per i creatori che volevano lavorare con i dati. Il machine learning può essere un ottimo strumento per i creatori che vogliono dare un senso a diversi tipi di dati che li circondano, come repository online o fonti online come immagini di Google, biosensori o dati dei social media.

  • 00:10:00 In questa sezione, Rebecca Fiebrink spiega il suo lavoro nella creazione di un software chiamato Wekinator che consente l'uso dell'apprendimento automatico nella musica in tempo reale nelle creazioni umane. Sottolinea che costruire un nuovo strumento che risponda ai gesti è diverso dal lavorare con set di addestramento alla verità standard. Per semplificare le cose, Wekinator consente agli utenti di dimostrare esempi per l'addestramento in tempo reale e quindi testare il modello per vedere dove commette errori. Wekinator consente inoltre agli utenti di modificare gli esempi di formazione sul posto. Ha quindi dimostrato la costruzione di una drum machine controllata da gesti molto semplice utilizzando il software Wekinator che utilizza una webcam per catturare il movimento e sottocampiona l'input su una griglia di colori 10 per 10 che fornisce 100 numeri per rendere più facile la previsione di gesti o movimenti.

  • 00:15:00 In questa sezione, il relatore mostra come utilizzare Wekinator con la regressione per creare uno strumento musicale che controlla un algoritmo di sintesi del suono chiamato Blotar. Questo strumento consente all'utente di controllare un ampio spazio di suoni, inclusi molti preset diversi, modificando nove parametri di controllo. Il relatore mostra come l'apprendimento automatico può avvantaggiare i compositori professionisti consentendo loro di esplorare tavolozze sonore complesse e sfumate.

  • 00:20:00 In questa sezione, Rebecca Fiebrink dimostra come utilizza l'apprendimento automatico per controllare uno strumento a fiato chiamato blowtar utilizzando un controller di gioco. Spiega che trovare manualmente buone posizioni nello spazio a nove dimensioni dello strumento sarebbe difficile per un programmatore esperto, ma l'apprendimento automatico consente di scrivere facilmente funzioni complesse. Mostra come attraverso l'addestramento del sistema, lo strumento può essere perfezionato fino a produrre il risultato desiderato, e può essere salvato e utilizzato durante le esibizioni o nella composizione del lavoro. In qualità di ricercatore dello strumento, Fiebrink discute i vari modi in cui i creatori hanno utilizzato l'apprendimento automatico per migliorare il proprio lavoro e ciò che questo insegna.

  • 00:25:00 In questa sezione, il relatore discute di come l'apprendimento automatico può avvantaggiare i creatori e consentire a più persone di lavorare con i dati in modo efficace, in particolare con i sensori e l'analisi dei dati in tempo reale, utilizzando esempi come la composizione di Anne Hege attraverso Wekinator e Michelle Nagai strumento musicale. Sottolineano inoltre come l'apprendimento automatico possa rendere le interazioni di costruzione creative e più facili con gli usi di Wekinator in campi come l'arte, gli spettacoli di marionette, le tecnologie per le persone con disabilità e la progettazione di prototipi interattivi. L'autore spiega che costruire interazioni in modo creativo attraverso l'apprendimento automatico di solito richiede un approccio diverso rispetto all'apprendimento automatico convenzionale a causa dei suoi obiettivi di costruire un modello che generi risultati credibili e il modo in cui il modello si comporta quando non soddisfa gli scopi diventa una sfida.

  • 00:30:00 In questa sezione, Fiebrink esplora le differenze tra la creazione di un modello di machine learning con l'obiettivo di fare previsioni accurate e la creazione di un modello di machine learning interattivo con l'obiettivo di creare qualcosa di utile o divertente. Quando si costruisce un modello di apprendimento automatico interattivo, i dati sono pensati come un'interfaccia per la comunicazione tra un creatore e il computer, il che significa che i dati vengono scelti soggettivamente ed è improbabile che siano indipendenti e distribuiti in modo identico (iid), che è un presupposto comune nell'apprendimento automatico. Questo può portare a imparare da pochissimi esempi posizionati strategicamente. Fiebrink dimostra come un semplice algoritmo come il vicino più vicino k, se utilizzato in modo interattivo, può ancora produrre buoni limiti decisionali con una piccola quantità di dati, consentendo la sperimentazione pratica e la cura dei dati.

  • 00:35:00 In questa sezione, Rebecca Fiebrink discute i vantaggi della manipolazione interattiva dei dati di addestramento nei domini creativi. Spiega che consentire alle persone di esplorare molte idee alternative è essenziale per creare qualcosa che soddisfi i requisiti di progettazione. Fiebrink ha scoperto che l'utilizzo di algoritmi di apprendimento automatico, come Wekinator, consente alle persone di riaddestrare i modelli molto rapidamente e vedere immediatamente i risultati, rendendo possibile supportare la prototipazione rapida in modo molto efficace. Nota inoltre che è difficile catturare pratiche o azioni umane nel codice, anche per programmatori esperti, in domini come la pittura o suonare strumenti musicali.

  • 00:40:00 In questa sezione, Rebecca Fiebrink spiega come l'apprendimento automatico ci consente di comunicare con i computer in modo più naturale, in quanto consente alle persone di comunicare le proprie idee in termini di esempi, che è simile a come comunichiamo quando parliamo di attività creative tra loro. L'apprendimento automatico rende anche più facile la creazione per i principianti sfruttando i set di big data per conformarsi a uno standard. Tuttavia, il recente progetto di Fiebrink, chiamato Sound Control, mostra la possibilità di consentire a più persone di personalizzare le interfacce e creare cose per sé e per gli altri con l'apprendimento automatico. In collaborazione con insegnanti di musica e terapisti, Sound Control consente loro di realizzare strumenti su misura per i bambini, ma li ha anche portati a fare altre cose inaspettate e utili, come creare giochi di ascolto, giochi di improvvisazione e attività di performance.

  • 00:45:00 In questa sezione, Rebecca Fiebrink spiega come l'apprendimento automatico può fornire sorprese produttive e sfide nel processo di lavoro creativo. Utilizzando strumenti come Wekinator, sottolinea l'importanza di disporre di strumenti creativi che aggiungano idee inaspettate al processo di lavoro. Pertanto, mette in guardia dal trascurare altri tipi di apprendimento automatico o anche metodi non di apprendimento automatico per lavorare con i dati. Suggerisce che costruire con i dati e l'apprendimento automatico può consentire alle persone di fare cose che prima non potevano fare ed esplora come le applicazioni creative possono servire come case study per rendere più efficaci le altre esperienze delle persone con i dati e l'apprendimento automatico.

  • 00:50:00 In questa sezione, il relatore risponde a una domanda del pubblico sulle sfide dell'utilizzo dell'apprendimento automatico con il suono. Il relatore riconosce che il suono presenta alcune sfide uniche in termini di soggettività culturale, ma nel complesso, il suono può essere affrontato utilizzando i tipici processi di apprendimento automatico con risultati simili ad altri media. Il relatore sottolinea che i dati e il modo in cui vengono utilizzati per affrontare i domini problematici sono più importanti del mezzo stesso. Il relatore discute anche di come l'apprendimento automatico può essere utilizzato come interfaccia per creare cose e dell'importanza di discutere dell'allineamento umano con le macchine e di chi dovrebbe definire gli obiettivi.

  • 00:55:00 In questa sezione, il relatore discute la difficoltà nel definire un obiettivo per l'apprendimento automatico e quanto di esso sia un processo sperimentale in cui il creatore crea un set di dati, prova qualcosa e quindi utilizza i dati per guidare il modello verso una certa direzione. L'aspetto esperienziale del processo consente al creatore di conoscere l'apprendimento automatico in un contesto specifico attraverso prove ed errori, e questo aspetto può essere un potente strumento per le persone per apprendere l'apprendimento automatico. Una recente ricerca di Carrie Cai e altri mostra anche che procedure esplorative sperimentali simili possono aiutare le persone a creare fiducia e capire cosa viene modellato, anche in applicazioni in cui queste persone potrebbero non avere precedenti competenze di machine learning.
MIT 6.S192 - Lecture 8: "How Machine Learning Can Benefit Human Creators" by Rebecca Fiebrink
MIT 6.S192 - Lecture 8: "How Machine Learning Can Benefit Human Creators" by Rebecca Fiebrink
  • 2021.01.28
  • www.youtube.com
Speaker title: Dr. Rebecca Fiebrink, Reader at the Creative Computing Institute, University of the Arts Londonhttps://www.doc.gold.ac.uk/~mas01rf/homepage/Mo...
 

MIT 6.S192 - Lezione 9: "Neural Abstractions" di Tom White



MIT 6.S192 - Lezione 9: "Neural Abstractions" di Tom White

In questo video, l'artista e docente Tom White discute il suo approccio all'incorporazione della percezione della macchina e delle reti neurali nella sua pratica artistica. White condivide il suo background nello studio di matematica e design grafico al MIT e il suo attuale lavoro di insegnamento del codice creativo alla Victoria University. Discute anche della sua ricerca sulla costruzione di strumenti per aiutare gli altri a utilizzare il mezzo in modo creativo e della sua opera d'arte che esplora la percezione della macchina. White mette in mostra i suoi schizzi e stampe, creati utilizzando algoritmi di intelligenza artificiale, e parla delle sue collaborazioni con gruppi musicali e delle sue recenti mostre d'arte. Discute anche delle sfide della collaborazione con le reti neurali e delle conseguenze indesiderate di mettere in libertà l'arte generata dall'intelligenza artificiale.

  • 00:00:00 In questa sezione del video, l'artista e conferenziere Tom White si presenta e parla del suo background, che comprende gli studi di matematica e graphic design al Media Lab del MIT. Parla del suo interesse per l'esplorazione della programmazione come disciplina creativa e di come ora insegna programmazione creativa alla Victoria University di Wellington. White menziona anche la sua ricerca, che si concentra sulla costruzione di strumenti pratici per aiutare gli altri a utilizzare il mezzo in modo creativo. Inoltre, parla della sua pratica artistica separata, di cui parlerà di più nel suo discorso e spera di ispirare gli studenti interessati a perseguire percorsi simili.

  • 00:05:00 In questa sezione, il relatore fornisce uno schema per il suo discorso sulle astrazioni neurali e la sua opera d'arte che esplora la percezione della macchina. Spiega che le macchine hanno i loro modi unici di vedere il mondo e le sue opere d'arte mirano a esporlo a un pubblico più ampio. Il relatore tocca anche il tema della rappresentazione e dell'astrazione dell'IA e di come indaga le rappresentazioni dei sistemi di visione della rete neurale per trasmetterle in un contesto artistico. Lo esemplifica mostrando alcune delle sue opere d'arte basate su set di dati di immagini reali, come occhi, volti e polli, e come introduce la diagnostica nel processo per comprendere il mondo interiore del sistema. Il discorso si conclude con le implicazioni dell'esplorazione della percezione della macchina nell'arte e come può aiutarci ad apprezzare i diversi modi in cui le macchine percepiscono il mondo.

  • 00:10:00 In questa sezione, Tom White discute alcuni dei suoi progetti iniziali durante la sua permanenza al MIT, inclusa la sua esplorazione delle tecniche di apprendimento automatico per la creazione di filtri video in tempo reale, la sua creazione di un'interfaccia manuale personalizzata per l'interazione multi-touch e il suo progetto artistico Stream of Consciousness, che incorporava tecniche di intelligenza artificiale come WordNet per trovare parole correlate. White parla anche del suo coinvolgimento nella creazione della libreria software di base Acu, che in seguito è servita come base per sistemi come Processing e OpenFrameworks, e di come il suo lavoro attuale riguardi la creazione di schizzi e disegni per i processi di apprendimento automatico.

  • 00:15:00 In questa sezione, il relatore discute la precedenza nell'arte che ha ispirato il loro lavoro, a partire dall'artista Stuart Davis, che ha preso oggetti comuni e si è costretto a dipingerli più e più volte finché non ha trovato qualcosa di nuovo in essi. Harold Cohen è stato un altro artista che ha sperimentato i sistemi di disegno generativo codificando le sue idee sulla creazione di segni in modo formale attraverso l'intelligenza artificiale. Lavorando di più come collaboratore con questi sistemi più avanti nella vita, la domanda centrale di Cohen è rimasta "che cos'è un'immagine?" L'oratore parla poi dell'aspetto tecnico del lavoro di Andy Warhol e Roy Lichtenstein nella serigrafia come tecnica che condividono nell'esecuzione delle loro opere d'arte.

  • 00:20:00 In questa sezione, l'artista e docente Tom White discute la sua tecnica artistica per creare stampe utilizzando la serigrafia invece di una tecnica a pennello, che crea utilizzando un sistema di visione artificiale che ottimizza percettivamente per creare immagini che sembrano ventilatori elettrici o binocoli che utilizzano algoritmi di intelligenza artificiale. White discute di come Stuart Davis abbia imparato a percepire e rappresentare oggetti familiari in modi nuovi fissando gli stessi oggetti ogni giorno. Allo stesso modo, White cerca di utilizzare i sistemi di visione artificiale per introdurre nuovi modi di percepire e rappresentare oggetti familiari.

  • 00:25:00 In questa sezione del video, l'oratore discute le sue dimostrazioni sull'utilizzo di un sistema di rete neurale per creare semplici schizzi utilizzando pochissimi tratti che possono essere manipolati per creare immagini diverse. Spiega come ha creato schizzi di uno squalo martello e di un ferro usando lo stesso numero di colpi, e poi mostra che capovolgendo la posizione dei tratti può ingannare le reti neurali per vedere un ferro come uno squalo e viceversa. Il relatore dimostra come la rete neurale può creare schizzi di oggetti diversi e mostra come il sistema non è influenzato dall'orientamento sinistro o destro, ma è influenzato dai colori nel set di dati di addestramento fornito.

  • 00:30:00 In questa sezione, Tom White parla di diversi esempi di apprendimento automatico e di come funziona. Un esempio è un sistema di visione artificiale che utilizza un campione di misurini prevalentemente verdi, facendo credere al sistema che i misurini verdi siano più comuni di quanto non siano in realtà. White discute anche di una stampa che ha fatto di un segno di spunta che ha registrato più forte di tutti gli esempi di convalida, che confronta con l'arte e il design in cui l'amplificazione attraverso la semplificazione viene utilizzata per creare una migliore astrazione dei concetti. Infine, White presenta la sua serie di astrazioni sintetiche, che consiste in stampe astratte che imitano immagini esplicite o non sicure per il lavoro che attivano i filtri nei motori di ricerca.

  • 00:35:00 In questa sezione, l'oratore condivide esempi di come i suoi sistemi funzionano con le API online, inclusi set di dati per balene, pinguini e occhi. Discute anche della sua collaborazione con un gruppo musicale in cui ha creato set di dati personalizzati, così come delle sue recenti mostre d'arte con gruppi di immagini che il computer pensa siano nodi, formiche o altri oggetti. L'oratore prosegue parlando dei diversi approcci alle tecniche generative e di come la sua opera d'arte influisca sul mondo reale. Cita il suo interesse per le reti di genere e il modo in cui ha creato un'opera d'arte utilizzando le uscite della rete neurale dei volti.

  • 00:40:00 In questa sezione, Tom White parla della sua esplorazione delle reti generative e del suo lavoro con studenti laureati per creare uno strumento per fogli di calcolo che utilizzi campioni da un modello generativo come strumento di creatività attraverso l'interfaccia di un foglio di calcolo. Vengono citati anche altri artisti come Lena Sarin, Mario Klingemann, Robbie Barrett e Edmund Bellamy. White discute anche delle sfide della collaborazione con questi sistemi per la creazione artistica, sottolineando il ruolo sia dell'artista che del sistema nel processo di co-creazione. Infine, parla delle conseguenze indesiderate della messa in libertà dell'arte generata dall'intelligenza artificiale e di come possiamo comprenderla attraverso tecniche di visualizzazione e chiedendo al sistema cosa vede.

  • 00:45:00 In questa sezione, il relatore parla di tecniche simili al sogno profondo in cui un'immagine viene inserita in un sistema per visualizzare come si relaziona. L'oratore menziona come le loro opere d'arte si imbattono in sistemi del mondo reale come il filtro per contenuti per adulti di Tumblr, l'API di Amazon e gli uffici accademici di Sloan Kettering. Discutono anche esempi di come questi sistemi di visione collassano nel classificare le opere d'arte sotto la stessa etichetta che hanno per gli oggetti del mondo reale. L'oratore spiega che l'idea centrale della loro opera d'arte è comprenderla attraverso gli occhi delle macchine, che creano arte per e dalle macchine, consentendo alle persone di apprezzarla indipendentemente dal loro background nell'apprendimento automatico.

  • 00:50:00 In questa sezione, Tom White spiega perché ha scelto la serigrafia come mezzo preferito per le sue opere d'arte fisiche. Sottolinea che il lavoro fisico consente alle persone di relazionarsi con esso in modo diverso dalle installazioni interattive con schermi e telecamere. Spiega anche che la serigrafia gli consente di creare lavori più precisi e ha un precedente per gli artisti pop nel mondo dell'arte. Tom spiega inoltre che realizzare un lavoro fisico è più difficile da realizzare in quanto è difficile gestire possibili foto, ma è un modo interessante per portare attacchi contraddittori al mondo fisico. Inoltre, parla di come l'arte può aiutare a comprendere meglio i pregiudizi algoritmici o altri aspetti dell'intelligenza artificiale e della sicurezza informatica.

  • 00:55:00 In questa sezione, Tom White discute di come il pregiudizio nel set di dati Celeb-A, con le donne che hanno maggiori probabilità di essere etichettate come sorridenti rispetto agli uomini, possa portare a pregiudizi nelle reti generative volte a modificare le espressioni facciali. Nota che il suo lavoro non si concentra su esempi contraddittori, ma piuttosto sulla visualizzazione e comprensione degli stimoli che attivano le reti neurali. White parla anche di sperimentare rappresentazioni semplici, come tratti minimi, per rendere più facile la generazione di output visivi. Osserva che le persone possono riconoscere le immagini in formati a bassa risoluzione, traendo ispirazione dalla ricerca psicologica che ha testato questa capacità.

  • 01:00:00 In questa sezione, Tom White incoraggia gli spettatori a dare un'occhiata alla ricerca nello spazio delle astrazioni neurali e li indirizza ai video del workshop dell'anno precedente per ulteriori informazioni. Sottolinea il valore della ricerca e accoglie con favore qualsiasi domanda che gli spettatori possano avere.
MIT 6.S192 - Lecture 9: "Neural Abstractions" by Tom White
MIT 6.S192 - Lecture 9: "Neural Abstractions" by Tom White
  • 2021.01.28
  • www.youtube.com
About: Tom White is a New Zealand artist teaching computers to draw using artificial intelligence and machine perception. Tom’s artwork focuses on how machin...
 

MIT 6.S192 - Conferenza 10: "Magenta: Empowering creative agency with machine learning" di Jesse Engel



MIT 6.S192 - Conferenza 10: "Magenta: Empowering creative agency with machine learning" di Jesse Engel

Jesse Engel, capo ricercatore presso Google Brain, parla di Magenta, un gruppo di ricerca che esamina il ruolo dell'intelligenza artificiale e dell'apprendimento automatico nella creatività e nella musica. Il gruppo si concentra principalmente sui modelli di apprendimento automatico che generano contenuti multimediali e li rendono accessibili tramite codice open source e un framework chiamato magenta.js, che consente la creazione di modelli creativi interattivi in Javascript. Engel sottolinea l'importanza di vedere la musica come una piattaforma sociale ed evolutiva per l'identità e la connessione culturale piuttosto che come una merce da produrre e consumare a buon mercato. Esplorano come l'apprendimento automatico può fornire alle persone nuove forme di agenzia creativa attraverso l'espressività, l'interattività e l'adattività. La conferenza copre vari argomenti, tra cui la progettazione di modelli di apprendimento automatico per la musica, l'utilizzo della convoluzione dilatata per output predittivi, l'elaborazione del segnale digitale differenziabile e la creazione di sistemi di apprendimento automatico che producono splendidi errori. Inoltre, parla delle sfide collaborative con gli artisti e della grande sfida di uscire dalla distribuzione e dalla composizionalità nei modelli di apprendimento.

  • 00:00:00 In questa sezione, Jesse Engel, capo ricercatore presso Google Brain, parla di Magenta, un gruppo di ricerca che esamina il ruolo dell'intelligenza artificiale e dell'apprendimento automatico nella creatività e nella musica. Il gruppo si concentra principalmente sui modelli di apprendimento automatico che generano contenuti multimediali e li rendono accessibili tramite codice open source e un framework chiamato magenta.js, che consente la creazione di modelli creativi interattivi in Javascript. Engel sottolinea l'importanza di vedere la musica come una piattaforma sociale ed evolutiva per l'identità e la connessione culturale piuttosto che come una merce da produrre e consumare a buon mercato. Esplorano come l'apprendimento automatico può fornire alle persone nuove forme di agenzia creativa attraverso l'espressività, l'interattività e l'adattività.

  • 00:05:00 In questa sezione, Jesse Engel parla della progettazione di modelli di apprendimento automatico che sono più hackerabili e richiedono meno dati per l'addestramento, in particolare nel contesto della musica. Discute i compromessi tra diversi aspetti della progettazione di algoritmi, come renderli a bassa latenza con controlli causali intuitivi, pur essendo espressivi e adattivi. Confronta due modelli di apprendimento automatico: il Jukenbox aperto che modella la forma d'onda audio grezza in modo molto realistico a scapito della richiesta di tonnellate e tonnellate di dati e scarabocchi che modellano la musica come dati strutturati ma con suoni non realistici. Conclude discutendo l'approccio adottato dal gruppo, che consiste nell'utilizzare la struttura all'interno del modello per trovare un compromesso tra interpretabilità ed espressività.

  • 00:10:00 In questa sezione, Jesse Engel discute il precedente stato dell'arte dei modelli di trascrizione audio e come fossero limitati quando si trattava di prevedere con precisione le note in un modo che corrispondesse alla percezione umana. Dimostra come gli errori nei singoli fotogrammi non contino tanto quanto quando le note iniziano effettivamente e come è stata creata una nuova architettura di rete neurale per abbinare meglio la funzione di perdita a ciò che ci interessa: come suona la musica quando la suoniamo Indietro. Il nuovo modello all'avanguardia è stato in grado di ottenere una trascrizione accurata anche quando l'audio era "allo stato brado", come dimostrato da un pianista che suonava nel suo cellulare.

  • 00:15:00 In questa sezione del video, Jesse Engel di Google Brain spiega l'importanza dei set di dati nelle reti neurali, utilizzando l'esempio di un grande set di dati del concorso internazionale di e-piano. Discute l'uso di reti neurali, come le reti neurali ricorrenti (RNN) e l'architettura del trasformatore, per modellare sequenze musicali e la sfida della tokenizzazione delle note musicali. Per affrontare questa sfida, hanno creato un vocabolario per riconoscere singoli eventi musicali e timestamp. Rappresentando con precisione microtemporizzazione, velocità e variazioni nei dati, i modelli sono in grado di produrre musica dal suono più naturale.

  • 00:20:00 In questa sezione della conferenza, Jesse Engel spiega come il team di Magenta ha iniziato con un motivo originale e ha utilizzato un modello autoregressivo chiamato LSTM per prevedere il token successivo dati i token precedenti. Tuttavia, a causa della limitata coerenza a lungo termine dell'LSTM, hanno implementato il trasformatore per tenere traccia di tutti i dati precedenti per migliorare la coerenza. Con questo, potrebbero trascrivere l'audio grezzo per ottenere migliaia di ore di musica simbolica, consentendo loro di addestrare modelli che hanno una coerenza molto più a lungo termine. Per dare un controllo più intuitivo, il team ha anche estratto la melodia e l'ha usata come controllo da cui dipende la generazione. Potrebbero quindi utilizzare questo modello come sintetizzatore neurale per suoni diversi e i parametri potrebbero essere sintonizzati su set di suoni specifici.

  • 00:25:00 In questa sezione del video, Jesse Engel spiega gli aspetti tecnici dei processi di convoluzione dilatati di Magenta per una rete neurale per prevedere gli output in base a controlli di alto livello. Utilizzando la convoluzione dilatata, il sistema è in grado di esaminare un ampio arco di tempo senza sottocampionamento ed evita di perdere informazioni pur essendo espressivo. Tuttavia, il processo è lento e richiede un condizionamento a lungo termine per una struttura a lungo termine. Attraverso l'uso del condizionamento delle note, il sistema è in grado di generare performance realistiche con rappresentazioni intermedie interpretabili.

  • 00:30:00 In questa sezione impariamo a conoscere il DDSP, o elaborazione del segnale digitale differenziabile. Jesse Engel propone di integrare i tradizionali metodi di elaborazione del segnale come oscillatori, filtri e sintetizzatori con il deep learning per creare un sistema più efficiente, realistico e reattivo. Invece di avere una rete neurale che crea direttamente l'audio, vengono utilizzati elementi di elaborazione del segnale noti e una rete neurale li controlla per produrre output espressivi. I moduli DDSP sono interpretabili ed efficienti e il suono può essere modellato da questi oscillatori sinusoidali a frequenza variabile. DDSP utilizza l'oscillazione armonica e le equazioni differenziali del secondo ordine per una maggiore flessibilità con la modellazione audio. DDSP non è solo componenti periodici, ma include anche elementi di rumore, che possono essere modellati in modo casuale con diversi filtri. Controllando questi elementi di sintesi utilizzando un decodificatore di rete neurale, è possibile generare audio che si confronta favorevolmente con l'audio originale.

  • 00:35:00 In questa sezione della conferenza, il relatore spiega come addestrare il decodificatore a creare sintesi di alta qualità con meno dati, eseguendo spettrogrammi attraverso il modello e quindi risintetizzandolo. Ciò consente al modello di trasformare il tono e il volume in un suono di flauto, suono di violino e persino trasferire toni timbrici da stili di canto. Possono anche disattivare diversi componenti del modello, come il riverbero e le armoniche, per ispezionare i singoli attributi. Il modello può essere compresso in modelli inferiori a un megabyte per l'implementazione di operazioni in tempo reale su un browser. Il modello DDSP può essere applicato a un'ampia gamma di culture, rendendolo in grado di preservare variazioni e spostamenti microtonali.

  • 00:40:00 In questa sezione, Jesse Engel discute il progetto Magenta e il suo obiettivo di potenziare l'agenzia creativa utilizzando l'apprendimento automatico. Spiega che hanno ricevuto risposte positive da musicisti che trovano lo strumento utile nel loro processo creativo piuttosto che sostituirlo. Il team di Magenta si concentra sulla creazione di un ecosistema più ampio, che include un'interfaccia Web per i modelli di addestramento, la distribuzione alle app Web e plug-in in tempo reale per il software musicale. Engel osserva che il sistema è più interattivo, in tempo reale e adattivo, ma c'è ancora spazio per miglioramenti in termini di espressività e diversi modelli interattivi. Il team sta esplorando modelli non supervisionati per apprendere la struttura e le etichette dai dati. Hanno diverse demo, software e strumenti professionali disponibili sul loro sito Web che chiunque può provare.

  • 00:45:00 In questa sezione, Jesse Engel spiega che la creazione di sistemi di apprendimento automatico che producono bellissimi fallimenti è un modo di pensare alla creazione di sistemi che gli artisti possono utilizzare. Ad esempio, i limiti progettati nelle drum machine originali si sono rivelati la loro caratteristica distintiva, che ha portato i musicisti hip-hop ed elettronici a utilizzare i suoni in modi divertenti e artistici. Inoltre, Engel discute la relazione tra interpretabilità e interattività e suggerisce che il linguaggio e le ipotesi utilizzate dai modelli di apprendimento automatico potrebbero essere la soluzione per creare API che fungano da intermediari tra il software e l'utente per la massima interpretabilità.

  • 00:50:00 In questa sezione del video, Jesse Engel discute le sfide dell'applicazione della struttura per la generalizzazione durante la progettazione di modelli che possono adattarsi al pubblico di destinazione. Spiega come le reti neurali possono emulare la meccanica newtoniana in un insieme specifico di immagini, ma faticano a estrapolare quando un aspetto dell'immagine cambia. Tocca anche come la costruzione di modelli in grado di adattarsi all'intensità della musica o al volume della grancassa possa essere un'idea affascinante. Viene sollevata anche la discussione sulle collaborazioni con gli artisti, ma Jesse spiega che è impegnativa a causa dei limiti e del loro sistema di promozione basato sulla ricerca. La discussione si collega alla grande sfida di uscire dalla distribuzione e dalla composizionalità nei modelli di apprendimento.
MIT 6.S192 - Lecture 10: "Magenta: Empowering creative agency with machine learning" by Jesse Engel
MIT 6.S192 - Lecture 10: "Magenta: Empowering creative agency with machine learning" by Jesse Engel
  • 2021.01.28
  • www.youtube.com
Jesse Engel, Staff Research Scientist, Google Brainhttps://jesseengel.github.io/about/More about the course: http://deepcreativity.csail.mit.edu/Information ...
 

MIT 6.S192 - Lezione 11: "Biodiversità artificiale", Sofia Crespo e Feileacan McCormick



MIT 6.S192 - Lezione 11: "Biodiversità artificiale", Sofia Crespo e Feileacan McCormick

In questa conferenza sulla "Biodiversità artificiale", Sofia Crespo e Feileacan McCormick esplorano l'intersezione tra tecnologia e natura per produrre forme d'arte uniche. Il duo discute il loro interesse e l'uso dell'apprendimento automatico e la sua connessione con la bellezza e sottolinea i limiti della percezione umana. Discutono anche dei loro progetti di collaborazione, tra cui "Entangled Others", in cui sostengono la rappresentazione sia delle singole specie che dei loro complessi intrecci per creare una migliore comprensione dei sistemi ecologici. I relatori sottolineano l'importanza della sostenibilità e della collaborazione nella pratica artistica e il rapporto tra strumenti e arte, affermando che gli algoritmi non possono sostituire gli artisti umani.

  • 00:00:00 In questa sezione, Sofia Crespo e Feileacan McCormick discutono il concetto di biodiversità artificiale ed esplorano la questione di ciò che rende bello qualcosa nel regno dell'apprendimento automatico. Il duo considera se la bellezza si trova nel set di dati utilizzato per addestrare le reti neurali, il processo di addestramento del modello o l'interazione tra strati di neuroni virtuali nel cervello. Tracciano anche parallelismi tra l'atto di addestrare una rete neurale e la meditazione, poiché entrambi implicano la cura di un set di dati e l'esplorazione di schemi. Nel complesso, la discussione evidenzia i modi in cui la tecnologia e la natura possono intersecarsi per produrre forme d'arte uniche.

  • 00:05:00 In questa sezione, Sofia Crespo parla del suo fascino per le meduse e dei limiti della percezione umana in termini di colore. Spiega che il suo interesse per le meduse l'ha portata a esplorare le meduse sintetiche attraverso algoritmi di apprendimento automatico. Riflette sulla questione di ciò che le reti neurali artificiali possono insegnarci sui nostri processi cognitivi e sul concetto di "natura" e su come visualizzarlo. Crespo discute anche l'articolo di Aaron Hertzmann sull'indeterminatezza visiva nell'arte gan, che esplora come stimoli visivi significativi possano essere visivamente indeterminati e innescare risposte cognitive.

  • 00:10:00 In questa sezione, i relatori discutono del loro interesse e utilizzo dell'apprendimento automatico e della sua connessione con la bellezza. Spiegano che quando lavorano con l'apprendimento automatico, lavorano all'interno di una sfera molto umana, utilizzando set di dati creati dall'uomo e, quindi, affrontando i presupposti visivi umani della natura. I relatori suggeriscono che la tecnologia fa parte della natura poiché gli esseri umani sono parte della natura, e questa idea che la tecnologia sia un'entità separata dalla natura è errata. Inoltre, i relatori discutono la definizione di vita artificiale e sottolineano che può essere compresa in varie discipline come software, arte o persino wetware, hardware e genetica. Usano il lavoro di Karl Sim sulle creature artificiali evolute per dimostrare la capacità dei primitivi di incarnare qualità simili alla vita e, insieme al loro comportamento, emergono un senso di competitività e azioni orientate agli obiettivi.

  • 00:15:00 In questa sezione impariamo come le reti neurali artificiali possono creare creature e linguaggio fantastici, proprio come il Codex Seraphinianus di Luigi Serafini. Queste creazioni sono una ricombinazione remixata della conoscenza umana di botanica, zoologia, linguaggio e architettura. Nonostante la loro artificiosità, mostrano una notevole diversità nella diversità. La conferenza discute anche di Anna Atkins, fotografa e botanica del XIX secolo che ha creato la tecnica della cianotipia. L'oratore ha combinato la tecnica di Atkins con la rete neurale convoluzionale per generare creature realistiche, che sono state stampate utilizzando la tecnica del cianotipo. Questo progetto si chiama Artificial Natural History, un libro che mostra come gli esseri umani vedevano la natura prima dell'esistenza delle telecamere.

  • 00:20:00 In questa sezione, Sofia Crespo e Feileacan McCormick discutono del loro progetto di collaborazione, "Entangled Others", in cui sostengono di rappresentare non solo le singole specie, ma anche i loro complessi intrecci per creare una migliore comprensione dei sistemi ecologici. Spiegano il loro primo progetto, "Artificial Remnants", in cui hanno generato modelli 3D di insetti e creato un'esperienza di realtà aumentata per consentire alle persone di interagire con le creature digitali. Il successo di questo progetto ha portato al loro ultimo sforzo, che ha comportato la costruzione di un ecosistema e l'esplorazione del concetto astratto di esistere in una relazione. Tuttavia, a causa del COVID-19, i loro piani espositivi sono stati modificati.

  • 00:25:00 In questa sezione, i relatori discutono del loro progetto su una "biodiversità artificiale" e di come si sono rivolti alle barriere coralline come esempio dell'interconnessione degli ecosistemi. Tuttavia, a causa della mancanza di dati, hanno dovuto lavorare con un artista per creare corallo sintetico al fine di imitare la diversità delle morfologie del corallo. Riconoscono che questa è una rappresentazione soggettiva in quanto non è un riflesso accurato del complesso sistema di una barriera corallina, ma ci ricorda comunque le sue qualità. Parlano anche dell'affascinante aspetto di mettere la natura sotto i riflettori attraverso una rappresentazione astratta dei modelli della natura e lavorare con i biomateriali è stata una sfida di apprendimento.

  • 00:30:00 In questa sezione, i relatori discutono di come hanno fatto uno sforzo per dare priorità alla sostenibilità collaborando con uno studio specializzato nella creazione di bioplastica da noccioli di olive scartati. Questo materiale può essere fuso e riutilizzato più e più volte, consentendo loro di creare mostre e quindi riutilizzare il materiale per progetti futuri. Sottolineano che è fondamentale per gli artisti che lavorano con la natura pensare in modo sostenibile e considerare le conseguenze fisiche degli strati digitali, in particolare utilizzando l'apprendimento automatico nella pratica artistica. Sottolineano inoltre l'importanza della collaborazione e delle interazioni interdisciplinari per rafforzare le connessioni e crearne di nuove, il che li ha portati ad avere un invito aperto affinché altri li raggiungano per collaborazioni, conversazioni e altro ancora. La discussione tocca anche la filosofia e fa riferimento a Platone, Deleuze e Guattari.

  • 00:35:00 In questa sezione, gli artisti Sofia Crespo e Feileacan McCormick discutono del rapporto tra strumenti e arte. Spiegano che proprio come una matita modella il modo in cui disegniamo, anche gli strumenti digitali hanno qualità modellanti. Toccano anche l'importanza di non dimenticare la prospettiva artistica quando si crea arte generativa e digitale, e perché è necessario mettere in discussione non solo le soluzioni tecniche ma anche il perché, come e cosa. Affermano che è essenziale ricordare a noi stessi che l'arte è fatta per essere consumata dagli esseri umani e che gli algoritmi non possono sostituire gli artisti umani.
MIT 6.S192 - Lecture 11: "Artificial Biodiversity", Sofia Crespo and Feileacan McCormick
MIT 6.S192 - Lecture 11: "Artificial Biodiversity", Sofia Crespo and Feileacan McCormick
  • 2021.01.28
  • www.youtube.com
"Artificial Biodiversity", Sofia Crespo & Entangled Others https://sofiacrespo.com/https://entangledothers.studio/More about the course: http://deepcreativit...
 

MIT 6.S192 - Conferenza 12: "AI+Creativity, an Art Nerd's Perspective" di Jason Bailey



MIT 6.S192 - Conferenza 12: "AI+Creativity, an Art Nerd's Perspective" di Jason Bailey

Jason Bailey discute di come l'apprendimento automatico stia influenzando il campo dell'arte, dal rilevamento dei falsi alla previsione dei prezzi. Esorta gli artisti a essere consapevoli dei pregiudizi insiti nell'arte basata sui dati e sollecita la necessità di dati di formazione che includano tutte le prospettive.

  • 00:00:00 Jason Bailey è un docente al MIT che parlerà di intelligenza artificiale e creatività. Proviene da un background di ingegneria e marketing e porta questa esperienza nel suo discorso sull'intersezione tra arte e tecnologia. Bailey si concentrerà su tre aree chiave: la storia dell'arte, la previsione dei prezzi nel mercato dell'arte e l'uso di AI e ML nelle arti creative.

  • 00:05:00 Jason Bailey descrive come si è interessato al problema della contraffazione nell'arte e come ha passato tre anni a scansionare libri di grande formato per creare un database delle opere complete dell'artista. Parla di quanto siano rari e difficili da trovare questi curriculum del catalogo e di quanto recentemente qualcuno abbia ristampato una versione popolare per circa $ 2.000.

  • 00:10:00 Il blog di Jason Bailey "artnome.com" esplora modi per utilizzare i dati per comprendere meglio e criticare l'arte. Nel 2017, il suo blog ha ricevuto l'attenzione di 538, che ha pubblicato una storia sul suo progetto "Ai for Art Scholarship: What Does That Look Like?" Dopo aver condiviso i collegamenti ai suoi progetti e pubblicazioni nella sua conferenza, Bailey fornisce un riassunto di 1 paragrafo del suo discorso.

  • 00:15:00 Jason Bailey discute di come l'apprendimento automatico sia utile nella storia dell'arte, in particolare nell'analisi dei dipinti e nella comprensione della storia dell'arte. Parla anche del suo recente progetto, che prevedeva l'addestramento di un modello di apprendimento automatico per identificare i dipinti iconici dello stesso artista in diversi musei.

  • 00:20:00 La conferenza di Jason Bailey esplora le relazioni tra i prezzi dei dipinti ei singoli pixel che compongono i dipinti, nonché le tendenze nel mercato dell'arte. La sua piattaforma di machine learning è stata in grado di prevedere i prezzi dei dipinti del pittore spagnolo Pablo Picasso con una correlazione di 0,58.

  • 00:25:00 Jason Bailey discute lo stato attuale dell'apprendimento automatico e il suo impatto sul mondo dell'arte. Parla di come l'apprendimento automatico viene utilizzato per creare arte più realistica e surreale e di come questa innovazione abbia recentemente suscitato un rinnovato interesse nel campo.

  • 00:30:00 Jason Bailey tiene una conferenza sull'intelligenza artificiale e la creatività, descrivendo come il sogno profondo e il trasferimento di stile possono essere usati per creare arte. Parla delle sue esperienze con queste tecnologie e di come non siano state così entusiasmanti per lui come lo erano quando le ha scoperte per la prima volta. Termina la conferenza discutendo il lavoro dell'artista francese Robbie Barrett.

  • 00:35:00 Jason Bailey tiene una conferenza sull'intelligenza artificiale e la creatività, discutendo di come la formazione artistica tradizionale sia insufficiente per affrontare i giorni nostri, quando l'intelligenza artificiale e l'arte generativa sono prevalenti. Discute di come il suo background artistico gli permetta di entrare in contatto con artisti e promotori dell'arte generativa e di come il suo lavoro sia stato influenzato da questi artisti.

  • 00:40:00 Jason Bailey discute di come la tecnologia e l'arte si siano intersecate in passato e di come l'analisi dei dati possa aiutare gli artisti a misurare l'astrazione. Cita anche un progetto in cui è stato coinvolto in cui hanno calcolato l'astrazione nella carriera di un pittore.

  • 00:45:00 Jason Bailey spiega come l'algoritmo del suo team può essere utilizzato per prevedere i prezzi dei dipinti, sulla base di una serie di fattori come la popolarità storica dell'artista, la complessità del dipinto e il materiale utilizzato nel dipinto. Osserva inoltre che l'algoritmo è ancora nelle sue fasi iniziali e che sono necessarie ulteriori ricerche per migliorarlo.

  • 00:50:00 In questa conferenza, Jason Bailey discute di come utilizza i dati delle aste per studiare la creatività, nonché di come ha incorporato altri campi, come l'arte e la natura, nei suoi modelli.

  • 00:55:00 Jason Bailey discute l'impatto dell'IA sulla creatività, sottolineando la necessità di addestrare dati che includano tutte le prospettive. Discute anche le potenziali conseguenze degli algoritmi AI distorti. Infine, esorta gli artisti a essere consapevoli dei pregiudizi insiti nell'arte basata sui dati.
MIT 6.S192 - Lecture 12: "AI+Creativity, an Art Nerd's Perspective" by Jason Bailey
MIT 6.S192 - Lecture 12: "AI+Creativity, an Art Nerd's Perspective" by Jason Bailey
  • 2021.01.28
  • www.youtube.com
Jason Bailey, Founder at Artnome.comMore about the course: http://deepcreativity.csail.mit.edu/Information about accessibility can be found at https://access...
 

MIT 6.S192 - Lecture 13: "Surfaces, Objects, Procedures: Integrating Learning and Graphics for 3D Scene Understanding" di Jiajun Wu



MIT 6.S192 - Lecture 13: "Surfaces, Objects, Procedures: Integrating Learning and Graphics for 3D Scene Understanding" di Jiajun Wu

Jiajun Wu, un assistente professore a Stanford, discute la sua ricerca sulla comprensione della scena nelle macchine attraverso l'integrazione dell'apprendimento profondo e della conoscenza del dominio dalla computer grafica. Wu propone un approccio in due fasi per recuperare la geometria di un oggetto 3D da una singola immagine stimando la superficie visibile attraverso la mappa di profondità e completando la forma sulla base di conoscenze precedenti da un ampio set di dati di altre forme simili. Wu propone inoltre di utilizzare le mappe sferiche come rappresentazione surrogata delle superfici in 3D per acquisire meglio le caratteristiche della superficie, consentendo al sistema di completare le forme in un output più dettagliato e uniforme. Inoltre, Wu discute di come la ricostruzione di forme in programmi di forma possa migliorare significativamente la modellazione e la ricostruzione, in particolare per oggetti astratti e creati dall'uomo. Infine, Wu discute di come la conoscenza del dominio della computer grafica possa essere integrata con l'apprendimento automatico per migliorare la ricostruzione della forma, la sintesi della trama e la comprensione della scena.

  • 00:00:00 In questa sezione del video, Jiajun Wu, un assistente professore a Stanford, discute la sua ricerca sulla comprensione della scena nelle macchine attraverso l'integrazione dell'apprendimento profondo e della conoscenza del dominio dalla computer grafica. Replicando la cognizione umana, il suo obiettivo è costruire macchine che abbiano una comprensione completa delle scene, comprese le categorie di oggetti, la geometria 3D, le proprietà fisiche e le previsioni future. La ricerca di Wu mira anche a colmare il divario tra machine learning e arte creando un modello ibrido che integri la conoscenza del dominio dalla computer grafica con il deep learning. Questo approccio consente nuove possibilità nell'editing e nella generazione di immagini, nonché creatività nell'applicazione del deep learning.

  • 00:05:00 In questa sezione della conferenza, Jiajun Wu discute il problema di recuperare la geometria di un oggetto 3D da una singola immagine, che può essere visto come l'inverso del problema classico nella computer grafica di generare un'immagine 2D da una forma 3D , trama, illuminazione, materiale e punto di vista. Mentre una rete neurale può essere addestrata per eseguire l'attività, Wu suggerisce che l'integrazione delle conoscenze precedenti dalla computer grafica potrebbe migliorare le prestazioni, l'efficienza e la generalizzabilità. Propone un approccio in due fasi per risolvere il problema: in primo luogo, stimare la superficie visibile attraverso la mappa di profondità, e in secondo luogo, completare la forma sulla base di conoscenze precedenti da un ampio set di dati di altre forme simili.

  • 00:10:00 In questa sezione, Jiajun Wu discute l'importanza di utilizzare la profondità come rappresentazione intermedia per catturare le superfici degli oggetti ei dettagli nelle forme. Addestrando un modello sul set di dati ShapeNet e campionando casualmente le forme da esso, Wu dimostra che questo approccio migliora notevolmente la precisione dell'output. Tuttavia, riconosce che la generalizzazione a oggetti che il modello non ha mai visto prima può essere una sfida, portando a interpretazioni errate dei dati. Per risolvere questo problema, Wu propone di costruire uno strato differenziale che proietti una rappresentazione 2D in una rappresentazione 3D, consentendo al sistema di determinare un processo deterministico e completamente differenziabile per completare le forme.

  • 00:15:00 In questa sezione, il relatore discute i limiti dell'utilizzo di una superficie parziale per gli oggetti in 3D, in particolare che molte aree dello spazio 3D sono vuote, il che rende difficile per la rete di completamento catturare le caratteristiche della superficie. Per risolvere questo problema, il relatore propone di utilizzare mappe sferiche come rappresentazione surrogata per le superfici in 3D, dove ogni pixel corrisponde a un punto sulla superficie e nessuna rappresentazione viene sprecata. La pipeline prende una profondità stimata e la proietta in una mappa sferica parziale, che può quindi essere completata utilizzando una rete di completamento in uno spazio mappa sferico. Questo nuovo metodo si traduce in un output molto più fluido e dettagliato ed è generalizzabile a categorie di oggetti che non sono state visualizzate durante l'addestramento.

  • 00:20:00 In questa sezione, Jiajun Wu discute di come le rappresentazioni intermedie e la retroproiezione possano aiutare a costruire un migliore sistema di ricostruzione della forma che sia più generalizzabile. Utilizzando esempi di test su esseri umani e cavalli, Wu osserva che il sistema è in grado di ricostruire oggetti in modo relativamente ragionevole da un'unica vista, senza vedere in precedenza oggetti deformabili, indicando che il sistema può essere utilizzato per costruire sistemi di visione migliori. Wu spiega anche come le rappresentazioni intermedie delle superfici e la proiezione in avanti possano aiutare a migliorare il rendering, consentendo la sintesi di nuove forme e trame di oggetti con un maggiore controllo sui fattori indipendenti.

  • 00:25:00 In questa sezione, Jiajun Wu discute il processo di combinazione delle tecniche precedenti per estenderle alle scene. In primo luogo, utilizza sistemi di inversione per ottenere rappresentazioni della geometria, della posa e delle trame degli oggetti, comprese rappresentazioni latenti per segmenti di sfondo non simili a oggetti come alberi o cielo. Quindi, modifica queste rappresentazioni per vedere come i diversi cambiamenti nella scena, come avvicinare un'auto o cambiarne la trama, influenzino l'immagine complessiva. Wu sottolinea l'importanza di comprendere che gli oggetti hanno una geometria 3D, in quanto ciò consente al metodo di produrre risultati completi e accurati. Infine, discute la sfida dell'astrazione della forma durante la ricostruzione di oggetti creati dall'uomo come i tavoli e di come l'incorporazione di rappresentazioni astratte e simili a programmi possa portare a risultati migliori.

  • 00:30:00 In questa sezione, Wu spiega come la ricostruzione delle forme in programmi di forma può migliorare significativamente la modellazione e la ricostruzione, in particolare per oggetti come i mobili. Inoltre, spiega come le strutture procedurali come la replica e la simmetria possono essere sfruttate per la creazione di contenuti, ad esempio attraverso un algoritmo che può guidare la proiezione 3D per la progettazione degli edifici. Per collegare immagini grezze 2D e spazio 3D, il team di Wu è stato ispirato da una ricerca stocastica per rilevare primitive come linee e triangoli nei dati visivi e ora sta tentando di sintetizzare forme di primitive 3D per guidare il rilevamento delle immagini.

  • 00:35:00 In questa sezione, Jiajun Wu discute di come l'apprendimento interno può essere utilizzato per apprendere tutto da una singola immagine dalle statistiche dell'immagine, osservando che all'interno di una singola immagine le patch possono ripetersi e questa ripetizione può avvenire su scale diverse. Utilizzando le attivazioni neuronali per identificare oggetti ripetuti in una singola immagine, le primitive trovate possono essere linee, rettangoli, sfere o cilindri e le reti neurali possono apprendere caratteristiche per identificare e sintetizzare programmi sopra i centroidi di questi oggetti ripetuti. Questo può aiutare a risolvere una serie di problemi, come il completamento o l'estrapolazione dell'immagine e l'editing di regolarità per rendere le scene più irregolari.

  • 00:40:00 In questa sezione, il relatore discute su come applicare il proprio programma alle immagini 3D, che è più complesso di un singolo piano. Il problema qui è suddividere l'immagine in più piani tenendo conto dell'orientamento e dei livelli di superficie di ciascun piano. L'oratore suggerisce di utilizzare segnali visivi, come punti di fuga e wireframe, per affrontare questo problema. Tuttavia, le feature wireframe possono essere rumorose e potrebbero esserci più possibili partizioni del piano candidato. Utilizzando la conoscenza top-down del loro programma, possono rettificare i piani candidati in immagini 2D ed eseguire la sintesi del programma per trovare la partizione corretta dell'immagine. Ciò può aiutarli a trovare i migliori risultati di operazioni congiunte e sintesi di immagini, che i metodi tradizionali non possono ottenere.

  • 00:45:00 In questa sezione, Jiajun Wu ha discusso di come la conoscenza del dominio della computer grafica può essere integrata con l'apprendimento automatico per migliorare la ricostruzione della forma, la sintesi della trama e la comprensione della scena. Wu ha sottolineato che la comprensione delle scene si basa sulla struttura causale minima ma universale dietro i dati visivi: oggetti, superfici, proiezioni e occlusioni. Integrando l'apprendimento e l'apprendimento automatico, Wu ritiene che esista un potenziale maggiore nella creazione di modelli 3D più avanzati che vadano oltre le tradizionali immagini 2D. Sebbene Wu e il suo team non abbiano approfondito la stampa 3D, sono interessati alla modellazione di forme 3D e alla possibilità di utilizzare procedure dedotte dietro quei modelli.
MIT 6.S192 - Lecture 13: "Surfaces, Objects, Procedures ..." by Jiajun Wu
MIT 6.S192 - Lecture 13: "Surfaces, Objects, Procedures ..." by Jiajun Wu
  • 2021.01.28
  • www.youtube.com
Talk: "Surfaces, Objects, Procedures: Integrating Learning and Graphics for 3D Scene Understanding" Jiajun Wu, Assistant Professor, Stanford Universityhttps:...
 

MIT 6.S192 - Lezione 14: "Verso la creazione di motori di innovazione aperti e infinitamente creativi" di Jeff Clune



MIT 6.S192 - Lezione 14: "Verso la creazione di motori di innovazione aperti e infinitamente creativi" di Jeff Clune

Jeff Clune, ricercatore presso OpenAI, discute il suo lavoro sulla creazione di motori di innovazione aperti e infinitamente creativi in questa conferenza del MIT. Cerca di creare algoritmi in grado di eseguire l'evoluzione naturale e la ricetta della cultura umana di iniziare con un insieme di cose, generare cose nuove, valutare per mantenere ciò che è interessante e modificarlo per mantenere la novità interessante. Clune esplora l'uso delle reti neurali per riconoscere cose nuove, parla dell'algoritmo Map Elites e introduce le reti di produzione di pattern compositivi per la codifica. Mostra come questi strumenti possono essere combinati per generare immagini complesse e diverse, risolvere problemi difficili e creare algoritmi aperti che possono costantemente innovare le loro soluzioni alle sfide.

  • 00:00:00 In questa sezione, Jeff Clune, professore associato di informatica presso l'Università della British Columbia e leader del gruppo di ricerca presso OpenAI, discute la sua ricerca sulla creazione di motori di innovazione aperti e infinitamente creativi. Riflette sul suo viaggio personale, iniziando dalla filosofia e poi spostandosi verso la costruzione di sistemi computazionali per affrontare la grande sfida dell'IA. Clune è interessato alla creazione di algoritmi aperti, che si innovano all'infinito e si vedono nelle infinite creazioni della natura, come i complessi progetti ingegneristici di giaguari e falchi.

  • 00:05:00 In questa sezione, il relatore discute il concetto di motori dell'innovazione che definisce come la ricetta seguita sia dall'evoluzione naturale che dalla cultura umana che consente loro di essere creativi. Questa ricetta prevede di iniziare con un insieme di cose, generare qualcosa di nuovo, valutare se è interessante e conservare e modificare i risultati interessanti. Il relatore mira a creare un algoritmo in grado di eseguire questo processo automaticamente senza intervento umano a lungo termine. Tuttavia, la sfida più grande è evitare di generare novità poco interessanti e generare solo novità interessanti. Il relatore suggerisce di utilizzare le reti neurali per riconoscere un gran numero di classi per riconoscere nuovi tipi di cose e produrre risultati interessanti.

  • 00:10:00 In questa sezione, Jeff Clune discute un algoritmo chiamato Map Elites e il suo posto nel campo della ricerca algoritmica. Spiega che molti problemi difficili richiedono l'esplorazione e la scoperta di cose nuove piuttosto che solo l'ottimizzazione per un obiettivo, e che questo dovrebbe riflettersi negli algoritmi. Clune e i suoi colleghi hanno lavorato a un nuovo sottocampo chiamato Quality Diversity Algorithms, che mira a trovare un insieme ampio e diversificato di soluzioni che siano tutte le migliori possibili per quel tipo di soluzione. L'algoritmo cerca di passare da un obiettivo all'altro quando fa progressi su un'altra attività, credendo che questo possa essere l'unico modo per risolvere problemi davvero difficili.

  • 00:15:00 In questa sezione, Jeff Clune, un ricercatore che lavora sull'intersezione tra biologia e intelligenza artificiale, descrive l'algoritmo Map Elites, che viene utilizzato per ottimizzare le soluzioni secondo alcuni criteri. Clune spiega che lui ei suoi colleghi hanno applicato Map Elites a un problema di robotica, generando morfologie di robot morbidi con un algoritmo genetico, risultando in una vasta gamma di creature. Tuttavia, il team non era soddisfatto perché si è reso conto che ogni creatura era quasi identica e l'algoritmo ha prodotto solo una diversità di design avviando una nuova ricerca. Per rimediare a questo, Clune ha applicato l'algoritmo Map Elites allo stesso problema, questa volta scegliendo il numero di voxel e la quantità di un particolare materiale come dimensioni di interesse, invece di utilizzare l'algoritmo di ottimizzazione canonico. Ha scoperto che l'algoritmo ha esplorato uno spazio di possibilità molto più ampio e alla fine ha prodotto risultati molto migliori. Inoltre, Clune ha descritto come la codifica che usano, chiamata Compositional Pattern-Producing Network (CPPN), sia fondamentale per risolvere il problema su cui stavano lavorando in una sezione successiva.

  • 00:20:00 In questa sezione della conferenza, Jeff Clune discute la scelta della codifica nell'apprendimento profondo e negli algoritmi evolutivi. Nella codifica diretta, ogni singola caratteristica nell'artefatto finale è rappresentata da un numero sul vettore dei parametri, mentre nella codifica generativa, le informazioni nel vettore dei parametri vengono riutilizzate per produrre il prodotto finale, risultando in prodotti più regolari o modellati. La natura utilizza la codifica generativa utilizzando modelli geometrici per determinare il destino cellulare, che è il tipo di cellula che ogni cellula diventa, in base alla posizione della cellula nel corpo. Questo approccio è visto come una lingua franca nella biologia dello sviluppo, in cui i modelli preesistenti vengono combinati per creare nuovi modelli nel prodotto finale.

  • 00:25:00 In questa sezione, Jeff Clune, un ricercatore di OpenAI, discute su come utilizzare in modo efficiente il potere della biologia dello sviluppo per realizzare sistemi di intelligenza artificiale aperti. Suggerisce l'uso di Compositional Pattern Producing Networks (CPPN), che astraggono gran parte del potere dei sistemi naturali senza nessuna delle sostanze chimiche sottostanti, per codificare le posizioni geometriche in funzione degli elementi fenotipici. Fornendo le coordinate a un artefatto per ottimizzare gli elementi fenotipici, come una rete neurale o la morfologia di un robot, i CPPN possono produrre una complessità arbitraria mescolando e abbinando temi asimmetrici, simmetrici e ripetuti. Clune e il suo team hanno messo questa idea in tre dimensioni, costruendo un sito web chiamato infiniteforms.com, dove gli utenti possono raccogliere le reciproche forme evolute per produrre un archivio crescente di trampolini di lancio.

  • 00:30:00 In questa sezione della conferenza, Jeff Clune parla dell'utilizzo dei CPPN per automatizzare la progettazione e la stampa 3D di immagini complesse arbitrarie, dimostrando la potenza di questi strumenti per eliminare le barriere tecniche e generare facilmente progetti creativi. Quindi applica i CPPN al compito di creare un algoritmo aperto e li ottimizza per classificare ciascuno dei mille bin in ImageNet. Clune descrive come è stata testata l'ipotesi di prestazioni migliori, risultando in immagini che spesso assomigliavano alla categoria a cui erano associate o evocavano un'interpretazione artistica del concetto. Nonostante abbia generato alcune "immagini ingannevoli", questo processo di generazione ha permesso al team di esplorare uno spazio estetico completamente nuovo, dimostrando al contempo i difetti insiti nelle reti neurali profonde che hanno portato a immagini contraddittorie.

  • 00:35:00 In questa sezione, Jeff Clune discute le qualità dell'algoritmo di diversità che lui e il suo team hanno sviluppato, che è in grado di generare immagini diverse di alta qualità. L'algoritmo produce una serie diversificata di immagini, alcune delle quali sono esteticamente interessanti e possono essere utilizzate per scopi pratici come loghi aziendali. Spiega anche come la capacità di cambio obiettivo dell'algoritmo consenta il verificarsi di radiazioni adattative, in modo simile a quanto accade in biologia e campi tecnologici. Fornisce informazioni sui processi evolutivi che avvengono all'interno dell'algoritmo, mostrando grafici e alberi filogenetici che dimostrano la nascita e l'evoluzione di idee innovative. Inoltre, condivide il fatto che l'algoritmo e i suoi risultati hanno superato il test artistico di Turing, essendo stati scambiati per arte creata dagli umani piuttosto che dall'intelligenza artificiale.

  • 00:40:00 In questa sezione, Jeff Clune introduce l'idea degli algoritmi di diversità di qualità (QD), che possono produrre soluzioni diverse che funzionano bene e hanno la capacità di cambiare obiettivo. Discute del loro utilizzo per risolvere sfide, come robot che possono adattarsi ai danni ed esplorare difficili sfide di esplorazione come Montezuma's Revenge e Pitfall. Osserva che mentre gli algoritmi QD hanno il potenziale per innovare, non sono ancora aperti e sono vincolati dall'ambiente. Jeff Clune propone quindi l'idea di creare algoritmi aperti, come l'algoritmo Paired Open-Ended Trailblazer (POET), che può generare all'infinito ambienti di apprendimento interessanti, complessi e diversificati e le loro soluzioni. L'algoritmo POET è progettato per generare nuovi ambienti di apprendimento che non sono troppo facili, né troppo difficili per l'attuale popolazione di agenti, ottimizzando gli agenti per risolvere meglio ciascuna delle sfide e consentendo il passaggio degli obiettivi da uno all'altro.

  • 00:45:00 In questa sezione, Jeff Clune discute il concetto di "cambio di obiettivo" - la capacità di un sistema di competere in un ambiente, progredire e poi passare a un altro ambiente. Mostra un algoritmo RL che attraversa terreni che creano automaticamente ambienti sempre più difficili. Clune spiega che questo è un modo per misurare i progressi e superare gli ottimi locali. Presenta l'algoritmo del "poeta" e mostra come sia l'unico modo per risolvere problemi difficili. Dimostra che la poesia è essenziale per superare gli ottimi locali, come si vede in un compito in cui un robot appena ottimizzato invade un vecchio ambiente, sostituendo la precedente incarnazione. Clune osserva che questo tipo di innovazione complessa potrebbe aprire la strada a simulazioni più avanzate.

  • 00:50:00 In questa sezione della conferenza, Jeff Clune discute il potenziale di combinare l'ottimizzazione del corpo con la generazione dell'ambiente per creare creature ottimizzate per ambienti particolari nello stesso modo in cui lo sono i ragni delle caverne. Suggerisce anche di abbinare motori di innovazione come Dali con algoritmi che inventano la sfida e la soluzione, quindi rilevano ciò che è interessante di nuovo nelle immagini, nei video, nella musica o nella poesia prodotta. Clune afferma che il suo gruppo di ricerca ha anche esplorato le neuroscienze, un campo che studia quanto le reti neurali profonde comprendono le immagini che classificano. Lo hanno fatto sintetizzando immagini che attivano al massimo particolari neuroni e sono stati in grado di esplorare l'idea di una stella marina a cinque zampe nella rete.

  • 00:55:00 In questa sezione della conferenza, Jeff Clune discute l'evoluzione della generazione di immagini di deep learning dall'aggiunta di vincoli alla generazione di immagini naturali all'utilizzo del deep learning per apprendere i precedenti delle immagini naturali. Con lievi modifiche agli algoritmi, da ciascun generatore vengono prodotti stili artistici estremamente diversi. Le reti neurali capiscono cosa significa ogni oggetto in uno spazio particolare, come lo spazio delle immagini naturali, e possono produrre immagini di una qualità fotorealistica superiore. Tuttavia, in questi spazi di immagini naturali si genera poca diversità. Per superare questo problema, sono state introdotte reti generative plug-and-play che producono una gamma molto più ampia di immagini diverse rispetto a quanto visto in precedenza nel deep learning.

  • 01:00:00 In questa sezione della conferenza, Jeff Clune discute i progressi compiuti nelle neuroscienze dell'IA e la creazione di processi creativi aperti. Sottolinea come l'IA può riconoscere e apprendere concetti nel nostro mondo, come vulcani o un tosaerba, ma è suscettibile di produrre e riconoscere immagini contraddittorie. Clune consiglia il lavoro di Chris Ola e parla del lavoro del suo team nell'esplorare diverse modalità, come il discorso e il video. Condivide anche il suo entusiasmo per i progressi compiuti e il potenziale futuro nel campo, inclusa la generazione di immagini sintetiche che attivano i neuroni all'interno di un vero cervello di scimmia. Clune suggerisce che la scienza spesso produce artefatti estetici e come i moderni strumenti di apprendimento automatico consentano la fusione di arte e scienza. Infine, consiglia di leggere le opere di Ken Stanley e Joel Lehman per gli studenti interessati a unirsi alla missione di creare processi aperti e infinitamente creativi.

  • 01:05:00 In questa sezione, Jeff Clune spiega che gli algoritmi aperti hanno il potenziale per supportare i progressi nell'intelligenza artificiale generale. Raccomanda di leggere il suo documento AI Generating Algorithms, che esplora come questi algoritmi potrebbero essere il percorso per produrre AI generale. Jeff incoraggia inoltre i ricercatori ad applicare queste idee in vari domini e a utilizzare strumenti come GPT-3 o Dolly per farlo. Suggerisce che l'esplorazione della frutta bassa in diverse aree, come la poesia o l'architettura, potrebbe portare a progressi entusiasmanti. Jeff risponde anche alla domanda di Joseph sull'utilizzo dell'algoritmo Poet in un ambiente multi-agente e discute le sfide che sorgono, come la difficoltà nel misurare le prestazioni dell'agente in un tale ambiente.
MIT 6.S192 - Lecture 14: "Towards Creating Endlessly Creative Open-Ended ..." by Jeff Clune
MIT 6.S192 - Lecture 14: "Towards Creating Endlessly Creative Open-Ended ..." by Jeff Clune
  • 2021.01.30
  • www.youtube.com
Towards Creating Endlessly Creative Open-Ended Innovation EnginesJeff CluneAssociate Professor, Computer Science, University of British Columbia, and Researc...
 

MIT 6.S192 - Conferenza 15: "Creative-Networks" di Joel Simon



MIT 6.S192 - Conferenza 15: "Creative-Networks" di Joel Simon

In questa conferenza, Joel Simon esplora le sue ispirazioni e i suoi approcci verso reti creative che attingono dagli ecosistemi naturali. Dimostra il potenziale delle capacità computazionali nel processo creativo, descrivendo come tecniche come l'ottimizzazione della topologia, i morfogeni e gli algoritmi evolutivi possono consentire l'emergere di forme e trame incredibili. Simon condivide anche i dettagli sul suo progetto GANBreeder, uno strumento online per scoprire e mutare le immagini utilizzando un CPPN e un GAN, e discute il potenziale dei sistemi di raccomandazione incrociata nel processo creativo. Simon è ottimista riguardo al futuro della tecnologia e della creatività, credendo che gli esseri umani possano collaborare e ottimizzare le funzioni degli edifici e creare qualcosa di più grande.

  • 00:00:00 In questa sezione, Joel Simon spiega il suo background e le sue ispirazioni per il suo lavoro creativo in rete. Sottolinea la critica di Brian Eno sulla nozione di geni solitari e descrive come la creatività possa essere quantificata come un prodotto emergente di varie forze che lavorano insieme. Simon parla anche del suo viaggio verso la scultura, che lo ha portato a imparare ed esplorare modi computazionali di creare, sottolineando la differenza tra l'essere digitale e l'essere computazionale.

  • 00:05:00 In questa sezione, Joel Simon descrive la sua ispirazione per il suo lavoro nella progettazione computazionale e nell'ottimizzazione della topologia, che ha scoperto durante gli anni del college. Affascinato dalla capacità dell'ottimizzazione della topologia di produrre nuove forme che non avrebbero mai potuto essere create in senso tradizionale, Simon ha cercato di esplorarne ulteriormente il potenziale. Tuttavia, si è reso conto di dover andare oltre le semplici tecniche di ottimizzazione e incorporare elementi di natura reale, come l'adattività e l'ambiente, che potrebbero consentire a un edificio di crescere come un albero, portandolo a condurre esperimenti sull'architettura generativa. Il suo lavoro non si basava solo sulla progettazione architettonica, ma utilizzava anche metodi di simulazione grafica e creature virtuali evolute come ispirazione per una maggiore complessità e innovazione nella progettazione computazionale.

  • 00:10:00 In questa sezione, il relatore discute l'uso delle informazioni sui modelli e dei morfogeni nel processo di crescita, in particolare per quanto riguarda la diffusione della reazione. Spiega che questi modelli possono essere utilizzati nell'arte per produrre texture e discute i CPPN di Jeff, che vengono utilizzati per mappare una rete semplice dalla posizione al colore e convertirla in un'immagine. Per portare avanti queste idee di crescita, il relatore ha creato il progetto "Evolving Alien Corals", che utilizza morfogeni attraverso i vertici di una mesh 3D per controllare la direzione che i vertici si muovono ed emettono. Ciò ha consentito effetti di composizione che hanno dato origine a forme incredibili. I colori dei coralli sono i morfogeni che vengono ottimizzati e non solo generando graziosi motivi. Questo progetto mostra anche l'idea di poter scolpire con forze o obiettivi per guidare le forme, dove la forma segue la funzione fitness. Il relatore accenna anche brevemente all'idea di ecosistemi e all'ipotesi di disturbo intermedio, in cui la diversità ottimale viene raggiunta con una quantità di disturbo nel mezzo.

  • 00:15:00 In questa sezione, Joel Simon discute il suo fascino per le reti creative che attingono dagli ecosistemi naturali ed esplora come questi paesaggi favoriscono la scultura e la manipolazione di modelli. Pone la questione di come sarebbe assistere al collasso ecologico o di come disturbi come specie invasive o la fusione di diverse isole insieme influenzerebbero l'ecosistema. Simon è stato ispirato dal cuneiforme e dall'idea della calligrafia come soluzione per un problema multi-obiettivo. Per sperimentare metodi diversi, Simon ha creato un'architettura neurale personalizzata che ha generato il riconoscimento di modelli per la comunicazione attraverso un mezzo rumoroso, con ogni forma riconoscibile e reciprocamente distintiva, che ha portato all'emergere di linguaggi diversi. Successivamente, ha modificato questo sistema in modo che fosse sia cooperativo che contraddittorio, producendo set calligrafici unici che si assomigliano ma rimangono funzionali in modo diverso.

  • 00:20:00 In questa sezione, Joel Simon discute alcuni dei suoi progetti di arte generativa che sono stati ispirati da varie fonti come gli autoritratti di Matisse e il gioco della vita di Conways. Ha creato ritratti utilizzando algoritmi genetici ed esplorato il concetto di un'architettura generativa per la vita artificiale. Simon parla anche di come è stato ispirato dal progetto pick breeder, che prevedeva l'utilizzo di una rete neurale per generare immagini di creature che vengono poi allevate in modo selettivo per creare design nuovi e interessanti.

  • 00:25:00 In questa sezione, il relatore discute la sua ispirazione per la creazione di GANBreeder, uno strumento online per scoprire e mutare le immagini utilizzando un CPPN e un GAN. È stato ispirato dall'idea che la grandezza non può essere pianificata e incuriosito dall'innato senso di interesse per gli esseri umani che potrebbe aiutare ad aumentare gli algoritmi utilizzati in questo strumento. Approfondisce i GAN e riconosce che i vettori latenti dei GAN hanno la proprietà necessaria per essere utilizzati per il crossover, il che consente alle immagini dei bambini di assomigliare a entrambi i genitori. L'oratore parla dei diversi tipi di creatività e afferma che il suo strumento era una cosa combinatoria in cui ha combinato BigGAN con Picbreeder per creare GANBreeder. Discute anche i tre modi in cui GANBreeder consente agli utenti di creare immagini, vale a dire, ottenere bambini casuali, mescolare due immagini insieme e modificare i geni di un'immagine.

  • 00:30:00 In questa sezione della conferenza, Joel Simon discute il processo creativo in termini di fasi esplorative che vanno dall'essere aperte all'intenzionale con un gradiente intermedio. Vengono menzionati parallelismi biologici, come la riproduzione asessuata, la riproduzione sessuata e la nitidezza, come modi diversi di creare e creare immagini. Simon fornisce quindi un esempio di un'immagine che ha realizzato, insieme ai geni che la compongono, sottolineando l'importanza dell'esplorazione interattiva e collaborativa, poiché gli esseri umani non possono pensare in 128 dimensioni. Simon conclude con l'idea che ArtBreeder possa essere utilizzato come strumento per trovare idee e ispirazione e menziona una funzionalità recente che consente agli utenti di creare i propri geni, rilevanti per coloro che sono interessati all'apprendimento automatico.

  • 00:35:00 In questa sezione, Simon descrive come il suo progetto, Ganbreeder, tragga vantaggio dall'ecosistema crowdsource di tagging delle immagini. Raccogliendo campioni di una proprietà sottile nelle immagini, gli utenti possono trasformarla in uno strumento o filtro che consente di creare geni più potenti. Il progetto è iniziato come una semplice griglia di immagini con un suggerimento su quale immagine fosse più interessante. Tuttavia, gli utenti hanno utilizzato Ganbreeder in modi inaspettati, come caricare foto per colorare personaggi storici, realizzare abiti o persino dipingere sui personaggi. Simon sottolinea che l'esperimento era in realtà l'interfaccia, non il gan, poiché i due dovevano davvero andare insieme per farlo funzionare.

  • 00:40:00 In questa sezione del video, Joel Simon discute il potenziale potenziale della creazione di uno strumento di sistema di raccomandazione incrociata che utilizza dimensioni latenti di variazione non attualmente utilizzate nei motori di raccomandazione esistenti. Usa l'esempio di non essere in grado di determinare se i testi sono presenti o meno nelle canzoni quando sta lavorando, suggerendo che se i motori di raccomandazione potessero aiutare gli utenti come lui a creare uno strumento che consideri queste dimensioni di variazione, potrebbero fornire raccomandazioni molto più forti. . Simon esplora anche l'idea di proprietà e collaborazione negli strumenti creativi, descrivendo una mostra d'arte interattiva da lui curata in cui nessuno "possedeva" l'arte perché era stata creata in collaborazione da molte persone.

  • 00:45:00 In questa sezione, Joel Simon discute i limiti del pensiero umano in contrasto con il potenziale delle abilità computazionali nel processo creativo. Gli esseri umani hanno alcuni pregiudizi nel nostro pensiero, incluso il pensare in chiare gerarchie, avere routine e non pensare in complesse sovrapposizioni. Simon discute di come facilitare la collaborazione, l'esplorazione, consentire nuovi mezzi e metafore possa portare a nuovi processi creativi. I dialoghi tra un direttore creativo e un artista sono essenziali in questo processo, con il regista che guida la creatività dell'artista. Simon è ottimista riguardo al futuro dell'informatica e della creatività e crede che l'uso dello strumento per creare nuove opere d'arte da condividere con altre persone sarà guidato dalle persone piuttosto che essere un sostituto di artisti e creativi.

  • 00:50:00 In questa sezione, Joel Simon discute la creatività e l'idea sbagliata che i progressi tecnologici sostituiranno gli artisti. Crede che tali progressi rendano solo l'espressione creativa più accessibile a tutti e afferma che la creatività è un bisogno umano innato e fine a se stesso. Simon conclude proponendo un concetto di design morfogenico che adatta il processo naturale di allevamento e utilizza la biomimetica per creare processi collaborativi per progettare oltre le capacità cognitive umane. Sottolinea che gli esseri umani fanno parte di un tessuto connettivo creativo più ampio e l'ispirazione per i progetti viene raccolta da questo sistema più ampio.

  • 00:55:00 In questa sezione, Joel Simon parla della sua visione ottimistica del futuro della tecnologia nella costruzione di un ecosistema di edifici reciprocamente armoniosi come un ecosistema complesso. Crede che con nuove metafore e tecniche, le persone possano collaborare e ottimizzare le funzioni di questi edifici in modi che vanno oltre la comprensione. Sebbene la tecnologia abbia i suoi pro e contro, la visione positiva di Simon sul dialogo tra macchine e umani fornisce informazioni su un futuro in cui la tecnologia può riunire le persone per creare qualcosa di più grande.
MIT 6.S192 - Lecture 15: "Creative-Networks" by Joel Simon
MIT 6.S192 - Lecture 15: "Creative-Networks" by Joel Simon
  • 2021.01.30
  • www.youtube.com
Joel Simon is an artist, researcher and toolmaker inspired by the systems of biology and creativityhttps://www.joelsimon.net/More about the course: http://de...
 

MIT 6.S192 - Conferenza 16: "Percezione visiva umana dell'arte come calcolo" Aaron Hertzmann



MIT 6.S192 - Lez. 16: "Percezione visiva umana dell'arte come calcolo" Aaron Hertzmann

La conferenza esplora l'ambiguità percettiva e l'indeterminatezza nell'arte e l'uso di reti generative avversarie (GAN) nella creazione di immagini ambigue. Discute l'impatto della durata della visione sulla percezione e la relazione tra l'entropia dell'immagine e le preferenze umane. Il docente suggerisce una teoria evolutiva dell'arte, dove l'arte è creata da agenti capaci di relazioni sociali. Viene discusso anche l'uso dell'intelligenza artificiale nell'arte, con la conclusione che mentre gli algoritmi possono essere strumenti utili, non possono sostituire gli artisti umani. La conferenza si conclude con alcune osservazioni su concetti come il valore.

  • 00:00:00 In questa sezione, il relatore discute l'ambiguità percettiva e l'indeterminatezza, che sono temi importanti nell'arte moderna. Spiega che le immagini con varie interpretazioni possono far cambiare la durata della visione e possono spostarsi avanti e indietro tra diverse percezioni, influenzando le scelte che gli individui fanno. L'indeterminatezza visiva è un termine usato per descrivere immagini che sembrano fornire una semplice interpretazione coerente ma non riescono a risolversi in una forma coerente, e questo tema è diventato popolare nell'era moderna, specialmente con il cubismo. La letteratura psicologica ha discusso e studiato l'ambiguità percettiva e i modi per descrivere questo spazio di ambiguità, ma c'è stata difficoltà nel trovare stimoli comparabili e misurare l'ambiguità fino all'emergere di avversari generativi negli ultimi anni.

  • 00:05:00 In questa sezione, il relatore discute l'uso dei GAN nella creazione di arte e la naturale ambiguità visiva che questi tipi di immagini possono esibire. Il team ha utilizzato queste immagini in uno studio in cui ai partecipanti è stata mostrata un'immagine per un breve periodo di tempo e gli è stato chiesto di descriverla. I risultati hanno dimostrato che le immagini con livelli più elevati di incertezza percettiva e ambiguità hanno prodotto una gamma più ampia di descrizioni da parte dei partecipanti. Inoltre, la durata del periodo di visione ha avuto un impatto sul numero e sulla varietà di parole utilizzate per descrivere un'immagine, con i partecipanti che convergevano verso interpretazioni più coerenti con un'esposizione più lunga.

  • 00:10:00 In questa sezione, il docente discute la relazione tra l'entropia dell'immagine e le preferenze umane per le immagini ambigue. Il team ha scoperto che esistono due categorie di utenti, con una che preferisce immagini a bassa entropia e un'altra che preferisce immagini ad alta entropia. Tuttavia, raggruppare gli utenti in queste categorie ha avuto successo solo nel prevedere le preferenze per determinati tipi di immagini e richiede un'elaborazione del linguaggio più naturale per estrarre le informazioni corrette. Andando avanti, vengono esplorate la definizione di arte e se i computer possono creare arte. L'attuale definizione di arte risulta inadeguata in quanto non generalizza per considerare nuove forme d'arte, come quelle che possono essere create dagli alieni. Invece, l'oratore suggerisce una teoria evolutiva dell'arte, per cui l'arte è creata da agenti capaci di relazioni sociali e, come tale, attività sociale. Ciò porta alla conclusione che i computer possono essere artisti, ma questo dialogo è fuorviante in quanto potrebbe fornire ai non esperti una comprensione errata.

  • 00:15:00 In questa sezione, il relatore discute l'uso delle idee del computer per comprendere la percezione umana dell'arte e come l'arte è fatta. Sostiene che i computer non possono essere artisti finché non possiedono una personalità o una relazione sociale. Tuttavia, i computer sono potenti strumenti per la creatività artistica e forniscono nuovi strumenti per la creazione artistica. L'oratore confuta anche l'idea che l'arte dell'IA perderà il suo valore man mano che diventerà più accessibile, sottolineando che i migliori artisti dell'IA stanno sperimentando la codifica e selezionando attentamente i risultati.

  • 00:20:00 In questa sezione, Hertzmann discute l'uso dell'intelligenza artificiale (AI) nell'arte e si chiede se le macchine che possono generare arte basata sulle preferenze umane possano essere considerate artisti. Sostiene che gli attuali algoritmi di intelligenza artificiale stanno semplicemente seguendo le istruzioni e non possiedono la creatività di un artista umano. Tuttavia, è entusiasta del potenziale degli algoritmi per modellare il processo artistico e le preferenze, consentendo loro di essere strumenti utili nella creazione e nella cura dell'arte. In definitiva, Hertzmann non crede che gli algoritmi possano sostituire gli artisti umani, poiché l'arte è un prodotto della cultura e del tempo.

  • 00:25:00 In questa sezione vengono fatte alcune osservazioni conclusive dopo una discussione su concetti come il valore. Non vengono fornite informazioni significative su questi concetti o nuovi argomenti di discussione. L'oratore è ringraziato per un discorso illuminante e stimolante.
MIT 6.S192 - Lec. 16: "Human Visual Perception of Art ..." Aaron Hertzmann (see comments for part I)
MIT 6.S192 - Lec. 16: "Human Visual Perception of Art ..." Aaron Hertzmann (see comments for part I)
  • 2021.02.01
  • www.youtube.com
Human Visual Perception of Art as Computation, Part IIAaron HertzmannPrincipal Scientist, Adobehttps://research.adobe.com/person/aaron-hertzmann/Note we only...
 

MIT 6.S192 - Lecture 17: "Using AI in the service of graphic design" di Zoya Bylinskii



MIT 6.S192 - Lecture 17: "Using AI in the service of graphic design" di Zoya Bylinskii

Zoya Bylinskii, ricercatrice presso Adobe, esplora l'intersezione tra design grafico e intelligenza artificiale (AI) in questa conferenza. Bylinskii sottolinea che l'intelligenza artificiale ha lo scopo di assistere piuttosto che sostituire i progettisti automatizzando attività noiose e generando variazioni di progettazione. Bylinskii fornisce esempi di strumenti assistiti dall'intelligenza artificiale, inclusi strumenti di progettazione interattivi e ideazione di icone generate dall'intelligenza artificiale. Bylinskii discute anche delle sfide e del potenziale nell'applicazione dell'IA alla progettazione grafica, inclusa la necessità di pensiero creativo, curatela e collaborazione con professionisti di diversi settori. Consiglia ai candidati interessati all'intelligenza artificiale e all'apprendimento automatico per la progettazione grafica di mostrare l'esperienza del progetto e perseguire opportunità di ricerca.

  • 00:00:00 In questa sezione, Zoya Bylinskii, ricercatrice presso Adobe, spiega come l'intelligenza artificiale può essere utilizzata al servizio della progettazione grafica. Bylinskii parla dell'intersezione tra design grafico e intelligenza artificiale e di come diverse forme stilistiche di design grafico possono essere decostruite in moduli computazionali che possono essere appresi e automatizzati. Sottolinea che l'intelligenza artificiale non ha lo scopo di sostituire i progettisti, ma piuttosto di consentire ai progettisti con automazione per attività noiose e rapida esplorazione di generare automaticamente varianti di progettazione, mantenendo il progettista al centro del processo di progettazione e della cura. Bylinskii fornisce due esempi di questi obiettivi: ridimensionamento e layout di un design per diversi fattori di forma e proporzioni e scorrimento di molte possibili rappresentazioni visive durante la creazione di un'icona, un logo o una risorsa di design simile.

  • 00:05:00 In questa sezione, Zoya Bylinskii illustra come l'automazione della progettazione può aumentare la velocità del processo di progettazione riducendo al minimo la noia e facilitando un processo di iterazione più efficiente. Bylinskii prosegue spiegando come l'apprendimento automatico può prevedere l'importanza visiva nel design, creando una guida più efficace per i grafici imparando ciò che colpisce visivamente e attira l'attenzione in diversi progetti. Utilizzando uno strumento di annotazione, Bylinskii e i suoi colleghi hanno curato un set di dati di un migliaio di coppie di annotazioni immagine per addestrare il loro modello su questo concetto di importanza, che utilizzava moduli di classificazione per prevedere le regioni più salienti di un progetto al momento del test, guidando i progettisti su dove posizionare altri elementi di design.

  • 00:10:00 In questa sezione, Zoya Bylinskii discute due applicazioni per l'utilizzo dell'intelligenza artificiale (AI) nella progettazione grafica. La prima applicazione prevede uno strumento di progettazione interattivo che utilizza una piccola rete neurale per ricalcolare continuamente l'importanza prevista di vari elementi di progettazione in tempo reale. Lo strumento dispone anche di un istogramma e consente agli utenti di regolare il livello di importanza di ciascun elemento per manipolare il design. La seconda applicazione prevede l'ideazione della generazione di icone, in cui l'intelligenza artificiale viene utilizzata per creare nuove icone che corrispondono a concetti visivi comuni. Bylinskii spiega che entrambe queste applicazioni offrono nuove direzioni promettenti per l'utilizzo di modelli di importanza negli strumenti di progettazione grafica assistita dall'intelligenza artificiale.

  • 00:15:00 In questa sezione, il relatore spiega la sfida che i designer affrontano quando provano a creare una nuova iconografia per un concetto che non ha icone esistenti, come la consegna di sushi. Questo processo richiede lavoro manuale, ricerche di concetti correlati per l'ispirazione, nonché ricombinazione e modifica di icone esistenti. Per semplificare questo processo, il relatore introduce una nuova pipeline guidata dall'intelligenza artificiale per la generazione di icone composte. Questo sistema combina spazio, stile e semantica per generare icone composte stilisticamente compatibili e semanticamente rilevanti per il concetto interrogato. La pipeline guidata dall'intelligenza artificiale prevede la suddivisione della query in parole correlate, la ricerca di icone stilisticamente compatibili e la loro combinazione per trasmettere il messaggio desiderato.

  • 00:20:00 In questa sezione, Bylinskii discute un progetto chiamato Iconate, che utilizza l'intelligenza artificiale per suggerire combinazioni di icone e layout compatibili per la creazione di nuovi design. Il sistema apprende uno spazio di incorporamento per suggerire icone stilisticamente compatibili e un approccio basato su modelli per definire il layout delle icone costituenti. Iconate è stato addestrato utilizzando il set di dati CompyCon1k di 1.000 icone composte con singoli componenti annotati. Bylinskii spiega che il sistema consente agli utenti di creare icone composte molto più velocemente rispetto agli strumenti di progettazione autonomi e potrebbe essere utilizzato per generare rapidamente icone per qualsiasi concetto a cui un utente possa pensare. Evidenzia anche altri strumenti di progettazione basati sull'intelligenza artificiale, come la sintesi del logo e i sistemi di perfezionamento del layout, che mirano a facilitare il processo di progettazione anziché sostituire la creatività umana.

  • 00:25:00 In questa sezione, il relatore discute l'uso dell'intelligenza artificiale nella creazione di infografiche, inclusi testo, statistiche e piccole visualizzazioni. Nota inoltre che questo lavoro è distribuito in diverse comunità e conferenze e fornisce esempi di visione artificiale, come la generazione di progetti di GUI utilizzando GAN. Nota che ci sono molte risorse disponibili, inclusi i set di dati per la progettazione grafica computazionale e la creatività, e menziona brevemente il set di dati sui media artistici di Behance e il set di dati sulla comprensione automatica delle pubblicità di immagini e video.

  • 00:30:00 In questa sezione, il relatore discute i modelli e gli strumenti disponibili per automatizzare i componenti all'interno del flusso di lavoro di progettazione, osservando che molti degli strumenti automatici non sono molto creativi, ma c'è ancora molto potenziale per scoperte future nel spazio di flussi di lavoro automatizzati ma altamente creativi. Incoraggia gli studenti a esplorare da soli questo spazio e a generare pensieri interdisciplinari, che possono portare a entusiasmanti applicazioni all'interfaccia tra calcolo e design. La discussione tocca anche i limiti degli attuali modelli text-to-visual nella progettazione grafica e il potenziale di nuovi modelli in grado di generare grafica vettoriale.

  • 00:35:00 In questa sezione, il relatore discute un progetto in cui l'obiettivo era quello di produrre una didascalia da una data infografica per cercare tra le infografiche sul web e annotarle per i non vedenti. Tuttavia, hanno riscontrato un problema in quanto non potevano utilizzare i rilevatori di oggetti esistenti per estrarre elementi visivi e icone dalle infografiche. Ciò ha portato allo sviluppo di un modo per addestrare un rilevatore di icone utilizzando dati sintetici, che alla fine hanno consentito il rilevamento delle icone. Successivamente gli studenti hanno esplorato la possibilità di apprendere incorporamenti congiunti tra le icone e il testo nelle vicinanze, che potrebbero essere utilizzati per comprendere come i concetti astratti sono stati visualizzati in progetti grafici complessi. Il relatore sottolinea che l'intelligenza artificiale non intende sostituire i designer ma aiutarli e che la cura rimarrà un aspetto importante del lavoro.

  • 00:40:00 In questa sezione, il relatore discute il ruolo dei designer nel campo della progettazione grafica generata dall'intelligenza artificiale. Sebbene sia possibile addestrare i modelli a generare progetti, è difficile addestrarli a creare progetti completamente nuovi. Pertanto, i progettisti possono introdurre nuovi asset e componenti che vanno oltre il collettore corrente, che possono quindi essere utilizzati per manipolare e generare automaticamente nuovi progetti. Il relatore sottolinea anche la necessità di cura, poiché i progettisti possono aiutare a identificare le coppie spazzatura e non spazzatura per migliorare il processo di formazione. Inoltre, il relatore osserva che l'adattamento dei progetti alle diverse culture è ancora una sfida a causa della mancanza di dati sufficienti. Infine, il relatore spiega il ruolo dei ricercatori in aziende come Adobe, che mirano a presentare grandi idee di ricerca che possono essere incorporate nei team di prodotto esistenti per un ulteriore sviluppo.

  • 00:45:00 In questa sezione, Zoya Bylinskii discute le sfide dell'applicazione dell'IA nella progettazione grafica per creare prodotti pratici. Sottolinea la necessità di concettualizzare i problemi in un modo che li renda trasferibili a diversi prodotti tecnologici, presentando idee di ricerca alle aziende e lavorando a fianco di professionisti di diversi settori per competenza. Bylisnkii consiglia a studenti e stagisti di sviluppare un solido set di strumenti computazionali per migliorare le loro possibilità di ottenere una posizione come stagista di ingegneria, ricerca o prodotto.

  • 00:50:00 In questa sezione, il relatore si concentra sulle competenze che sta cercando in un candidato interessato all'intelligenza artificiale e all'apprendimento automatico per la progettazione grafica. Sottolineano la necessità di competenza negli strumenti software e nell'apprendimento automatico. Raccomandano di mostrare l'esperienza non solo in forma di corso ma in forma di progetto con esempi su Github. Suggeriscono che i candidati devono mostrare creatività e innovazione, andando oltre i modelli e le librerie esistenti per concettualizzare nuove idee e applicarle in nuovi modi. I candidati dovrebbero perseguire esperienze di ricerca o posizioni tecnologiche in un laboratorio universitario. Raccomandano di avvicinarsi ai professori e di offrirsi di lavorare per un periodo specifico su determinati problemi. Infine, sottolineano l'importanza delle referenze di altri ricercatori, che attestano la creatività, la forza tecnica e l'idoneità alla ricerca del candidato.
MIT 6.S192 - Lecture 17: "Using A.I. in the service of graphic design" by Zoya Bylinskii
MIT 6.S192 - Lecture 17: "Using A.I. in the service of graphic design" by Zoya Bylinskii
  • 2021.01.30
  • www.youtube.com
Dr. Zoya BylinskiiResearch Scientist, Creative Intelligence Lab, Adobehttps://research.adobe.com/person/zoya-bylinskii/More about the course: http://deepcrea...