Apprendimento automatico e Reti Neurali - pagina 3

 

Arte dell'IA in evoluzione



Arte dell'IA in evoluzione

Il video discute il processo di evoluzione delle immagini utilizzando l'intelligenza artificiale, a partire dalla selezione di un'immagine, dando un suggerimento e generando variazioni attraverso un processo in evoluzione. Lo scopo di questo processo è l'esplorazione, per trovare opere d'arte belle e inimmaginabili o simpatici gatti che utilizzano uno spazio di immagini inconcepibilmente enorme e imperscrutabile. L'input per i modelli text-to-image consente agli utenti di inserire un semplice prompt e ricevere una vasta gamma di possibili immagini che soddisfano quel prompt, consentendo anche la creazione di immagini completamente nuove e l'organizzazione e la catalogazione di quelle esistenti nello spazio latente. Il metodo Pick Breeder è un modo efficiente e naturale di mutare, selezionare e riprodurre i geni che si comportano al meglio per creare immagini, consentendo alle persone di seguire i fili evolutivi e scoprire bellezze inaspettate attraverso percorsi ramificati con potenti strumenti di intelligenza artificiale.

  • 00:00:00 Il creatore discute un modello AI chiamato Mid-Journey, che è un algoritmo di testo in immagine che utilizza reti neurali per generare immagini basate su un determinato prompt di testo. Il creatore ha sperimentato questo algoritmo sul proprio server Discord, consentendo agli utenti di selezionare e mutare le immagini e creare alberi evolutivi della vita. Sebbene la creatività di questo processo sia limitata dal prompt e dal set di dati utilizzati per addestrare il modello, le immagini risultanti sono diverse da qualsiasi opera d'arte che il creatore abbia visto prima e il processo ha portato a creazioni interessanti e uniche. Il creatore menziona anche un altro modello open source chiamato Stable Diffusion che possono essere eseguiti sulla propria GPU.

  • 00:05:00 In questa sezione, il creatore spiega il processo di evoluzione di un'immagine utilizzando l'intelligenza artificiale. Il processo inizia con la selezione di un'immagine, dando un suggerimento e quindi generando variazioni attraverso un processo in evoluzione. Il processo in evoluzione può essere ristretto per evitare l'aspetto comunitario o lasciato correre da solo. Lo scopo dell'evoluzione di un'immagine è l'esplorazione, esplorando lo spazio dell'immagine - uno spazio matematico letterale in cui ogni immagine occupa un punto o un vettore - per trovare opere d'arte belle e inimmaginabili o gatti eccezionalmente carini, qualcosa al di là del rumore casuale poiché lo spazio dell'immagine è inconcepibilmente enorme e irrimediabilmente imperscrutabile.

  • 00:10:00 Il video spiega il processo di input per i modelli di testo in immagine, che consente agli utenti di inserire un prompt in un linguaggio semplice e ricevere una vasta gamma di possibili immagini che soddisfano quel prompt. Questi motori di ricerca generativi possono creare immagini completamente nuove, così come scoprire quelle esistenti organizzate, catalogate ed etichettate nello spazio latente. Assegnando al modello valori casuali, come un vettore latente, l'output dell'immagine ha più varietà e può essere modificato spostandosi nello spazio latente. Il metodo Pick Breeder è un modo efficiente e naturale di mutare, selezionare e riprodurre i geni che funzionano meglio per creare immagini. Le persone possono seguire un filo evolutivo di suggerimenti e immagini interessanti per scoprire bellezze inaspettate attraverso percorsi ramificati con questi potenti strumenti.
Evolving AI Art
Evolving AI Art
  • 2022.10.29
  • www.youtube.com
In this video, I explain how #aiart generators like #midjourney and #stablediffusion can be used to simulate evolutionary processes, and explain why this is ...
 

L'intelligenza artificiale che crea qualsiasi immagine tu voglia, spiegata



La rivoluzione del testo in immagine, spiegata

Questo video illustra come gli algoritmi di apprendimento automatico possono essere utilizzati per generare immagini basate su descrizioni di testo e come questa tecnologia può essere utilizzata per creare opere d'arte. Il video intervista James Gurney, un illustratore americano, che discute le implicazioni di questa tecnologia sulla legge sul diritto d'autore e sul mondo dell'arte.

  • 00:00:00 Questa parte spiega come gli algoritmi di apprendimento automatico possono inserire didascalie nelle immagini e come gli sviluppatori hanno creato generatori di testo in immagini utilizzando questi algoritmi. Il video illustra anche come sia necessaria una progettazione rapida per comunicare in modo efficace con questi modelli.

  • 00:05:00 L'intelligenza artificiale che crea qualsiasi immagine tu voglia, ha spiegato, inizia con un set di dati di addestramento di milioni di immagini e le relative didascalie. I modelli imparano a riconoscere i modelli in queste immagini e quindi generano nuove immagini basate su tale riconoscimento. Le immagini generate in questo modo possono essere diverse per persone e modelli diversi, a causa della casualità del processo di diffusione.

  • 00:10:00 Questo video spiega come il deep learning consente agli utenti di creare immagini simili a quelle prodotte da artisti famosi senza dover copiare direttamente le loro immagini. Il video intervista James Gurney, un illustratore americano, che è diventato un riferimento popolare per gli utenti di modelli di testo in immagini. Gurney afferma che, sebbene agli artisti dovrebbe essere consentito di accettare o meno che il loro lavoro venga utilizzato come set di dati per la creazione di altre opere d'arte, le questioni sul copyright che circondano le immagini che servono per addestrare i modelli e le immagini che ne derivano sono ancora irrisolte. Inoltre, lo spazio latente di questi modelli contiene alcuni angoli bui che diventano più spaventosi man mano che gli output diventano fotorealistici. Tuttavia, ciò che rende questa tecnologia così unica è che consente a chiunque di noi di dirigere la macchina per immaginare ciò che vogliamo che veda.
The text-to-image revolution, explained
The text-to-image revolution, explained
  • 2022.06.01
  • www.youtube.com
How programmers turned the internet into a paintbrush. DALL-E 2, Midjourney, Imagen, explained.Subscribe and turn on notifications 🔔 so you don't miss any v...
 

Guida a MidJourney AI Art - Come iniziare GRATIS!



Guida a MidJourney AI Art - Come iniziare GRATIS!

In questo video, il relatore introduce MidJourney, uno strumento che genera grafica AI basata su suggerimenti e fornisce istruzioni dettagliate su come iniziare. Dimostrano come utilizzare i comandi per modificare lo stile e la qualità delle immagini generate, utilizzando esempi come "rendering 3D" o "schizzo a inchiostro gocciolante". Inoltre, spiegano la sezione della community del sito Web MidJourney, dove gli utenti possono trovare ispirazione e copiare suggerimenti per provare se stessi. L'oratore condivide anche il loro viaggio con l'arte dell'IA e fornisce risorse e codici aggiuntivi per coloro che sono interessati a saperne di più.

  • 00:00:00 Questa parte spiega come iniziare con MidJourney, uno strumento che genera grafica basata sull'intelligenza artificiale in base ai prompt. Per registrarti, vai sul sito web di MidJourney e segui le istruzioni per registrarti e accettare l'invito Discord. Una volta in Discord, digita il comando "/immagina" seguito da un prompt come "umano viola con le ali" per generare un'immagine. L'oratore mostra anche come ingrandire l'immagine per maggiori dettagli e come modificare lo stile dell'immagine utilizzando diversi comandi come "rendering 3D" o "schizzo di inchiostro gocciolante". Ogni volta che viene immesso un comando, l'immagine risultante sarà unica.

  • 00:05:00 In questa sezione, il narratore esplora i diversi stili e le opzioni di qualità disponibili nell'arte di MidJourney AI. Dimostrano l'utilizzo di parole chiave e comandi per creare una gamma di effetti su un rendering 3D, inclusi iperrealismo e stilizzazione. Sperimentano anche l'uso di un'immagine di se stessi come suggerimento e la regolazione del peso dell'immagine per produrre risultati diversi.
    Inoltre, discutono della sezione community del sito Web MidJourney, dove gli utenti possono trovare ispirazione e copiare suggerimenti per provare se stessi. Il narratore fornisce anche suggerimenti su come utilizzare MidJourney in modo responsabile, come l'aggiunta di un disclaimer quando si condivide l'arte generata online.

  • 00:10:00 Il narratore fornisce collegamenti alla loro Discord e MidJourney AI Art, oltre ad altre risorse e codici relativi al loro percorso artistico AI. Incoraggiano gli spettatori a controllare da soli il loro viaggio e offrono informazioni aggiuntive per coloro che sono interessati a saperne di più.
Guide to MidJourney AI Art - How to get started FREE!
Guide to MidJourney AI Art - How to get started FREE!
  • 2022.08.18
  • www.youtube.com
Start for Free. This Guide to Midjourney AI Art will show you how to get started and show you a few tricks and give ean you an idea of how powerful this pla...
 

MidJourney - Getting Started [Nuovo e aggiornato] Un breve tutorial per iniziare a generare arte con l'IA



MidJourney - Getting Started [Nuovo e aggiornato] Un breve tutorial per iniziare a generare arte con l'IA

Il video tutorial fornisce una panoramica completa su come utilizzare la piattaforma di generazione artistica AI di MidJourney, a cui è possibile accedere solo tramite Discord. Il relatore spiega le diverse modalità di abbonamento disponibili, come creare prompt utilizzando artisti e varie condizioni, come utilizzare gli interruttori per rimuovere elementi indesiderati dalle immagini generate dall'intelligenza artificiale e come eseguire l'upscaling e regolare le proporzioni delle immagini. Forniscono anche suggerimenti su come generare un'arte AI unica utilizzando prompt con appeal visivo e utilizzando il pulsante di variazione prima dell'upscaling. Nel complesso, MidJourney si presenta come uno strumento per l'esplorazione artistica e la partenza piuttosto che un mezzo per creare opere d'arte finite.

  • 00:00:00 Questa parte fornisce una panoramica di metà viaggio e Discord, spiegando che è possibile accedere a metà viaggio solo tramite Discord. Discutono di come Discord sia una piattaforma utilizzata per la chat vocale che può essere utilizzata anche per creare bot, che è il modo in cui funziona a metà viaggio. Spiegano inoltre la proprietà delle risorse create a metà del viaggio e le opzioni di prezzo disponibili per l'utilizzo del servizio. L'oratore passa quindi a discutere le diverse stanze e funzionalità all'interno di Discord e come iniziare a metà viaggio, incluso l'utilizzo dei diversi comandi disponibili tramite la barra.

  • 00:05:00 In questa sezione del tutorial, il narratore discute le diverse modalità di abbonamento disponibili su MidJourney, tra cui la modalità rilassata e la modalità privata. Spiegano anche le varie modalità di upscaling e mettono in guardia dall'usare una qualità troppo alta per evitare di usare troppi crediti immagine. Il narratore copre anche brevemente il sito Web del viaggio, incluso il feed della comunità in cui gli utenti possono visualizzare le creazioni di altre persone e copiare i loro suggerimenti. Infine, il narratore introduce il comando "immagina" e discute il processo di creazione di un'immagine utilizzando prompt e vari interruttori.

  • 00:10:00 In questa sezione del tutorial, l'utente spiega come navigare nella piattaforma di generazione artistica AI di MidJourney, incluso come valutare le immagini per ore gratuite di generazione di immagini, come eseguire l'upscaling e accedere alle variazioni delle immagini e come creare prompt utilizzando artisti e altre condizioni. Avvertono che mentre l'ingegneria rapida è un aspetto importante della creazione artistica dell'IA, gli utenti dovrebbero essere preparati a risultati inaspettati e vedere la piattaforma come un motore di idee piuttosto che un prodotto finito.

  • 00:15:00 Questa parte del tutorial video spiega come utilizzare determinati interruttori per rimuovere elementi indesiderati da un'immagine generata dall'intelligenza artificiale, come l'interruttore "no -- people". Tuttavia, l'efficacia di tali interruttori dipende dall'artista selezionato e dalla complessità dell'immagine. Il tutorial esamina anche le direttive comuni che possono essere aggiunte a un prompt artistico AI, come "altamente dettagliato" o "pittura a olio", e l'importanza di mantenere i prompt concisi per evitare di confondere il robot AI. Infine, il tutorial illustra come eseguire l'upscaling delle immagini e regolarne le proporzioni utilizzando MidJourney.

  • 00:20:00 L'autore spiega come utilizzare flag aggiuntivi durante l'upscaling di un'immagine per ottenere risultati diversi. I flag iniziano con "AR", che sta per proporzioni, seguito dalla larghezza e dall'altezza separate da due punti. L'oratore osserva che ci sono limitazioni alla tecnologia, come problemi con le dita, i volti e gli arti extra. Esplorano anche diversi tipi di prompt, come cryengine e acquerello, e come remixarli. Infine, il relatore consiglia di iniziare con un prompt di base e quindi di perfezionarlo remixandolo e potenziandolo. L'immagine finale può essere salvata e scaricata dal sito web di MidJourney.

  • 00:25:00 Questa parte discute diverse strategie per generare arte IA unica con MidJourney. Afferma che l'utilizzo di suggerimenti con un fascino visivo o un aspetto specifico, come "Blade Runner" o "cyberpunk", può essere utile per guidare l'output di MidJourney. Suggerisce inoltre di utilizzare il pulsante di variazione prima di impegnarsi a ingrandire un'immagine per ottenere il miglior risultato possibile. Infine, ricorda agli spettatori che MidJourney è uno strumento per l'esplorazione artistica e la partenza, non necessariamente per opere d'arte finite.
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
  • 2022.10.26
  • www.youtube.com
There have been a lot of changes since the launch of MidJourney and it was about time I made an updated tutorial on how to get started. As more people disco...
 

ChatGPT, spiegato: cosa sapere sul chatbot di OpenAI | Podcast di informazioni sulle notizie tecniche | giornale di Wall Street



ChatGPT, spiegato: cosa sapere sul chatbot di OpenAI | Podcast di informazioni sulle notizie tecniche | WSJ

I chatbot sono ora disponibili al pubblico e possono essere utilizzati per porre domande e ottenere risposte. Ci sono preoccupazioni su come questi strumenti potrebbero essere utilizzati, ma gli esperti affermano che le persone dovrebbero usarli per migliorare il proprio lavoro, non per sostituire i propri ruoli.

  • 00:00:00 ChatGPT, un modello di intelligenza artificiale conversazionale all'avanguardia, è in grado di impegnarsi in conversazioni simili a quelle umane e fornire risposte alle domande. È costruito su enormi quantità di dati e viene utilizzato da OpenAI, una società di intelligenza artificiale, per sviluppare Dolly, una piattaforma AI che crea immagini. Sebbene ChatGPT abbia dei limiti, la sua popolarità e raffinatezza solleva interrogativi sui suoi potenziali usi e abusi.

  • 00:05:00 I chatbot sono ora disponibili al pubblico e possono essere utilizzati per porre domande e ottenere risposte. Ci sono preoccupazioni su come questi strumenti potrebbero essere utilizzati, ma gli esperti affermano che le persone dovrebbero usarli per migliorare il proprio lavoro, non per sostituire i propri ruoli.
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
  • 2022.12.07
  • www.youtube.com
ChatGPT, Lensa and DALL-E are giving more people without computing skills the chance to interact with artificial intelligence. These AI programs that can wri...
 

CS 156 Lezione 01 - Il problema dell'apprendimento




Corso di apprendimento automatico di Caltech - CS 156. Lezione 01 - Il problema dell'apprendimento

La prima lezione del corso di apprendimento automatico di Yaser Abu-Mostafa introduce il problema dell'apprendimento, ovvero il processo di ricerca di schemi nei dati per fare previsioni senza l'intervento umano. Spiega la necessità della formalizzazione matematica per astrarre i problemi di apprendimento pratico e introduce il primo algoritmo per l'apprendimento automatico nel corso, il modello perceptron, che utilizza un vettore di peso per classificare i punti dati in categorie binarie. La lezione copre anche diversi tipi di apprendimento, tra cui l'apprendimento supervisionato, non supervisionato e di rinforzo, e presenta al pubblico un problema di apprendimento supervisionato per affrontare il problema della determinazione di una funzione target per l'apprendimento. Il professore copre vari argomenti relativi all'apprendimento automatico. Sottolinea la necessità di evitare pregiudizi nella selezione dei set di dati, nonché l'importanza di raccogliere una quantità sufficiente di dati. Il professore discute anche il ruolo dell'ipotesi impostata nell'apprendimento automatico e l'impatto della scelta della funzione di errore sulla tecnica di ottimizzazione. Tocca anche i criteri per includere i metodi di apprendimento automatico nel corso e la sua attenzione nel fornire conoscenze pratiche piuttosto che pura teoria.

  • 00:00:00 In questa sezione, Yaser Abu-Mostafa introduce lo schema del corso per l'apprendimento automatico e spiega l'importanza degli aspetti matematici e pratici della materia. Afferma che gli argomenti del corso non sono pensati per essere separati ma seguono una trama logica. Quindi approfondisce il problema dell'apprendimento fornendo un esempio di come uno spettatore valuterebbe un film, che è rilevante per Netflix poiché lo utilizza per personalizzare i consigli per i propri clienti. Menziona l'importanza della formalizzazione matematica nell'astrazione dei problemi di apprendimento pratico e introduce nel corso il primo algoritmo per l'apprendimento automatico. Fornisce anche un'indagine sui tipi di apprendimento e termina con un puzzle interessante.

  • 00:05:00 In questa sezione, il docente spiega che l'essenza dell'apprendimento automatico risiede nell'esistenza di schemi insieme alla disponibilità di dati. Inoltre, descrive la necessità di trovare modelli, che non è matematicamente possibile senza dati adeguati. Utilizzando l'esempio delle valutazioni dei film, parla della creazione di un sistema per prevedere la valutazione utilizzando le preferenze dello spettatore come vettore di fattori e le confronta con il contenuto del film. Sebbene questo sistema funzioni, non è considerato apprendimento automatico poiché richiede l'intervento umano. L'idea dell'apprendimento automatico è che può risolvere il problema senza l'intervento umano trovando schemi e intraprendendo azioni correttive per migliorare il sistema da solo.

  • 00:10:00 In questa sezione, il relatore discute l'approccio all'apprendimento e il modo in cui decodifica il processo di valutazione per scoprire quali fattori sarebbero coerenti con quella valutazione. Il processo di apprendimento automatico parte da fattori casuali e li spinge verso i valori di valutazione scorrendo ripetutamente 100 milioni di valutazioni, trovando alla fine fattori significativi in termini di valutazioni. L'oratore utilizza quindi una metafora di una domanda finanziaria, l'approvazione del credito, per spiegare le componenti matematiche che costituiscono il problema di apprendimento, che includono le informazioni sul richiedente, il modello di affidabilità creditizia e la decisione di approvare o negare il credito.

  • 00:15:00 In questa sezione, l'istruttore discute il problema dell'apprendimento e come si applica all'approvazione del credito. La funzione obiettivo è la formula di approvazione del credito ideale, che è sconosciuta, e l'ipotesi è la formula creata per approssimare la funzione obiettivo. I dati vengono utilizzati per apprendere l'ipotesi e un algoritmo di apprendimento viene utilizzato per creare la formula da un insieme di formule candidate noto come insieme di ipotesi. Il ragionamento alla base della limitazione dell'algoritmo di apprendimento all'insieme di ipotesi è quello di evitare lo svantaggio di avere una formula illimitata e di trarre vantaggio dall'avere un insieme predefinito di formule tra cui scegliere.

  • 00:20:00 In questa sezione, l'oratore spiega di aver mostrato il problema di apprendimento come un'immagine per discutere i componenti della soluzione della figura. Osserva che l'insieme di ipotesi gioca un ruolo vitale nella teoria dell'apprendimento in quanto ci dice quanto bene impariamo, tra le altre cose. Spiega che l'insieme di ipotesi, l'algoritmo di apprendimento e l'ipotesi finale costituiscono un modello di apprendimento, come il modello perceptron e un algoritmo di apprendimento perceptron. Continua fornendo un semplice esempio di modello di perceptron utilizzando una formula del punteggio di credito basata su diversi attributi di un cliente, che può approvare o rifiutare una richiesta di carta di credito in base a una soglia.

  • 00:25:00 In questa sezione, il professore discute come definire un'ipotesi he l'insieme di ipotesi che ha tutte le ipotesi che hanno la stessa forma funzionale. Utilizzando il modello perceptron, che separa i dati in due regioni, l'algoritmo di apprendimento gioca con i parametri per spostare la linea nella speranza di arrivare alla soluzione corretta. Il professore introduce anche l'algoritmo di apprendimento del percettrone, che prende i dati di addestramento e naviga attraverso lo spazio delle ipotesi per far apparire l'ipotesi finale che dà al cliente. L'algoritmo inizia con pesi casuali e si sposta finché non trova il peso corretto, che viene utilizzato nell'ipotesi finale.

  • 00:30:00 In questa sezione, il relatore spiega l'algoritmo di apprendimento del percettrone (PLA), che è un modello lineare in grado di classificare i punti dati in categorie binarie. L'algoritmo utilizza un vettore di peso che tiene conto di tutti gli attributi nel set di dati e, se un punto viene classificato in modo errato, l'algoritmo aggiorna il vettore di peso in modo che si comporti meglio su quel particolare punto. L'oratore discute anche di come ci siano problemi con questo approccio e le iterazioni del PLA, ma che selezionando un punto classificato erroneamente e applicandovi l'iterazione, alla fine si arriverà a una soluzione corretta se i dati erano originariamente separabili linearmente.

  • 00:35:00 In questa sezione, il docente discute diversi tipi di apprendimento, a partire dal tipo più popolare, l'apprendimento supervisionato. Questo tipo di apprendimento comporta l'utilizzo di dati con output dati in modo esplicito, come il comportamento del credito del cliente, per aiutare a classificare le istanze future. Il docente utilizza l'esempio di insegnare a una macchina a riconoscere diverse monete utilizzando misurazioni fisiche come dimensioni e massa. Le monete possono essere raggruppate in base alle loro misure, il che può aiutare la macchina a distinguerle. Altri tipi di apprendimento menzionati includono l'apprendimento non supervisionato, che sarà discusso in dettaglio più avanti nel corso, e l'apprendimento per rinforzo, che sarà brevemente introdotto.

  • 00:40:00 In questa sezione, il docente discute l'apprendimento supervisionato e non supervisionato utilizzando esempi di classificazione delle monete e apprendimento delle lingue. Nell'apprendimento supervisionato, vengono forniti i dati di addestramento e l'output corretto e, una volta che il sistema è stato addestrato, può essere utilizzato per classificare un esempio futuro. Tuttavia, nell'apprendimento non supervisionato, vengono forniti solo i dati di input e la funzione target non è nota. Nonostante ciò, l'apprendimento non supervisionato può ancora essere utile per raggruppare i dati in cluster e identificare modelli che possono aiutare nella classificazione futura. Il docente spiega anche come l'apprendimento non supervisionato può essere utilizzato per l'apprendimento delle lingue immergendosi nella lingua e sviluppando un modello della lingua attraverso l'esposizione ad essa.

  • 00:45:00 In questa sezione, il video spiega il concetto di apprendimento per rinforzo come metodo per consentire a un sistema di apprendere attraverso l'esperienza. Il docente utilizza l'esempio di un bambino che tocca una tazza di tè caldo per illustrare come funziona l'apprendimento per rinforzo. Consentendo al sistema di produrre qualsiasi output (anche folle) e affidandosi gradualmente al condizionamento attraverso risultati gratificanti o punitivi, il sistema può eventualmente imparare a navigare in giochi come il backgammon. Questo approccio è un metodo conveniente e più semplice per produrre il sistema desiderato invece di scrivere codice e studiare la matematica dietro di esso.

  • 00:50:00 In questa sezione della lezione, il professore presenta un problema di apprendimento supervisionato alla classe e al pubblico online. Il problema riguarda i dati di addestramento con alcuni punti mappati su +1 e altri mappati su -1. L'obiettivo è apprendere la funzione target e determinare il valore della funzione per un punto di test. Il professore sottolinea che la funzione target è sconosciuta e potrebbe essere qualsiasi cosa, rendendo impossibile determinare uno schema che si applichi al di fuori del set di allenamento dato. Ciò rappresenta una sfida difficile per l'apprendimento, che richiede metodi che vanno oltre la semplice memorizzazione di esempi.

  • 00:55:00 In questa sezione della conferenza, il professore discute le domande della sessione di domande e risposte. Affronta il problema della separabilità lineare e spiega che sebbene si tratti di un'ipotesi semplicistica, esistono algoritmi in grado di affrontare il caso dell'inseparabilità lineare e nella prossima settimana verrà studiata una tecnica per rendere separabili linearmente i punti non linearmente separabili. Il professore afferma anche che il tasso di convergenza dell'algoritmo del percettrone cambia con la dimensionalità e può creare casi patologici in cui ci vorrà un'eternità. Inoltre, spiega che è difficile sapere se c'è uno schema specifico da rilevare, ma c'è una separazione tra la funzione target e se possiamo impararla, cosa che verrà spiegata in seguito in una lezione completa.

  • 01:00:00 In questa sezione del video, il professore spiega come cerca di evitare di guardare il particolare set di dati che gli è stato fornito o di adattare il suo sistema ad esso per evitare delusioni quando arriva un altro set di dati. Spiega che l'apprendimento automatico è una disciplina che cerca di coprire la maggior parte del territorio con il minimo di ipotesi e può essere applicata sia praticamente che scientificamente. Inoltre, il professore afferma che l'ottimizzazione è uno strumento per l'apprendimento automatico, ma non è qualcosa che le persone che apprendono il machine learning studiano per se stesse. Infine, osserva che l'ipotesi impostata per l'apprendimento automatico può essere qualsiasi cosa, continua o discreta.

  • 01:05:00 In questa sezione, il professore parla del bias di campionamento nell'approvazione del credito e di come influisce sulla qualità dei dati utilizzati. Spiega che prendere un campione distorto può portare a risultati imprecisi, ma l'utilizzo di una base di clienti per prendere decisioni può ancora funzionare perché la base di clienti è più lontana nella regione di classificazione. Discute quindi gli aspetti teorici e pratici della raccolta dei dati e quanti dati sono necessari per creare un sistema ragionevole. Infine, affronta la questione della scelta della dimensione del set di ipotesi e afferma che l'obiettivo dell'apprendimento è prevedere l'utilizzo dei dati per elaborare uno schema ragionevole che si generalizzerà al di fuori del set di dati.

  • 01:10:00 In questa sezione della lezione sul problema dell'apprendimento, il professore discute il ruolo della teoria nell'apprendimento automatico, in particolare come misura la sofisticazione di un insieme di ipotesi e la quantità di dati necessari per fare affermazioni sulla generalizzazione. Il professore copre anche le domande del pubblico online, incluso come correggere il feedback utilizzando la convalida e l'uso di diversi tipi di funzioni per le ipotesi. Inoltre, viene discusso il ruolo dell'algoritmo di apprendimento e dell'insieme di ipotesi, concentrandosi su come la scelta della funzione di errore influisce sulla scelta della tecnica di ottimizzazione. Infine, il professore chiarisce cosa succede se un output è esattamente alla soglia per l'algoritmo del perceptron.

  • 01:15:00 In questa sezione della conferenza, il professore discute l'idea che ci deve essere uno schema affinché l'apprendimento automatico funzioni. Se non c'è uno schema, allora non c'è niente da imparare. Menziona anche l'importanza dei dati e come siano fondamentali per l'apprendimento. Il professore sottolinea l'importanza di percorrere le sezioni matematiche dello schema per comprendere appieno le componenti che rendono possibile l'apprendimento. Tocca anche brevemente la questione del perché il percettrone sia spesso correlato a un neurone e menziona che l'analogia con la biologia sarà discussa più dettagliatamente in seguito. Infine, il professore ricorda che la selezione del modello ei principi bayesiani saranno discussi più avanti nel corso.

  • 01:20:00 In questa sezione, il relatore discute i criteri per includere metodi di machine learning nel corso. Afferma che saranno inclusi i metodi più utili nella pratica e che mira a fornire una comprensione generale dei concetti e degli strumenti per utilizzarli nella pratica. Afferma che ci sono diversi metodi gerarchici con ramificazioni nella generalizzazione che può toccare quando discute di macchine vettoriali di supporto, ma nel complesso, il suo obiettivo è fornire conoscenze pratiche piuttosto che pura teoria.
Lecture 01 - The Learning Problem
Lecture 01 - The Learning Problem
  • 2012.08.28
  • www.youtube.com
The Learning Problem - Introduction; supervised, unsupervised, and reinforcement learning. Components of the learning problem. Lecture 1 of 18 of Caltech's M...
 

Lezione 2. L'apprendimento è fattibile?



Corso di apprendimento automatico di Caltech - CS 156. Lezione 02 - L'apprendimento è fattibile?

La conferenza discute la fattibilità dell'apprendimento, in particolare l'uso dell'apprendimento automatico per determinare modelli da dati dati. Il docente introduce il concetto di nu e mu in probabilità e come si collega al problema di apprendimento. Viene esplorata l'aggiunta della probabilità, consentendo la fattibilità dell'apprendimento senza compromettere la funzione target, il che significa che non è necessario fare ipotesi sulla funzione che verrà appresa. Viene discusso il concetto di overfitting e il suo rapporto con la sofisticazione del modello, con un numero maggiore di ipotesi che portano a una generalizzazione più scarsa. Infine, la conferenza si conclude con la richiesta di rivedere la diapositiva sull'implicazione di nu uguale a mu.

  • 00:00:00 In questa sezione, Yaser Abu-Mostafa discute i tre criteri per determinare se l'apprendimento automatico è la tecnica giusta per un'applicazione: se esiste un modello che può essere appreso, se il modello non può essere definito matematicamente e se esistono dati sufficienti per rappresentare il modello. Inoltre, spiega che se non esiste uno schema, l'apprendimento automatico può ancora essere provato ma fallirà e se lo schema può essere determinato matematicamente, l'apprendimento automatico potrebbe non essere la tecnica ottimale. Abu-Mostafa spiega inoltre l'apprendimento supervisionato, in cui la funzione target è sconosciuta, ma vengono forniti i dati in ingresso e in uscita, e come viene chiamato "supervisionato" perché l'output funge da supervisore del processo di apprendimento.

  • 00:05:00 In questa sezione, il docente discute la fattibilità dell'apprendimento e come sia impossibile apprendere una funzione sconosciuta. Per rispondere a questa domanda, la lezione si concentra su una situazione probabilistica in cui un campione viene prelevato da un contenitore di biglie rosse o verdi con una probabilità di prelevare una biglia rossa rappresentata da mu. La conferenza traduce questa situazione in apprendimento e quindi trova una soluzione al dilemma, dichiarando infine che l'apprendimento è fattibile in un senso particolare.

  • 00:10:00 In questa sezione del video, il presentatore descrive un esperimento con un contenitore opaco contenente biglie, dove la probabilità di prendere una biglia rossa è mu e la probabilità di prendere una biglia verde è 1 meno mu. Il valore di mu è sconosciuto e l'obiettivo è determinare se la frequenza di campionamento nu (frazione di biglie rosse in un campione di biglie) può fornire informazioni su mu. La risposta è no per campioni piccoli, ma per campioni più grandi, nu può essere vicino a mu con una probabilità maggiore, aprendo possibilità per l'inferenza statistica. La distinzione tra possibile e probabile è fondamentale nella scienza e nell'ingegneria.

  • 00:15:00 In questa sezione, il docente introduce la disuguaglianza di Hoeffding, che è una formula che verrà utilizzata durante il corso per dimostrare qualcosa sulla dimensione VC. La disuguaglianza afferma che la probabilità di un evento, in cui la frequenza del campione non si avvicina alla frequenza bin entro una data tolleranza, è piccola e diminuisce in modo esponenziale con una dimensione del campione maggiore. Tuttavia, una tolleranza più piccola si traduce in un esponente più alto, che smorza i vantaggi dell'esponenziale negativo. La formula con i 2 è preferita alla formula originale in quanto è vera.

  • 00:20:00 In questa sezione della lezione, la Disuguaglianza di Hoeffding viene introdotta come strumento per limitare la deviazione della frequenza campionaria dalla frequenza reale. La disuguaglianza vale per ogni N ed epsilon, rendendola una proposizione molto attraente nonostante contenga un esponenziale. La distribuzione di probabilità di nu dipende esplicitamente da mu, che è il valore sconosciuto, ma la disuguaglianza non dipende da mu, che è un vantaggio. Viene discusso anche il compromesso tra N ed epsilon, poiché più piccolo è l'epsilon, maggiore è N necessario per compensare lo stesso livello di probabilità vincolata. Infine, viene spiegata la logica dell'affermazione che nu è approssimativamente uguale a mu, implicando che mu è approssimativamente uguale a nu.

  • 00:25:00 In questa sezione del video, il relatore discute il concetto di mu e nu in probabilità e come si collega al problema di apprendimento. Spiegano che mentre in probabilità lo scopo è dedurre mu da nu generando diversi campioni e calcolando la probabilità, nel problema di apprendimento la quantità sconosciuta è una funzione completa con un dominio che potrebbe essere uno spazio euclideo del decimo ordine. L'oratore prosegue poi introducendo il concetto di codifica a colori in questo scenario per indicare l'accordo tra un'ipotesi e una funzione target. Attraverso questa mappatura, il parlante ha effettivamente aggiunto probabilità al problema di apprendimento.

  • 00:30:00 In questa sezione viene esplorata l'aggiunta della probabilità al problema di apprendimento. La probabilità viene introdotta nello spazio di input applicando la distribuzione di probabilità sullo spazio di input, che genera punti in modo indipendente. La distribuzione di probabilità introdotta non richiede ipotesi e il meccanismo può essere applicato a qualsiasi distribuzione di probabilità. L'aggiunta della probabilità consente la fattibilità dell'apprendimento senza compromettere la funzione target, il che significa che non è necessario fare ipotesi sulla funzione che verrà appresa. Tuttavia, viene discusso il problema della verifica, in cui la situazione descritta equivale a una banca che cerca una formula specifica per l'approvazione del credito sulla base di dati forniti.

  • 00:35:00 In questa sezione, il docente spiega come trasformare un semplice problema di verifica di ipotesi in un problema binario che può essere appreso. Partendo da un unico bin e una soglia alta, sceglie un peso di 0,1 per gli anni di residenza in quanto contribuisce debolmente al problema dell'apprendimento. Tuttavia, questa tecnica non tiene conto di ipotesi multiple, il che significa che è più intelligente scegliere tra diversi contenitori. Ciò richiede la scansione di diversi campioni, che possono consentire un apprendimento efficace. Il relatore introduce la notazione che verrà utilizzata per tutto il resto del discorso, chiamando nu e mu con nomi descrittivi, poiché rappresentano rispettivamente la frequenza nel campione e all'interno del bin, introducendo di conseguenza E_in come tasso di errore nel campione.

  • 00:40:00 In questa sezione della lezione, il professore introduce la notazione per le prestazioni in campione e fuori campione. Le prestazioni fuori campione si riferiscono a qualcosa che non è mai stato visto prima e se un modello si comporta bene con dati fuori campione, significa che ha imparato. La disuguaglianza di Hoeffding, che viene utilizzata per misurare le differenze nelle prestazioni all'interno e all'esterno del campione, viene quindi applicata a più contenitori di ipotesi, ma il professore spiega che non si applica in questo caso. Viene quindi discusso il motivo per cui non si applica e al pubblico viene chiesto di lanciare una moneta cinque volte e registrare i risultati per illustrare il punto.

  • 00:45:00 In questa sezione, il professore descrive come la disuguaglianza di Hoeffding si applica alla situazione di apprendimento, in cui i dati rientrano casualmente in una delle due categorie. Spiega che più bidoni rendono difficile affrontare il problema e diluisce la garanzia della disuguaglianza di Hoeffding poiché calcola la probabilità che un bidone dia cinque teste. Sebbene ciascuno dei bidoni possa superare il test delle cinque teste, non sono un'indicazione della reale probabilità del bidone, poiché è probabile che si verifichi una probabilità estremamente alta che accada qualcosa di brutto, da qualche parte. Il professore conclude questa sezione affermando che devono trovare qualcosa che possa farli gestire in modo efficiente più contenitori.

  • 00:50:00 In questa sezione, il docente discute la probabilità che l'errore nel campione sia vicino all'errore fuori campione nell'ambito dello scenario di apprendimento genuino, che comporta la scelta di un'ipotesi da un insieme basato su un campione criterio. La probabilità di questo evento è minore o uguale alla probabilità che qualsiasi ipotesi dall'insieme finito sia cattiva, calcolata utilizzando l'Union Bound in probabilità. Sebbene questo limite sia pessimistico e non consideri la sovrapposizione, può essere utilizzato per calcolare il limite superiore su tutte le probabilità. Ogni termine in questo limite corrisponde a un'ipotesi fissa, che può essere sostituita dal limite di Hoeffding. In definitiva, la probabilità che l'errore nel campione sia vicino all'errore fuori campione è ancora delimitata da un termine con un esponenziale in esso, ma include un fattore aggiuntivo che è fastidioso.

  • 00:55:00 In questa sezione, il professore discute il problema dell'overfitting e la sua relazione con la sofisticatezza del modello utilizzato. Con un numero maggiore di ipotesi, aumenta anche la probabilità che accada qualcosa di brutto. Il professore spiega che avere un modello più sofisticato può portare alla memorizzazione nel campione e a una scarsa generalizzazione fuori dal campione. La sessione di domande e risposte discute la disuguaglianza di Hoeffding e le sue implicazioni, incluso il caso in cui il risultato è banale e come il numero di ipotesi per l'apprendimento dei modelli sia spesso infinito. La lezione si conclude con la richiesta di rivedere la diapositiva 6 sull'implicazione di nu uguale a mu.

  • 01:00:00 In questa sezione del video, il professore spiega il concetto di causa ed effetto in statistica e come si collega al machine learning. Sottolinea che la frequenza nel campione è l'effetto, mentre il bin è la causa. Questa comprensione è cruciale quando si utilizza la disuguaglianza di Hoeffding per dedurre il bin in base al campione trattando mu come una costante e nu come causa. Il professore chiarisce inoltre che ogni h nell'apprendimento automatico è un'ipotesi e il modello è l'insieme di ipotesi disponibili per la selezione. La complessità del modello e le singole ipotesi saranno discusse più avanti nel corso. Infine, il professore discute su come estendere l'equazione per supportare una gamma di risposte e non solo una risposta binaria, che può essere ottenuta prendendo il valore atteso di qualcosa rispetto alla media del campione.

  • 01:05:00 In questa sezione il professore spiega che l'apprendimento è fattibile, ma bisogna tenere in considerazione la varianza della variabile. Osserva che il valore atteso e la media campionaria di una funzione sono correlati alla probabilità e che è solo un caso più semplice della probabilità e della media campionaria. Inoltre, chiarisce che l'uso di più contenitori è necessario per rappresentare più ipotesi nell'apprendimento, poiché ipotesi diverse porteranno a colori diversi. Il professore spiega anche come funziona la scelta dei migliori iperpiani e come gli algoritmi di apprendimento risolvono questo problema scegliendo la soluzione specifica con cui terminano. Infine, sottolinea che l'unica invocazione di probabilità necessaria nell'apprendimento è quella di porre una distribuzione di probabilità su X per ottenere il beneficio dell'analisi probabilistica nell'apprendimento, ma che l'approccio bayesiano porrà una distribuzione di probabilità su H alla fine del corso.

  • 01:10:00 In questa sezione, la discussione è incentrata sulla flessibilità dell'insieme di ipotesi (H) utilizzato in un algoritmo di apprendimento. Il simbolo 'g' viene utilizzato per indicare l'ipotesi finale scelta da un algoritmo da H. Tuttavia, g può essere diverso poiché si riferisce all'intero processo di apprendimento che è andato a selezionarlo dall'ipotesi impostata in base ai dati e alla regola di apprendimento. Inoltre, è importante notare che anche se l'algoritmo perceptron o qualsiasi algoritmo di apprendimento lineare seleziona un'ipotesi ad ogni passaggio, è un processo nascosto dal punto di vista dell'analisi poiché l'obiettivo è scegliere un'ipotesi finale corretta, g, da H. Infine, la disuguaglianza di Hoeffding modificata è un'estensione della disuguaglianza di Hoeffding semplice che consente di fare affermazioni simultaneamente su un numero di ipotesi nell'ipotesi impostata al fine di garantire buone prestazioni tenendo conto della probabilità che possano accadere cose brutte.

  • 01:15:00 In questa sezione, il professore discute la relazione tra la disuguaglianza di Hoeffding ei valori p in statistica. Spiega che la disuguaglianza di Hoeffding è correlata alla stima dell'affidabilità e della probabilità di deviazione di un campione. Nota anche che ci sono altre leggi dei grandi numeri in statistica, ma si concentra su questa formula come la più utile per comprendere la teoria della generalizzazione. Il professore afferma che mentre è utile studiare diverse manifestazioni di in-sample vicino a out-of-sample e probabilità di errore, non è un argomento centrale del corso. La lezione si conclude e gli studenti vengono licenziati fino alla settimana successiva.
Lecture 02 - Is Learning Feasible?
Lecture 02 - Is Learning Feasible?
  • 2012.04.09
  • www.youtube.com
Is Learning Feasible? - Can we generalize from a limited sample to the entire space? Relationship between in-sample and out-of-sample. Lecture 2 of 18 of Cal...
 

Lezione 3 - Il Modello Lineare I




Corso di apprendimento automatico di Caltech - CS 156. Lezione 03 -Il modello lineare I

Questa lezione copre gli argomenti dei modelli lineari nell'apprendimento automatico, la rappresentazione dell'input, l'algoritmo perceptron, l'algoritmo tascabile e la regressione lineare, incluso il suo utilizzo nella classificazione. Il professore sottolinea l'importanza di utilizzare dati reali per provare idee diverse e introduce il concetto di funzionalità per semplificare la vita dell'algoritmo di apprendimento. La conferenza discute anche gli aspetti computazionali della pseudo-inversa nella regressione lineare e i problemi che possono sorgere quando si utilizza la regressione lineare per la classificazione su dati non separabili. Infine, viene presentato il concetto di utilizzo di trasformazioni non lineari per rendere i dati più lineari, con un esempio che dimostra come ottenere dati separabili utilizzando la trasformazione x1² e x2² dall'origine.

Inoltre il professore copre vari argomenti relativi al modello lineare nell'apprendimento automatico. Discute trasformazioni non lineari e linee guida sulla loro selezione, errori nel campione e fuori campione nella classificazione binaria, utilizzando la regressione lineare per l'analisi di correlazione e derivando caratteristiche significative dall'input. Il professore sottolinea inoltre l'importanza di comprendere la distinzione tra E_in ed E_out e il modo in cui incidono sulle prestazioni del modello. Infine, tocca la relazione tra regressione lineare e stima di massima verosimiglianza, l'uso di trasformazioni non lineari e il ruolo della teoria nella comprensione dei concetti di machine learning.

  • 00:00:00 In questa sezione, Yaser Abu-Mostafa approfondisce l'argomento delle ipotesi multiple in un modello. Poiché la probabilità che accada qualcosa di brutto potrebbe accumularsi su più ipotesi, è possibile applicare il limite di unione, una regola matematica. Questa tecnica consente alla probabilità di un evento o di un altro evento di essere minore o uguale alla somma delle singole probabilità, fornendo uno strumento utile per delimitare la probabilità che accada qualcosa di brutto. Quando un singolo set di ipotesi o bin corrisponde a una singola ipotesi, la probabilità che l'ipotesi finale sia negativa è piccola. Tuttavia, un insieme di ipotesi più ampio risulterà in un fattore M elevato, rendendo la probabilità priva di significato.

  • 00:05:00 In questa sezione, il docente discute l'importanza dei modelli lineari nell'apprendimento automatico e fornisce una sequenza di argomenti trattati nella lezione, che include il perceptron e la sua generalizzazione a dati non separabili, una funzione a valori reali, e infine a un caso non lineare. Introduce anche un pratico set di dati dai codici postali nell'ufficio postale che verrà utilizzato per provare idee diverse e sottolinea l'importanza di provare idee su dati reali. Il docente esamina la questione della rappresentazione dell'input, evidenziando la sfida di codificare i 256 numeri reali dell'input grezzo di 16 x 16 pixel a livello di grigio, che potrebbe portare a troppi parametri, ma viene risolta con tecniche di estrazione delle caratteristiche.

  • 00:10:00 In questa sezione, il video discute il concetto di rappresentazione dell'input e l'idea di funzionalità per semplificare la vita dell'algoritmo di apprendimento. Il docente fornisce un esempio di estrazione dei descrittori di un'immagine, come l'intensità e la simmetria, per ottenere una rappresentazione di livello superiore delle informazioni grezze. Utilizzando queste funzionalità, l'algoritmo deve solo determinare i valori di pochi parametri invece di tutti i 257 parametri nello spazio originale, che è meglio per la generalizzazione. La lezione presenta quindi i diagrammi di dispersione delle coordinate di intensità e simmetria per illustrare come le caratteristiche rendono il problema linearmente separabile e introduce il ruolo dell'algoritmo di apprendimento del percettrone nel determinare il confine decisionale.

  • 00:15:00 In questa sezione, apprendiamo il comportamento dell'algoritmo di apprendimento del percettrone quando i dati non sono separabili linearmente. A causa della sua natura di correggere le classificazioni errate una alla volta, a volte l'errore aumenterà o diminuirà e non può garantire la convergenza per tali casi. Per risolvere questo problema, introduciamo l'algoritmo tascabile, il che significa che misuriamo l'errore nel campione dell'ipotesi intermedia durante ogni iterazione e teniamo in tasca solo la migliore. Alla fine riportiamo l'ipotesi che abbiamo in tasca come ipotesi finale. L'algoritmo pocket fornisce risultati migliori poiché considera il valore pocket ad ogni iterazione che è risultato essere migliore di quello successivo, e quindi gli errori in-sample e out-sample sono molto più vicini.

  • 00:20:00 In questa sezione della conferenza, il professor Abu-Mostafa discute l'algoritmo tascabile, che è una versione modificata dell'algoritmo di apprendimento del percettrone che può essere utilizzato per dati generali inseparabili. L'algoritmo termina a una certa iterazione e riporta il valore della tasca. Spiega che il limite di classificazione dell'algoritmo tascabile è migliore di quello dell'algoritmo di apprendimento del percettrone, sebbene i dati non siano ancora perfettamente separabili. La regressione lineare viene quindi introdotta come approccio statistico comunemente utilizzato per trovare una relazione tra variabili, in particolare per analizzare la relazione tra GPA di diversi corsi e guadagni futuri. Infine, l'esempio di approvazione del credito viene rivisitato per mostrare come la regressione può essere utilizzata per prevedere il limite di credito di un cliente in base ai suoi dati.

  • 00:25:00 In questa sezione, il professore introduce il concetto di regressione lineare e spiega che viene utilizzato per prevedere valori di output reali basati su variabili di input. L'output è un'ipotesi che assume una forma lineare in termini di variabili di input. Le variabili sono codificate come input e l'algoritmo dipende dalla linearità del segnale. Il set di dati per questo esempio è costituito da dati storici di clienti precedenti in cui un funzionario ha valutato le loro richieste di credito e ha determinato una linea di credito. L'obiettivo è replicare quanto fanno gli esperti per automatizzare il sistema di determinazione delle linee di credito. L'algoritmo di regressione lineare misura l'errore e cerca di trovare i pesi ottimali per determinare l'ipotesi che approssima bene f. La funzione di errore standard utilizzata nella regressione lineare è l'errore al quadrato.

  • 00:30:00 In questa sezione, il docente discute come stimare una linea di credito e l'importanza di definire una misura dell'errore, come l'errore al quadrato, comunemente utilizzato nella regressione lineare. L'errore nel campione viene utilizzato per valutare quanto bene l'ipotesi sta andando sul set di dati, dove ogni esempio ha un contributo all'errore. L'algoritmo di regressione lineare cerca di minimizzare questo errore trovando una linea che si adatti ai dati secondo la regola dell'errore al quadrato. L'algoritmo si applica a spazi di dimensioni superiori in cui la linea è un iperpiano. L'espressione per E_in è presentata come una norma al quadrato di qualcosa che consolida i diversi x_n.

  • 00:35:00 In questa sezione viene introdotto il concetto di modello lineare, in cui i dati di input sono presentati come una matrice X con un vettore di output y. Il gradiente è preso per minimizzare E_in rispetto al parametro w. Ciò porta a una semplice equazione quadratica da risolvere, che coinvolge X trasposto X, una matrice quadrata invertibile. La soluzione è semplice a causa di ciò, e la formula per w è X^†, dove X^† è lo pseudo-inverso di X, che è una scorciatoia per l'inverso di X trasposto X moltiplicato per X trasposto. Poiché X non è invertibile, non ha un inverso tradizionale, ma ha uno pseudo-inverso.

  • 00:40:00 In questa sezione, il docente spiega gli aspetti computazionali della pseudo-inversa nella regressione lineare. La formula per lo pseudo-inverso implica l'inversione e la moltiplicazione della matrice, che può essere computazionalmente intensiva per matrici di grandi dimensioni. Tuttavia, il docente osserva che questo non è un problema per la maggior parte delle applicazioni pratiche poiché sono disponibili molti pacchetti per calcolare la pseudo-inversa o la soluzione per la regressione lineare. Per utilizzare la regressione lineare, è necessario inserire i dati nel formato corretto, costruire la matrice X e il vettore y, quindi inserirli nella formula per la pseudo-inversa. La moltiplicazione risultante fornisce i valori per w, i pesi per il modello lineare.

  • 00:45:00 In questa sezione viene introdotto il concetto di utilizzo della regressione lineare per la classificazione. Viene spiegato che anche le funzioni di classificazione a valori binari sono a valori reali e la regressione lineare può essere utilizzata per apprendere approssimativamente queste funzioni. I pesi ottenuti dalla regressione lineare possono anche essere utilizzati come pesi iniziali per algoritmi di classificazione come l'algoritmo perceptron, fornendo un avvio rapido e una convergenza potenzialmente più veloce. Inoltre, viene discussa l'idea di utilizzare il segno del segnale ottenuto dalla regressione lineare per classificarlo come +1 o -1. Infine, il limite di regressione lineare viene spiegato utilizzando un esempio.

  • 00:50:00 In questa sezione della lezione, il professore discute i problemi che possono sorgere quando si utilizza la regressione lineare per la classificazione, in particolare quando si tratta di dati non separabili. Dimostra che l'algoritmo cercherà di forzare tutti i valori alla stessa classificazione, spesso con conseguenti errori nel processo di classificazione. Introduce quindi l'idea di utilizzare trasformazioni non lineari per rendere i dati più lineari, come nel caso della determinazione della stabilità della linea di credito basata sugli anni di residenza. Tuttavia, sottolinea che è importante capire cosa si intende per "lineare" in termini di questi modelli per un uso efficace.

  • 00:55:00 In questa sezione, il docente discute l'importanza della linearità nei pesi quando si derivano algoritmi di apprendimento come perceptron e regressione lineare, poiché consente agli algoritmi di funzionare indipendentemente da quali siano le x. Ciò apre la possibilità di effettuare trasformazioni non lineari agli input senza lasciare il regno dei modelli lineari perché i pesi dati alle caratteristiche non lineari dipendono linearmente dai parametri. Viene fornito un esempio di trasformazione non lineare, in cui i dati vengono trasformati utilizzando misure x1² e x2² dall'origine, risultando in dati separabili. Tuttavia, la trasformazione non lineare è una domanda carica che è sensibile ai problemi di generalizzazione, quindi le linee guida saranno discusse ulteriormente nella prossima lezione.

  • 01:00:00 In questa sezione, il professore discute le trasformazioni non lineari e le linee guida su quanto lontano ci si può spingere quando le si sceglie. Sottolinea l'importanza della generalizzazione e della conoscenza teorica nella selezione delle trasformazioni non lineari. La discussione passa quindi agli errori in-sample e out-of-sample, in particolare nel contesto della classificazione binaria. Il professore chiarisce che nell'apprendimento viene trattato solo l'errore in-sample, mentre l'errore out-of-sample viene gestito implicitamente con la garanzia che fare bene in-sample si tradurrà in fare bene fuori-campione. Viene anche spiegata la distinzione tra probabilità di errore e frequenza di errore nella classificazione. La lezione tocca poi l'uso della regressione lineare per determinare la correlazione tra GPA e reddito futuro. Vengono anche discusse brevemente la disponibilità di dati e l'inclusione di w_0 nella regressione lineare.

  • 01:05:00 In questa sezione, il professore spiega che la soglia è necessaria per la regressione lineare, in quanto compensa l'offset in funzione dei valori delle variabili, consentendo un modello adeguato. Nel caso binario, quando si utilizzano +1 o -1 come output, l'ipotesi della regressione lineare ha l'errore al quadrato minimo rispetto agli obiettivi sugli esempi e l'output dell'ipotesi è più vicino al valore +1 o -1 con un errore quadratico medio. Sebbene questa tecnica possa funzionare, potrebbe non classificare correttamente i punti, poiché la regressione lineare tenta di adattare punti irrilevanti che possono rovinare la classificazione. Il professore suggerisce di utilizzare la regressione lineare come peso iniziale e quindi di utilizzare un algoritmo di classificazione appropriato per perfezionarlo ulteriormente. Sulla derivazione delle funzionalità, non esiste un algoritmo generale e l'approccio migliore è esaminare l'input non elaborato e provare a dedurre funzionalità significative in base alla dichiarazione del problema. Tuttavia, se ci sono troppe funzionalità, può diventare un problema, ed è qui che le trasformazioni non lineari possono aiutare a semplificare lo spazio delle funzionalità.

  • 01:10:00 In questa sezione, il professore discute il concetto di caratteristiche, che sono rappresentazioni di livello superiore di un input grezzo. Il modello lineare è un elemento costitutivo di numerosi modelli nell'apprendimento automatico e altri modelli possono fornire prestazioni incrementali migliori in alcuni casi, ma sottolinea che il modello lineare fa il lavoro. Il professore evidenzia anche la differenza tra E_in ed E_out, con E_in facilmente valutabile, mentre E_out richiede garanzie teoriche che l'errore nel campione tenga traccia dell'errore fuori campione. Inoltre, spiega che la regressione lineare può ancora essere utilizzata per adattare un polinomio trasformando la variabile di input attraverso una trasformazione non lineare. Infine, parla brevemente della relazione tra i minimi quadrati di regressione lineare e la stima di massima verosimiglianza nella letteratura statistica, che implica più assunzioni su probabilità e rumore.

  • 01:15:00 In questa sezione, il professore parla della relazione tra il modello di regressione lineare e la massima verosimiglianza, ma preferisce presentare la regressione lineare nel contesto dell'apprendimento automatico senza fare troppe ipotesi sulle distribuzioni. Il professore discute anche le trasformazioni non lineari e il modo in cui vengono utilizzate nell'apprendimento automatico, inclusi i polinomi e le funzioni di base radiale. Affronta anche domande sulla ricerca di schemi nei generatori di numeri pseudo-casuali e sui diversi trattamenti per risposte continue rispetto a risposte discrete, che dipendono dal problema in questione. Infine, il professore sottolinea l'importanza della teoria per comprendere più a fondo le tecniche di machine learning.
Lecture 03 -The Linear Model I
Lecture 03 -The Linear Model I
  • 2012.04.12
  • www.youtube.com
The Linear Model I - Linear classification and linear regression. Extending linear models through nonlinear transforms. Lecture 3 of 18 of Caltech's Machine ...
 

Lezione 4 - Errore e Rumore



Corso di apprendimento automatico di Caltech - CS 156. Lezione 04 - Errore e rumore

Nella lezione 04 del corso di machine learning, il professor Abu-Mostafa discute l'importanza dell'errore e del rumore nei problemi di machine learning nella vita reale. Spiega il concetto di trasformazione non lineare utilizzando lo spazio delle caratteristiche Z, che è essenziale per preservare la linearità nell'apprendimento. La lezione copre anche i componenti del diagramma di apprendimento supervisionato, sottolineando l'importanza delle misure di errore nella quantificazione delle prestazioni dell'ipotesi. Gli obiettivi rumorosi vengono introdotti come una componente tipica dei problemi di apprendimento del mondo reale, che devono essere considerati quando si riduce al minimo l'errore nel campione. La lezione si conclude con una discussione sulla teoria dell'apprendimento e sulla sua rilevanza nella valutazione dell'errore in-sample, dell'errore out-of-sample e della complessità del modello.

Il professore spiega come i cambiamenti nella distribuzione di probabilità possono influenzare l'algoritmo di apprendimento e come le misure di errore possono differire per diverse applicazioni. Discute anche l'algoritmo per la regressione lineare, l'uso dell'errore al quadrato rispetto al valore assoluto per le misure di errore nell'ottimizzazione e il compromesso tra complessità e prestazioni nei modelli di apprendimento automatico. Il professore chiarisce la differenza tra lo spazio di input e l'estrazione delle caratteristiche e osserva che la teoria su come migliorare simultaneamente la generalizzazione e minimizzare l'errore sarà trattata nelle prossime lezioni.

  • 00:00:00 In questa sezione, il professor Abu-Mostafa discute l'importanza dell'errore e del rumore quando si considerano i problemi della vita reale nell'apprendimento automatico. Per prima cosa rivisita il concetto di trasformazione non lineare e come aiuta a trasformare le variabili e preservare la linearità in w, il vettore del peso, che è essenziale per il processo di apprendimento. Quindi introduce il concetto di errore e rumore nel diagramma di apprendimento, riconoscendo le considerazioni pratiche che sorgono nelle situazioni della vita reale. La lezione include anche un esempio di dati non separabili che possono essere separati attraverso una trasformazione non lineare.

  • 00:05:00 In questa sezione viene discussa una trasformazione non lineare chiamata phi in cui ogni punto nello spazio campionario x_n viene sottoposto alla trasformazione e il punto corrispondente z_n viene ottenuto nello spazio delle caratteristiche Z, che può essere uno spazio altamente non lineare. Ciò consente al set di dati di diventare linearmente separabile nel nuovo spazio delle caratteristiche, che viene quindi applicato da semplici algoritmi di modello lineare come la regressione lineare o la classificazione per ottenere un confine di separazione. Tuttavia, quando viene fornito un punto di prova, si trova nello spazio di input, quindi questo punto deve essere trasformato utilizzando una trasformazione inversa per individuare dove si trova nello spazio delle caratteristiche da classificare di conseguenza. Questa procedura funziona bene in qualsiasi dimensione delle dimensioni per qualsiasi trasformazione non lineare, ma è importante prestare attenzione alla trasformazione per evitare problemi di generalizzazione.

  • 00:10:00 In questa sezione, l'istruttore discute i componenti del diagramma di apprendimento supervisionato e introduce il concetto di misure di errore e obiettivi rumorosi. Spiega che l'obiettivo delle misure di errore è quantificare quanto bene o quanto male un'ipotesi si avvicini a una funzione target sconosciuta. La misura dell'errore è definita come E di due funzioni, e sottolinea che si tratta di una misura quantitativa. Afferma inoltre che gli obiettivi rumorosi sono una componente pratica dei problemi di apprendimento della vita reale che devono essere presi in considerazione.

  • 00:15:00 In questa sezione, il relatore spiega come la funzione di errore viene utilizzata per misurare quanto bene una funzione di ipotesi si approssima a una funzione target negli algoritmi di apprendimento automatico. La funzione di errore restituisce un numero calcolato confrontando il valore di due funzioni nello stesso punto. La definizione puntuale è comunemente usata e la media degli errori puntuali viene utilizzata per definire la funzione di errore sull'intero spazio. L'errore nel campione della funzione di errore è la media degli errori puntuali nel set di addestramento, mentre l'errore fuori campione richiede la divisione dei dati in set di addestramento e test. Il relatore sottolinea l'importanza di minimizzare la funzione di errore al fine di sviluppare una funzione di ipotesi accurata.

  • 00:20:00 In questa sezione, il docente discute l'errore fuori campione, che è la versione fuori campione di una misura di errore. Il valore atteso si ottiene calcolando la media di tutti i punti nello spazio di input X. L'errore binario è la probabilità di errore complessiva, che viene calcolata utilizzando la distribuzione di probabilità sullo spazio di input X. Il diagramma di apprendimento viene aggiornato con l'aggiunta della misura dell'errore , definito punto per punto. La misura dell'errore è definita nel contesto della verifica dell'impronta digitale con due tipi di errori: falsa accettazione e falso rifiuto. Quando si definisce una misura di errore, ogni tipo di errore viene penalizzato per ottenere un'ipotesi migliore.

  • 00:25:00 In questa sezione, il relatore discute il concetto di errore e rumore nei sistemi di verifica delle impronte digitali e come l'apprendimento automatico può essere utilizzato per creare un'ipotesi per accettare o rifiutare individui in base alle loro impronte digitali. Il relatore osserva che non vi è alcun merito intrinseco nella scelta di una funzione di errore rispetto a un'altra e che dipende dal dominio dell'applicazione. Ad esempio, nel caso dei supermercati, i falsi rifiuti sono costosi in quanto possono rendere i clienti frustrati e portare i loro affari altrove, mentre i falsi accettati non sono un grosso problema. Tuttavia, nel caso della CIA, le false accettazioni potrebbero potenzialmente portare a violazioni della sicurezza, il che le rende più costose dei falsi rifiuti. Pertanto, la matrice di errore deve essere regolata in base all'applicazione specifica.

  • 00:30:00 In questa sezione, il relatore discute l'importanza delle misure di errore nei problemi di apprendimento pratico e spiega che la misura di errore utilizzata dovrebbe essere specificata dall'utente che utilizzerà il sistema imperfetto. Suggerisce che se l'utente può articolare una funzione di errore quantitativa, allora quella è la funzione di errore con cui lavorare. Tuttavia, quando gli utenti non forniscono funzioni di errore specifiche, è possibile utilizzare altre misure plausibili o amichevoli. Le misure plausibili hanno meriti analitici, mentre le misure amichevoli sono facili da usare. L'oratore modifica il diagramma di apprendimento per introdurre la misura dell'errore, che è fondamentale per chiarire ciò che il sistema dovrebbe apprendere.

  • 00:35:00 In questa sezione, l'attenzione è rivolta alla misura dell'errore e al suo ruolo nell'algoritmo di apprendimento. La misura dell'errore ha due funzioni principali: valutare l'ipotesi finale e approssimare la funzione target e fornire la misura dell'errore all'algoritmo di apprendimento per minimizzare l'errore nel campione. Inoltre, gli obiettivi rumorosi vengono introdotti come norma per i problemi della vita reale. La funzione target non è sempre una funzione e può essere influenzata dal rumore di informazioni e circostanze non contabilizzate, il che la rende probabilistica piuttosto che deterministica. Viene utilizzata una distribuzione target invece di una funzione target, dove y è generato dalla distribuzione di probabilità data x, che rappresenta la dipendenza probabilistica. Il concetto di obiettivi rumorosi viene affrontato introducendo l'idea di una funzione obiettivo deterministica più rumore, e questo approccio viene utilizzato per semplificare la nozione di distribuzione obiettivo.

  • 00:40:00 In questa sezione, il relatore discute il concetto di rumore nell'apprendimento automatico e come può influire sul processo di apprendimento. La funzione target è definita come il valore atteso di y dato x, con la parte rimanente chiamata rumore. Se la funzione obiettivo non è ben definita, può essere posta come una distribuzione di probabilità e gli obiettivi rumorosi possono essere rappresentati come una distribuzione di probabilità condizionale di y dato x. Il diagramma di apprendimento per l'apprendimento supervisionato include gli obiettivi rumorosi e viene fatta la distinzione tra le probabilità di x e y dato x. Nonostante le complessità coinvolte, il relatore osserva che ogni componente nel diagramma di apprendimento ha una ragione per essere lì.

  • 00:45:00 In questa sezione, il relatore spiega il concetto di distribuzione target, che è la distribuzione di probabilità dell'affidabilità creditizia dato l'input, e sottolinea che è ciò che stai cercando di apprendere attraverso l'apprendimento supervisionato. La distribuzione dell'input, d'altra parte, svolge il ruolo di quantificare l'importanza relativa dell'input nella distribuzione target, ma non è quello che stai cercando di imparare. L'oratore avverte anche che mescolare le due distribuzioni, cosa che può essere fatta in teoria, può causare confusione sulla vera distribuzione target. Infine, il relatore introduce la teoria dell'apprendimento, che mira ad approssimare la distribuzione del target e ne sottolinea l'importanza per acquisire insight e acquisire strumenti secondari.

  • 00:50:00 In questa sezione, il docente spiega che l'errore fuori campione per una funzione g dovrebbe essere vicino a zero, in quanto ciò significa una buona generalizzazione. Tuttavia, poiché questa quantità è impossibile da conoscere, possiamo utilizzare l'errore nel campione come proxy per l'errore fuori campione, purché disponiamo dei controlli corretti. La storia completa dell'apprendimento implica due domande: possiamo assicurarci che la prestazione fuori campione sia abbastanza vicina alla prestazione nel campione (una domanda teorica) e possiamo rendere l'errore nel campione abbastanza piccolo (una domanda pratica )? Il docente osserva che in alcune applicazioni è impossibile ottenere prestazioni fuori campione vicine allo zero, come nelle previsioni finanziarie in cui sono presenti dati puramente rumorosi. Nonostante ciò, gli hedge fund possono ancora fare soldi sfruttando un po' di inefficienza.

  • 00:55:00 In questa sezione della lezione, il professore discute l'importanza dell'errore fuori campione e la teoria che verrà trattata nelle prossime due settimane. La teoria si occupa della comprensione dell'errore nel campione, dell'errore fuori campione e della complessità del modello e verranno fornite definizioni formali per valutare questi fattori. L'obiettivo principale della teoria è caratterizzare la fattibilità dell'apprendimento per i casi in cui l'insieme di ipotesi è infinito, come il perceptron e i modelli di regressione lineare. La teoria misurerà il modello in base a un singolo parametro che riflette la sofisticazione del modello, che contribuirà a fare molta differenza nell'apprendimento pratico. Il professore risponde anche a una domanda, discutendo l'impatto relativo di P di x nell'algoritmo di apprendimento.

  • 01:00:00 In questa sezione, il professore discute come i cambiamenti nella distribuzione di probabilità possono influenzare l'algoritmo di apprendimento, in particolare nella scelta degli esempi di apprendimento. Il professore spiega che la distribuzione di probabilità dell'input gioca un ruolo tecnico, ma la sua enfasi su alcune parti dello spazio rispetto ad altre può influenzare le scelte fatte dall'algoritmo. Per quanto riguarda il modo migliore per scegliere tra N coppie di x e y o N y per x, il professore suggerisce di ottenerle indipendentemente piuttosto che per lo stesso input per evitare di occuparsi di una parte molto specifica dello spazio di input e migliorare la generalizzazione. Infine, il professore osserva che esiste un modo per misurare la scarsa generalizzazione o la buona generalizzazione, che farà parte della teoria.

  • 01:05:00 In questa sezione, il professore spiega che le misure di errore possono essere diverse per diversi domini applicativi, anche per lo stesso sistema e gli stessi dati di addestramento. Fornisce esempi di come il giusto equilibrio tra falsa accettazione e falso rifiuto possa differire per un supermercato e la CIA. Il professore chiarisce inoltre che la struttura della probabilità di x (P(x)) non è un problema nell'apprendimento supervisionato, a patto che la stessa distribuzione sia utilizzata per la formazione e la verifica. Spiega inoltre che qualsiasi distribuzione di probabilità sarà sufficiente per invocare l'approccio probabilistico al problema dell'apprendimento. Infine, il professore accoglie una richiesta di semplificazione del caso di misura dell'errore al quadrato e soluzione in forma chiusa, che tratterà nella revisione.

  • 01:10:00 In questa sezione, il professore spiega come l'algoritmo per la regressione lineare è stato derivato in base alla minimizzazione dell'errore al quadrato, risultando in una semplice soluzione in forma chiusa. Spiega anche come uno squilibrio nella probabilità di y influisca sul processo di apprendimento e che ricompense e costi siano equivalenti. Inoltre, chiarisce che quando si fa riferimento allo spazio di input nell'apprendimento automatico, include tutti i punti possibili solo in termini di parti di input, mentre l'estrazione delle funzionalità implica l'elaborazione dell'input per rimuovere informazioni irrilevanti. L'analisi delle componenti principali è un altro metodo per rilevare le direzioni informative nello spazio di rappresentazione dell'input.

  • 01:15:00 In questa sezione della lezione, il professore discute l'uso della misura dell'errore al quadrato rispetto al valore assoluto per le misure dell'errore nell'ottimizzazione. Spiega che l'errore al quadrato è una funzione uniforme e ha molte proprietà desiderabili, mentre il valore assoluto non è uniforme e può portare all'ottimizzazione combinatoria. Tuttavia, se l'utilizzo del valore assoluto è necessario per un merito specifico, può comunque essere utilizzato. Inoltre, chiarisce che l'obiettivo è la funzione f di x, non w trasposta x, e che il rumore è la differenza tra y e il valore atteso di y dato uno specifico x. Infine, il professore osserva che esiste un compromesso tra complessità e prestazioni nei modelli di apprendimento automatico, ma le risposte su come migliorare contemporaneamente la generalizzazione e ridurre al minimo l'errore saranno trattate nelle prossime quattro lezioni.
Lecture 04 - Error and Noise
Lecture 04 - Error and Noise
  • 2012.04.15
  • www.youtube.com
Error and Noise - The principled choice of error measures. What happens when the target we want to learn is noisy. Lecture 4 of 18 of Caltech's Machine Learn...
 

Lezione 5 - Formazione Versus Testing



Corso di apprendimento automatico di Caltech - CS 156. Lezione 05 - Formazione contro test

Nella lezione 5 del suo corso Learning From Data, il professor Abu-Mostafa discute i concetti di errore e rumore nell'apprendimento automatico, la differenza tra addestramento e test e la funzione di crescita, che misura il numero massimo di dicotomie che possono essere prodotte da un'ipotesi fissata per un dato numero di punti. Introduce anche il punto di interruzione, che corrisponde alla complessità di un insieme di ipotesi e garantisce un tasso di crescita polinomiale in N se esiste, e discute vari esempi di insiemi di ipotesi come raggi positivi, intervalli e insiemi convessi. La conferenza sottolinea l'importanza di comprendere questi concetti e le loro strutture matematiche al fine di comprendere appieno la complessità degli insiemi di ipotesi e il loro potenziale per un apprendimento fattibile.

Il professore ha trattato vari argomenti relativi alla formazione rispetto ai test. Ha risposto alle domande del pubblico sull'obiettivo non binario e sulle funzioni delle ipotesi e sul compromesso dei punti di rottura. Il professore ha spiegato l'importanza di trovare una funzione di crescita e perché è preferibile utilizzare 2 alla potenza di N per misurare la probabilità che la generalizzazione sia alta. Inoltre, ha discusso la relazione tra il punto di rottura e la situazione di apprendimento, osservando che l'esistenza del punto di rottura significa che l'apprendimento è fattibile, mentre il valore del punto di rottura ci dice le risorse necessarie per raggiungere una certa prestazione. Infine, il professore ha spiegato le alternative a Hoeffding e perché si attiene ad esso per assicurarsi che le persone lo familiarizzino.

  • 00:00:00 In questa sezione, il professor Abu-Mostafa discute i concetti di errore e rumore e come si relazionano all'apprendimento automatico in situazioni pratiche. Spiega l'importanza di definire le misure di errore e come vengono utilizzate per determinare le prestazioni di un'ipotesi rispetto a una funzione target. Inoltre, discute il concetto di obiettivi rumorosi, in cui l'obiettivo non è una funzione deterministica, ma piuttosto è influenzato da x ed è distribuito secondo una distribuzione di probabilità. Il professor Abu-Mostafa introduce anche il percorso teorico che durerà per le prossime tre lezioni, concentrandosi sulla formazione contro il test e il quadro matematico che lo descrive in modo realistico.

  • 00:05:00 In questa sezione, il docente esplora la differenza tra formazione e test nel contesto di un esame finale. I problemi pratici e le soluzioni fornite prima dell'esame finale fungono da set di formazione. L'esame finale funge da test set. Il docente sottolinea che l'obiettivo non è fare bene l'esame finale, ma capire il materiale, che si riflette in un piccolo E_out. La descrizione matematica del test riguarda il modo in cui si è svolto l'esame finale, mentre la descrizione matematica dell'allenamento riguarda il modo in cui si è svolto sui problemi pratici. La contaminazione del set di pratica si traduce in una prestazione degradata sulla metrica E_in. Il docente sottolinea la necessità di sostituire la quantità M con una più amichevole nella misurazione della complessità degli insiemi di ipotesi.

  • 00:10:00 In questa sezione, il relatore discute l'importanza di comprendere da dove proviene un'ipotesi, M, e il contesto che la circonda per sostituirla. L'oratore spiega che ci sono eventi negativi chiamati B e l'obiettivo è evitare la situazione in cui la performance nel campione non tiene traccia della performance fuori campione. L'obiettivo è garantire che la probabilità di uno qualsiasi degli eventi negativi sia piccola, indipendentemente dalle correlazioni tra gli eventi. L'oratore prosegue poi spiegando l'esempio del percettrone e come definire il cattivo evento in termini di immagine per garantire un legame migliore.

  • 00:15:00 In questa sezione, il docente discute i concetti di E_in e E_out, che rappresentano rispettivamente gli errori in-sample e out-of-sample per un'ipotesi. Quindi esamina come si confrontano i cambiamenti in E_in ed E_out quando si passa da un'ipotesi all'altra, sostenendo che sono piccoli e si muovono nella stessa direzione a causa dell'area di sovrapposizione tra le ipotesi. Il docente suggerisce che M, la precedente misura di complessità, può essere sostituita con una nuova quantità che caratterizza la complessità di qualsiasi modello, ma ciò richiederà una dimostrazione nella lezione successiva. Introduce la quantità e sottolinea la necessità di comprenderla bene prima di procedere alla dimostrazione.

  • 00:20:00 In questa sezione, il docente spiega cosa sono le dicotomie e come si relazionano alle ipotesi. Le dicotomie sono ipotesi multiple definite solo su un sottoinsieme dei punti e rappresentano i diversi possibili modelli di rosso e blu su un insieme finito di punti dati. Ad esempio, se ci sono solo poche dicotomie, l'insieme di ipotesi non è potente, ma se ce ne sono molte, l'insieme di ipotesi è forte. Il docente descrive le dicotomie come un foglio di carta opaco con dei buchi, posto sopra lo spazio di input, che mostra solo lo schema dei punti rossi e blu. Le dicotomie sono un modo formale di esprimere ipotesi, in cui la funzione produce -1 o +1 per le regioni blu e rosse.

  • 00:25:00 In questa sezione, il docente discute il numero di ipotesi e dicotomie nel caso del perceptron. Spiega che può esserci un numero infinito di ipotesi a causa del percettrone che ha valori infiniti. Tuttavia, il numero di dicotomie è limitato in quanto esiste solo un numero finito di punti su cui restituire +1 o -1. La funzione di crescita, indicata con "m", sostituisce il numero di ipotesi contando il maggior numero di dicotomie che si possono ottenere usando la loro ipotesi impostata su N punti qualsiasi. Il docente afferma che la funzione di crescita viene calcolata massimizzando il numero di dicotomie rispetto a qualsiasi scelta di N punti dallo spazio di input.

  • 00:30:00 In questa sezione, il docente spiega la nozione di funzione di crescita e come si applica ai percettroni. La funzione di crescita di un insieme di ipotesi è una funzione che indica il numero massimo di dicotomie che possono essere prodotte per un dato numero di punti. Per i percettroni, ottenere la funzione di crescita è impegnativo perché richiede di trovare la funzione di crescita per ogni numero di punti, a partire da uno. Inoltre, per ogni numero di punti, ci sono certe costellazioni di punti che un perceptron non può generare. Tuttavia, queste limitazioni sono previste perché i percettroni sono modelli semplici con un semplice algoritmo.

  • 00:35:00 In questa sezione, il docente discute il concetto di funzioni di crescita utilizzando esempi di diversi modelli tra cui raggi positivi e intervalli positivi. Spiega che la funzione di crescita per i raggi positivi è N+1, il che significa che il numero di dicotomie dipende dal numero di segmenti di linea possibili tra N punti. Nel frattempo, gli intervalli positivi hanno una funzione di crescita maggiore perché due parametri, l'inizio e la fine dell'intervallo, possono essere variati per ottenere diverse dicotomie.

  • 00:40:00 In questa sezione, il docente discute le funzioni di crescita per insiemi di ipotesi con vari gradi di complessità. Per l'insieme di ipotesi più semplice di dicotomie in una linea, la formula della funzione di crescita è semplicemente il numero di modi per scegliere 2 segmenti tra gli N+1 segmenti, che equivale a (N+1) scegliere 2. Per l'insieme di ipotesi successivo di regioni convesse in un piano, il docente osserva che alcune regioni non sono valide perché non sono convesse. La formula della funzione di crescita per questo insieme richiede un conteggio più complicato poiché non tutte le dicotomie sono valide. Il docente propone quindi una scelta ottimale per il posizionamento del punto, che è sul perimetro di un cerchio, per massimizzare la funzione di crescita per questo insieme di ipotesi.

  • 00:45:00 In questa sezione, il docente discute la funzione di crescita per insiemi convessi e come non sia potente quanto la funzione di crescita per intervalli positivi. Il docente mostra come funziona la funzione di crescita per ciascuna delle ipotesi. Discutono anche su come sostituire il massimo M con un numero finito m, che può essere la funzione di crescita. Il docente conclude che se la funzione di crescita è un polinomio, l'apprendimento è fattibile utilizzando tale ipotesi. Tuttavia, il docente ammette che non è facile valutare esplicitamente la funzione di crescita.

  • 00:50:00 In questa sezione viene introdotto il concetto di break point per definire il punto in cui un insieme di ipotesi non riesce a ottenere tutte le possibili dicotomie. Il punto di interruzione corrisponde alla complessità dell'insieme di ipotesi e se nessun insieme di dati di dimensione k può essere infranto dall'insieme di ipotesi, allora k è un punto di interruzione per esso. Il punto di rottura per il percettrone 2D risulta essere 4. La lezione copre anche gli esempi di raggi positivi, intervalli e insiemi convessi per spiegare come trovare il punto di rottura per ogni insieme di ipotesi. Inoltre, è stabilito che se un insieme di ipotesi non ha un punto di interruzione, allora avrà una crescita infinita.

  • 00:55:00 In questa sezione, il professore spiega il concetto di funzione di crescita e come garantisce un tasso di crescita polinomiale in N se esiste un punto di rottura. Con il vincolo di un punto di interruzione, esiste un'enorme restrizione combinatoria che elimina possibili dicotomie a frotte, riducendo la funzione di crescita da 2 a N senza restrizioni a polinomio. Il professore fornisce un esempio di un'ipotesi a tre punti impostata con un punto di interruzione di due, in cui le dicotomie sono limitate e i trasgressori vengono rimossi fino a quando rimane una sola dicotomia, che soddisfa il vincolo.

  • 01:00:00 In questa sezione, il professore risponde alle domande del pubblico sulle funzioni di obiettivi e ipotesi non binarie e sul compromesso dei punti di rottura. Spiega che la teoria che sta sviluppando è gestibile per le funzioni binarie, ma esiste una controparte per le funzioni a valori reali che è più tecnica, che tratterà attraverso il metodo del compromesso bias-varianza. In termini di punti sconvolgenti, afferma che è utile per adattare i dati ma negativo per la generalizzazione, e trovare il giusto equilibrio tra approssimazione e generalizzazione è fondamentale. Inoltre, chiarisce l'importanza della crescita polinomiale e come garantisce piccole probabilità che accada qualcosa di brutto.

  • 01:05:00 In questa sezione, il professore discute un puzzle in cui vengono messi 3 bit su ogni riga e si tenta di ottenere quante più righe possibili sotto il vincolo che due punti non possono essere frantumati. Il professore esegue l'esercizio di aggiunta di righe e tiene d'occhio tutte le possibili combinazioni per evitare di violare il vincolo. Alla fine, il professore conclude che con questo vincolo è possibile ottenere solo quattro possibili modelli e non è possibile aggiungere più righe. Questa limitazione è dovuta al fatto che il numero di ipotesi è infinito per i percettroni e la funzione di crescita è identicamente 2 alla N o polinomiale, senza niente in mezzo.

  • 01:10:00 In questa sezione della lezione, il professore discute l'importanza di trovare una funzione di crescita e perché è preferibile usare 2 alla potenza di N per misurare la probabilità che la generalizzazione sia alta. Il professore spiega che trovare una funzione di crescita polinomiale produrrebbe un lato destro gestibile e porterebbe ad un'alta probabilità di generalizzazione. Il professore risponde anche alle domande degli studenti sul numero di test e punti di addestramento, sull'errore fuori campione per diverse ipotesi e sul motivo per cui viene chiamata funzione di crescita. Il professore fa notare che ci sono diversi metodi per trovare una funzione di crescita, e talvolta la stima del punto di rottura sarà solo una stima e non un valore esatto.

  • 01:15:00 In questa sezione, il professore discute la relazione tra il punto di rottura e la situazione di apprendimento. Spiega che l'esistenza del punto di interruzione significa che l'apprendimento è fattibile, mentre il valore del punto di interruzione ci dice le risorse necessarie per raggiungere una determinata prestazione. Tocca anche le alternative a Hoeffding e il motivo per cui si attiene ad esso. L'obiettivo è che le persone diventino così familiari con Hoeffding da conoscerlo a freddo, in modo che quando vengono introdotte modifiche, non si perdano.
Lecture 05 - Training Versus Testing
Lecture 05 - Training Versus Testing
  • 2012.04.19
  • www.youtube.com
Training versus Testing - The difference between training and testing in mathematical terms. What makes a learning model able to generalize? Lecture 5 of 18 ...