Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
Lezione 6 - Teoria della generalizzazione
Corso di Machine Learning di Caltech - CS 156. Lezione 06 - Teoria della generalizzazione
La lezione discute la teoria della generalizzazione e la funzione di crescita come numero di dicotomie che possono essere generate da un'ipotesi posta su un insieme di N punti, con l'obiettivo di caratterizzare l'intera funzione di crescita e generalizzare per ogni N caratterizzando la rottura punto. Il relatore dimostra il processo di calcolo della funzione di crescita per diversi insiemi di ipotesi e dimostra il limite superiore per la funzione di crescita utilizzando l'identità combinatoria. La discussione tocca anche l'utilizzo della funzione di crescita nella disuguaglianza di Hoeffding, la VC destinata a caratterizzare le sovrapposizioni tra ipotesi e la disuguaglianza di Vapnik-Chervonenkis, che è un polinomio in N con l'ordine del polinomio deciso dal punto di rottura.
Il professore discute la teoria della generalizzazione, chiarendo i punti precedenti e spiegando il concetto di punto di rottura, che viene utilizzato per calcolare le risorse necessarie per l'apprendimento. L'obiettivo dell'apprendimento è l'approssimazione a E_out, non E_in, consentendo allo studente di lavorare con quantità familiari. Il professore spiega anche il ragionamento alla base della sostituzione di M con la funzione di crescita e come questa sia correlata alla quantità combinatoria B di N e k. Durante la discussione delle funzioni di regressione, il professore sottolinea il compromesso tra bias e varianza e come l'apprendimento sia indipendente dalla funzione target. Infine, il professore osserva che gli stessi principi si applicano a tutti i tipi di funzioni.
Lezione 07 - La dimensione VC
Corso di Machine Learning di Caltech - CS 156. Lezione 07 - La dimensione VC
La conferenza introduce il concetto di dimensione VC, che è il numero massimo di punti che possono essere infranti da un insieme di ipotesi, e ne spiega le applicazioni pratiche. La dimensione VC rappresenta i gradi di libertà di un modello e viene discussa la sua relazione con il numero di parametri in un modello. Vengono forniti esempi per dimostrare come calcolare la dimensione VC per diversi insiemi di ipotesi. Viene esplorata la relazione tra il numero di esempi necessari e la dimensione VC e si nota che esiste una relazione proporzionale tra i due. Vengono inoltre discusse le implicazioni dell'aumento della dimensione VC sulle prestazioni di un algoritmo di apprendimento. Nel complesso, la lezione fornisce approfondimenti sulla teoria VC e sulle sue implicazioni pratiche per l'apprendimento automatico.
Anche il video copre il concetto di generalizzazione e il limite di generalizzazione, che è un'affermazione positiva che mostra il compromesso tra la dimensione dell'insieme di ipotesi e una buona generalizzazione nell'apprendimento automatico. Il professore spiega la dimensione VC, che è il valore più grande prima del primo break point, e come può essere utilizzata per approssimare il numero di esempi necessari. Rileva l'importanza di scegliere la misura dell'errore corretta e chiarisce che la stima della dimensione VC è una stima approssimativa che può essere utilizzata per confrontare i modelli e approssimare il numero di esempi necessari. La conferenza si conclude evidenziando i punti in comune tra questo materiale e il tema della progettazione di esperimenti e come i principi dell'apprendimento si estendano ad altre situazioni al di là dei rigidi scenari di apprendimento.
Lezione 8 - Tradeoff Bias-Variance
Corso di Machine Learning di Caltech - CS 156. Lezione 08 - Bias-Variance Tradeoff
Il professore discute il compromesso bias-varianza nell'apprendimento automatico, spiegando come la complessità dell'insieme di ipotesi influisca sul compromesso tra generalizzazione e approssimazione. Il docente introduce il concetto di distorsione e varianza, che misurano la deviazione tra la media delle ipotesi prodotte da un algoritmo di apprendimento automatico e la funzione target effettiva e quanto varia la distribuzione delle ipotesi di un dato modello in base a diversi set di dati, rispettivamente. Il compromesso si traduce in un insieme di ipotesi più ampio con un pregiudizio minore ma una varianza maggiore, mentre un insieme di ipotesi più piccolo avrà un pregiudizio maggiore ma una varianza minore. Il docente sottolinea l'importanza di disporre di risorse di dati sufficienti per navigare efficacemente nell'insieme di ipotesi ed evidenzia la differenza di scala tra l'analisi della varianza di bias e l'analisi VC.
Inoltre discute il compromesso tra modelli semplici e complessi in termini di capacità di approssimazione e generalizzazione, con meno esempi che richiedono modelli semplici e maggiori risorse di esempi che richiedono modelli più complessi. L'analisi bias-variance è specifica per la regressione lineare e presuppone la conoscenza della funzione target, con la convalida come gold standard per la scelta di un modello. L'apprendimento dell'ensemble viene discusso tramite Bagging, che utilizza il bootstrap per calcolare la media di più set di dati, riducendo la varianza. Viene anche spiegato l'equilibrio tra varianza e covarianza nell'apprendimento dell'insieme e la regressione lineare è classificata come una tecnica di apprendimento con l'adattamento come prima parte dell'apprendimento, mentre la teoria enfatizza le buone prestazioni fuori campione.
Lecture 9 - The Linear Model II
Caltech's Machine Learning Course - CS 156. Lecture 09 - The Linear Model II
This lecture covers various aspects of the linear model, including the bias-variance decomposition, learning curves, and techniques for linear models such as perceptrons, linear regression, and logistic regression. The speaker emphasizes the tradeoff between complexity and generalization performance, cautioning against overfitting and emphasizing the importance of properly charging the VC dimension of the hypothesis space for valid warranties. The use of nonlinear transforms and their impact on generalization behavior is also discussed. The lecture further covers the logistic function and its applications in estimating probabilities, and introduces the concepts of likelihood and cross-entropy error measures in the context of logistic regression. Finally, iterative methods for optimizing the error function, such as gradient descent, are explained.
Also the lecture covers a range of topics related to linear models and optimization algorithms in machine learning. The professor explains the compromise between learning rate and speed in gradient descent optimization, introducing the logistic regression algorithm and discussing its error measures and learning algorithm. The challenges of termination in gradient descent and multi-class classification are also addressed. The role of derivation and selection of features in machine learning is emphasized and discussed as an art in application domains, charged in terms of VC dimension. Overall, this lecture provides a comprehensive overview of linear models and optimization algorithms for machine learning.
Lezione 10 - Reti Neurali
Corso di apprendimento automatico di Caltech - CS 156. Lezione 10 - Reti neurali
Yaser Abu-Mostafa, professore al California Institute of Technology, discute la regressione logistica e le reti neurali in questa conferenza. La regressione logistica è un modello lineare che calcola un'interpretazione probabilistica di una funzione a valori reali limitata. Non è in grado di ottimizzare direttamente la misura dell'errore, quindi viene introdotto il metodo della discesa del gradiente per ridurre al minimo una funzione non lineare arbitraria che sia sufficientemente uniforme e differenziabile due volte. Sebbene non esista una soluzione in forma chiusa, la misura dell'errore è una funzione convessa, che rende relativamente facile l'ottimizzazione utilizzando la discesa del gradiente.
La discesa del gradiente stocastico è un'estensione della discesa del gradiente utilizzata nelle reti neurali. Le reti neurali sono un modello che implementa un'ipotesi motivata da un punto di vista biologico e relativa ai percettroni. L'algoritmo di backpropagation è un algoritmo efficiente che va con le reti neurali e rende il modello particolarmente pratico. Il modello ha un collegamento biologico che ha entusiasmato le persone ed è stato facile da implementare utilizzando l'algoritmo. Sebbene non sia il modello di scelta al giorno d'oggi, le reti neurali hanno avuto successo nelle applicazioni pratiche e sono ancora utilizzate come standard in molti settori, come quello bancario e l'approvazione del credito.
Breve riassunto:
Lezione 11 - Overfitting
Corso di Machine Learning di Caltech - CS 156. Lezione 11 - Overfitting
Questa lezione introduce il concetto e l'importanza dell'overfitting nell'apprendimento automatico. L'overfitting si verifica quando un modello viene addestrato sul rumore anziché sul segnale, con conseguente scarso adattamento fuori campione. La conferenza include vari esperimenti per illustrare gli effetti di diversi parametri, come il livello di rumore e la complessità del target, sull'overfitting. Il docente sottolinea l'importanza di individuare precocemente l'overfitting e l'uso di tecniche di regolarizzazione e validazione per prevenirlo. Viene anche discusso l'impatto del rumore deterministico e stocastico sull'overfitting e la lezione si conclude introducendo le due lezioni successive sull'evitare l'overfitting attraverso la regolarizzazione e la convalida.
Viene discusso il concetto di overfitting e viene sottolineata l'importanza della regolarizzazione per prevenirlo. Il professore evidenzia il compromesso tra overfitting e underfitting e spiega il ruolo della dimensione VC nell'overfitting, dove la discrepanza nella dimensione VC dato lo stesso numero di esempi si traduce in discrepanze nell'errore fuori campione e all'interno del campione. Viene trattata anche la questione pratica della convalida di un modello e di come può influire sull'overfitting e sulla selezione del modello. Inoltre, il professore sottolinea il ruolo delle funzioni lineari a tratti nella prevenzione dell'overfitting e sottolinea l'importanza di considerare il numero di gradi di libertà nel modello e di restringerlo attraverso la regolarizzazione.
Lezione 12 - Regolarizzazione
Corso di Machine Learning di Caltech - CS 156. Lezione 12 - Regolarizzazione
Questa conferenza sulla regolarizzazione inizia con una spiegazione dell'overfitting e del suo impatto negativo sulla generalizzazione dei modelli di machine learning. Vengono discussi due approcci alla regolarizzazione: matematico ed euristico. La lezione approfondisce quindi l'impatto della regolarizzazione su distorsione e varianza nei modelli lineari, utilizzando l'esempio dei polinomi di Legendre come componenti in espansione. Viene trattata anche la relazione tra C e lambda nella regolarizzazione, con un'introduzione all'errore aumentato e al suo ruolo nel giustificare la regolarizzazione per la generalizzazione. Vengono anche discusse le tecniche di decadimento/crescita del peso e l'importanza di scegliere il giusto regolarizzatore per evitare l'overfitting. La conferenza si conclude con un focus sulla scelta di un buon omega come esercizio euristico e spera che lambda serva come grazia salvifica per la regolarizzazione.
La seconda parte discute il decadimento del peso come un modo per bilanciare la semplicità della rete con la sua funzionalità. Il docente mette in guardia contro l'eccessiva regolarizzazione e le prestazioni non ottimali, sottolineando l'uso della convalida per determinare parametri di regolarizzazione ottimali per diversi livelli di rumore. La regolarizzazione è discussa come sperimentale con una base teorica e pratica. Vengono introdotti tipi comuni di regolarizzazione come L1/L2, interruzione anticipata e abbandono, insieme a come determinare il metodo di regolarizzazione appropriato per diversi problemi. Vengono inoltre discussi gli iperparametri comuni associati all'implementazione della regolarizzazione.
Lezione 13 - Validazione
Corso di Machine Learning di Caltech - CS 156. Lezione 13 - Convalida
Nella lezione 13, l'attenzione è rivolta alla convalida come tecnica importante nell'apprendimento automatico per la selezione del modello. La conferenza approfondisce le specifiche della convalida, incluso il motivo per cui si chiama convalida e perché è importante per la selezione del modello. La validazione incrociata viene discussa anche come un tipo di validazione che consente l'uso di tutti gli esempi disponibili per l'addestramento e la validazione. Il docente spiega come stimare l'errore fuori campione utilizzando la variabile casuale che prende un punto fuori campione e calcola la differenza tra l'ipotesi e il valore target. La conferenza discute anche il bias introdotto quando si utilizza la stima per scegliere un particolare modello, in quanto non è più affidabile poiché è stato selezionato in base al set di validazione. Viene introdotto il concetto di convalida incrociata come metodo per valutare l'errore fuori campione per diverse ipotesi.
Copre anche l'uso della convalida incrociata per la selezione e la convalida del modello per prevenire l'overfitting, con particolare attenzione a "lasciarne fuori uno" e alla convalida incrociata di 10 volte. Il professore dimostra l'importanza di tenere conto della discrepanza fuori dal campione e dello snooping dei dati e suggerisce di includere metodi di randomizzazione per evitare bias di campionamento. Spiega che sebbene la convalida incrociata possa aggiungere complessità, combinandola con la regolarizzazione è possibile selezionare il modello migliore e, poiché la convalida non richiede presupposti, è unica. Il professore spiega inoltre come la convalida incrociata può aiutare a fare scelte di principio anche quando si confrontano diversi scenari e modelli e come i punti di convalida totali determinano la barra di errore e il bias.
Lezione 14 - Support Vector Machines
Corso di Machine Learning di Caltech - CS 156. Lezione 14 - Support Vector Machines
La conferenza copre l'importanza della convalida e del suo utilizzo nell'apprendimento automatico, nonché i vantaggi della convalida incrociata rispetto alla convalida. Il focus della lezione è sulle macchine vettoriali di supporto (SVM) come il modello di apprendimento più efficace per la classificazione, con uno schema dettagliato della sezione che coinvolge la massimizzazione del margine, la formulazione e le soluzioni analitiche attraverso l'ottimizzazione vincolata presentata. La lezione copre una serie di aspetti tecnici, tra cui come calcolare la distanza tra un punto e un iperpiano negli SVM, come risolvere il problema di ottimizzazione per gli SVM e come formulare il problema di ottimizzazione SVM nella sua doppia formulazione. Il docente discute anche gli aspetti pratici dell'utilizzo della programmazione quadratica per risolvere il problema di ottimizzazione e l'importanza di identificare i vettori di supporto. La lezione si conclude con una breve discussione sull'uso delle trasformazioni non lineari nelle SVM.
Nella seconda parte di questa lezione sulle macchine a vettori di supporto (SVM), il docente spiega come il numero di vettori di supporto diviso per il numero di esempi dia un limite superiore alla probabilità di errore nella classificazione di un punto fuori campione, rendendo il uso di vettori di supporto con trasformazione non lineare fattibile. Il professore discute anche la normalizzazione di w trasposto x più b per essere 1 e la sua necessità di ottimizzazione, così come la versione soft-margin di SVM, che consente errori e li penalizza. Inoltre, viene spiegata la relazione tra il numero di vettori di supporto e la dimensione VC e viene menzionata la resistenza del metodo al rumore, con la versione soft del metodo utilizzato nei casi di dati rumorosi.
Lezione 15 - Metodi Kernel
Corso di apprendimento automatico di Caltech - CS 156. Lezione 15 - Metodi del kernel
Questa lezione sui metodi del kernel introduce le macchine vettoriali di supporto (SVM) come un modello lineare che è più orientato alle prestazioni rispetto ai tradizionali modelli di regressione lineare a causa del concetto di massimizzare il margine. Se i dati non sono separabili linearmente, le trasformazioni non lineari possono essere utilizzate per creare superfici ondulate che consentono comunque ipotesi complesse senza pagare un prezzo elevato in termini di complessità. Il video spiega i metodi del kernel che vanno nello spazio Z ad alta dimensione, spiegando come calcolare il prodotto scalare senza calcolare i singoli vettori. Il video delinea anche i diversi approcci per ottenere un kernel valido per problemi di classificazione e spiega come applicare SVM a dati non separabili. Infine, il video spiega il concetto di slack e quantifica la violazione del margine in SVM, introducendo una variabile xi per penalizzare la violazione del margine e rivedendo la formulazione lagrangiana per risolvere l'alfa.
La seconda parte tratta gli aspetti pratici dell'utilizzo delle macchine a vettori di supporto (SVM) e dei metodi del kernel. Spiega il concetto di macchine vettoriali di supporto del margine morbido e come consentono una classificazione errata pur mantenendo un ampio margine. Parla dell'importanza del parametro C, che determina quanta violazione può verificarsi, e suggerisce di utilizzare la convalida incrociata per determinarne il valore. Affronta anche le preoccupazioni sulla coordinata costante nei dati trasformati e assicura agli utenti che svolge lo stesso ruolo del termine bias. Inoltre, discute la possibilità di combinare i kernel per produrre nuovi kernel e suggerisce metodi euristici che possono essere utilizzati quando la programmazione quadratica non riesce a risolvere SVM con troppi punti dati.