Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
CS480/680 Lezione 6: Compressione del modello per la PNL (Ashutosh Adhikari)
CS480/680 Lezione 6: Compressione del modello per la PNL (Ashutosh Adhikari)
In questo video, il relatore discute il concetto di compressione del modello per la PNL e le sfide del tempo di elaborazione e dei requisiti di memoria man mano che aumentano il numero e la profondità delle reti neurali profonde. Vengono classificate le tecniche di compressione del modello e viene introdotto il metodo più antico, l'eliminazione e la condivisione dei parametri. Il relatore elabora ulteriormente il concetto di un sistema studente-insegnante per la compressione del modello in PNL e come la funzione obiettivo viene utilizzata per comprimere un modello più grande in un modello studente più piccolo pur mantenendo la precisione. Infine, viene evidenziata la potenziale importanza della compressione dei modelli nel contesto del recente lavoro sullo sviluppo di modelli di PNL su larga scala.
CS480/680 Lezione 7: Miscela di gaussiane
CS480/680 Lezione 7: Miscela di gaussiane
In questa lezione sulla miscela di gaussiane, il relatore spiega come il modello può essere utilizzato per la classificazione costruendo una distribuzione a priori per ogni classe, che consente la costruzione di un modello probabilistico utilizzando il teorema di Bayes per stimare la probabilità di una classe per un dato punto dati. La lezione copre anche il processo di calcolo della probabilità di un punto dati appartenente a una certa classe e come questo viene utilizzato per determinare la previsione della classe. Gli appunti della lezione esplorano la relazione tra la funzione softmax e la distribuzione dell'arco massimo e come la forma ei limiti della gaussiana sono determinati dalla matrice di covarianza. Infine, la lezione descrive in dettaglio il processo di apprendimento della massima verosimiglianza e come può essere utilizzato per stimare la media e la matrice di covarianza per una combinazione di modelli gaussiani.
CS480/680 Lezione 8: Regressione logistica e modelli lineari generalizzati
CS480/680 Lezione 8: Regressione logistica e modelli lineari generalizzati
Questa prima parte della lezione su "CS480/680: Logistic Regression and Generalized Linear Models" introduce l'idea della famiglia esponenziale di distribuzioni e la sua relazione con la regressione logistica, una potente tecnica utilizzata per problemi di classificazione. La conferenza spiega che la regressione logistica mira ad adattare la migliore funzione logistica che modella il posteriore per un dato set di dati, e per problemi con poche dimensioni e pesi, il metodo di Newton può essere utilizzato per trovare il minimo della funzione obiettivo, che è un convesso funzione. L'istruttore sottolinea inoltre l'importanza della regressione logistica nei sistemi di raccomandazione e nel posizionamento degli annunci, dove la semplicità e l'efficienza della tecnica la rendono ideale per formulare raccomandazioni personalizzate basate sulle caratteristiche e sui comportamenti degli utenti.
La lezione tratta anche l'argomento della regressione logistica e dei modelli lineari generalizzati. L'istruttore discute i limiti del metodo di Newton per la regressione logistica, come il problema dell'overfitting causato da pesi arbitrari di grandi dimensioni e problemi di singolarità nella matrice Hessiana. Per prevenire l'overfitting, si suggerisce la regolarizzazione. L'istruttore introduce i modelli lineari generalizzati (GLM) che possono essere utilizzati per lavorare in modo efficiente con i separatori non lineari. I GLM implicano la mappatura degli input in un nuovo spazio in cui la regressione lineare e la classificazione possono essere eseguite in modo non lineare purché la mappatura sia non lineare. La lezione copre anche le funzioni di base e i loro tipi che possono essere utilizzati per eseguire regressioni e classificazioni non lineari.
CS480/680 Lezione 9: Percettroni e reti neurali a strato singolo
CS480/680 Lezione 9: Percettroni e reti neurali a strato singolo
Questa lezione introduce le reti neurali con particolare attenzione al tipo elementare, il percettrone, che produce un separatore lineare per la classificazione. La lezione esplora come i pesi vengono utilizzati per calcolare una combinazione lineare di input che passano attraverso una funzione di attivazione per produrre output e come diversi pesi possono essere utilizzati per approssimare porte logiche come porte AND, OR e NOT. Il docente discute la rete neurale feedforward e come l'algoritmo di apprendimento del percettrone viene utilizzato per la classificazione binaria e come la discesa del gradiente può ottimizzare i pesi. Vengono discusse le limitazioni dell'utilizzo di una linea per separare i dati e viene introdotta la funzione di attivazione del sigma logistico come possibile soluzione, con particolare attenzione a come i pesi possono essere addestrati utilizzando la funzione di attivazione del sigma logistico.
Questa lezione sui Perceptron e le reti neurali a strato singolo copre l'uso delle funzioni di attivazione sigmoidea logistica per ridurre al minimo l'errore al quadrato e l'introduzione del tasso di apprendimento come parametro cruciale nella discesa del gradiente sequenziale. Il docente dimostra anche come le reti neurali con più livelli possono essere composte per approssimare qualsiasi funzione in modo arbitrario utilizzando le funzioni di trattenimento dei rifiuti e come la retropropagazione può essere utilizzata per addestrare una rete ad apprendere funzioni arbitrarie. L'istruttore sottolinea la versatilità e l'efficienza delle reti neurali, citando il loro uso diffuso nella risoluzione di vari problemi come il riconoscimento vocale, la visione artificiale, la traduzione automatica e l'incorporamento di parole.
CS480/680 Lezione 10: Reti neurali multistrato e retropropagazione
CS480/680 Lezione 10: Reti neurali multistrato e retropropagazione
Questa conferenza sulle reti neurali multistrato e la retropropagazione spiega i limiti dei modelli lineari e la necessità di modelli non lineari come le reti neurali multistrato. Il docente discute le diverse funzioni di attivazione che possono essere utilizzate nelle reti neurali e come consentono funzioni di base non lineari. La lezione prosegue spiegando come viene utilizzato l'algoritmo di backpropagation per calcolare il gradiente dell'errore rispetto a ogni peso in una rete neurale. Vengono discussi anche gli strumenti di differenziazione automatica come un modo per calcolare in modo efficiente i delta e i gradienti in una rete neurale. Nel complesso, la conferenza sottolinea la flessibilità e la potenza delle reti neurali nell'approssimare un'ampia gamma di funzioni.
Il docente in questo video discute i problemi relativi all'ottimizzazione delle reti neurali, come la convergenza lenta, l'ottimizzazione locale, l'ottimizzazione non convessa e l'overfitting. Per superare la convergenza lenta, si possono utilizzare tecniche come la regolarizzazione e il dropout. Inoltre, il relatore spiega il comportamento della discesa del gradiente per l'ottimizzazione, evidenziando la necessità di ottimizzare le dimensioni del passo per migliorarne l'efficienza. L'algoritmo di sovvenzione DES viene proposto come soluzione, che regola separatamente il tasso di apprendimento di ciascuna dimensione. L'oratore introduce anche RMSProp, una media mobile ponderata dei gradienti precedenti. Infine, l'oratore discute Adam, che implica l'assunzione di una media mobile ponderata del gradiente stesso, e mostra che supera altre tecniche come SGD Nesterov.
CS480/680 Lezione 11: Metodi Kernel
CS480/680 Lezione 11: Metodi Kernel
In questa lezione, viene introdotto il concetto di metodi del kernel come un modo per scalare modelli lineari generalizzati mappando i dati da uno spazio in un nuovo spazio utilizzando una funzione non lineare. Il dual trick o kernel trick è spiegato come una tecnica che consente di lavorare in spazi ad alta dimensione senza pagare costi aggiuntivi, portando all'uso di una funzione del kernel che calcola il prodotto scalare di coppie di punti nel nuovo spazio. Vengono discussi vari metodi per la costruzione di kernel, inclusi i kernel polinomiali e gaussiani, che possono essere utilizzati per misurare la somiglianza tra i punti dati e sono utili nelle attività di classificazione. Vengono inoltre introdotte regole per la composizione dei kernel per costruire nuovi kernel in grado di controllarne la complessità. La lezione sottolinea l'importanza di scegliere funzioni che abbiano una corrispondenza con Phi transpose Phi, in quanto la matrice grammo deve essere semidefinita positiva e avere autovalori maggiori o uguali a zero.
In questa conferenza sui metodi del kernel, il relatore definisce i kernel come funzioni semi-definite positive che possono essere scomposte in una matrice moltiplicata per la sua trasposizione. Vengono discussi vari tipi di kernel, come polinomiali e gaussiani, e le loro applicazioni per confrontare diversi tipi di dati come stringhe, insiemi e grafici. L'oratore spiega anche come i kernel delle sottostringhe possono calcolare rapidamente la somiglianza tra le parole aumentando la lunghezza delle sottostringhe e utilizzando la programmazione dinamica. Inoltre, le macchine vettoriali di supporto si sono dimostrate efficaci nell'eseguire la classificazione dei documenti utilizzando articoli di notizie di Reuters.
CS480/680 Lezione 13: Supporto macchine vettoriali
CS480/680 Lezione 13: Supporto macchine vettoriali
Questa lezione è un'introduzione al supporto delle macchine vettoriali (SVM) come tipo di metodo del kernel utilizzato per la classificazione. Le SVM sono ancora popolari per problemi con dati bassi e sono considerate sparse in quanto possono lavorare con un sottoinsieme di dati e ignorare il resto. Il relatore spiega il concetto di vettori di supporto, che sono i punti dati più vicini al confine decisionale e l'esempio visivo di SVM che trovano un separatore lineare per separare le classi massimizzando il margine. Vengono discusse le differenze tra SVM e percettroni, con gli SVM che utilizzano un unico separatore lineare del margine massimo e sono meno inclini all'overfitting. Il problema di ottimizzazione per SVM può essere riscritto utilizzando la Lagrangiana, risultando in un problema equivalente senza vincoli. La soluzione ottenuta dalla lagrangiana può essere sostituita per ottenere un'espressione che coinvolga la funzione del kernel, portando a un'ottimizzazione del problema duale. Vengono anche spiegati i vantaggi di lavorare nello spazio duale con una funzione del kernel che calcola la somiglianza tra coppie di punti dati. Gli SVM calcolano il grado di somiglianza tra un punto di interrogazione e tutti i vettori di supporto per determinare quelli più simili e la discussione ruota anche attorno al numero di vettori di supporto e al modo in cui influisce sulla classificazione dei punti.
Questo video discute il concetto di macchine vettoriali di supporto (SVM) nella categorizzazione del testo, in cui i documenti sono rappresentati come vettori di conteggi di parole. Gli SVM sono efficaci nel ridurre al minimo la perdita nel caso peggiore, rendendo il classificatore adatto a qualsiasi possibile campione, anche per set di dati diversi. I ricercatori hanno utilizzato SVM con doppia rappresentazione e mappatura del kernel per mappare i dati in uno spazio dimensionale ancora più elevato, senza perdere precisione o sacrificare la scalabilità. La lezione copre anche l'uso di SVM nel recupero di documenti rilevanti da un set di dati e nel bilanciamento di precisione e richiamo. Il video si conclude con una discussione sulla capacità delle SVM di fornire separatori lineari o non lineari per i dati e le sfide associate alla classificazione multiclasse e ai dati non linearmente separabili.
CS480/680 Lezione 14: Macchine vettoriali di supporto (continua)
CS480/680 Lezione 14: Macchine vettoriali di supporto (continua)
Questa sezione della lezione è incentrata sulla gestione di dati non linearmente separabili e classi sovrapposte quando si utilizzano macchine a vettori di supporto (SVM) introducendo variabili slack e considerando un margine morbido. Il relatore spiega come le variabili di scarto consentano di classificare i punti all'interno del margine senza introdurre un errore di classificazione. Al problema di ottimizzazione viene aggiunto un termine di penalità per regolare l'uso di variabili di scarto, controllate dal peso C, che regola il compromesso tra minimizzazione dell'errore e complessità del modello. Il relatore discute anche diversi approcci all'utilizzo di SVM per problemi di classificazione multiclasse, tra cui uno contro tutti, confronto a coppie e classificazione continua, con quest'ultimo che è l'approccio de facto per SVM con più classi. Inoltre, viene introdotto il concetto di margine multiclasse, che prevede un buffer attorno al separatore lineare, definito dalla differenza dei vettori di peso per ciascuna coppia di classi.
CS480/680 Lezione 15: Reti neurali profonde
CS480/680 Lezione 15: Reti neurali profonde
Questo video illustra le basi del deep learning, inclusi i concetti di reti neurali profonde, il problema del gradiente di fuga e l'evoluzione delle reti neurali profonde nelle attività di riconoscimento delle immagini. Il docente spiega come le reti neurali profonde possono essere utilizzate per rappresentare le funzioni in modo più succinto e come calcolano caratteristiche che diventano sempre più di livello superiore man mano che la rete diventa più profonda. Vengono affrontate soluzioni al problema del gradiente di fuga, incluso l'uso di unità lineari rettificate (ReLU) e la normalizzazione batch. La lezione copre anche le unità max-out e i loro vantaggi come generalizzazione delle ReLU che consentono più parti lineari.
La conferenza sulle reti neurali profonde discute due problemi che richiedono una risoluzione per un apprendimento profondo efficace: il problema dell'overfitting dovuto all'espressività della rete a più livelli e il requisito di un'elevata potenza di calcolo per addestrare reti complesse. Il docente propone soluzioni come la regolarizzazione e l'abbandono durante la formazione, nonché il calcolo parallelo durante il calcolo. La lezione descrive inoltre in dettaglio come utilizzare il dropout durante i test ridimensionando l'input e le grandezze delle unità nascoste. Infine, la conferenza si conclude introducendo alcune applicazioni rivoluzionarie delle reti neurali profonde nel riconoscimento vocale, nel riconoscimento delle immagini e nella traduzione automatica.
CS480/680 Lezione 16: Reti neurali convoluzionali
CS480/680 Lezione 16: Reti neurali convoluzionali
Questo video introduce le reti neurali convoluzionali (CNN) e spiega la loro importanza nell'elaborazione delle immagini come tipo specifico di rete neurale con proprietà chiave. Il docente discute di come la convoluzione può essere utilizzata per l'elaborazione delle immagini, ad esempio nel rilevamento dei bordi, e di come le CNN possono rilevare le caratteristiche in modo simile. Viene spiegato il concetto di strati convoluzionali e dei loro parametri, insieme al processo di addestramento delle CNN utilizzando la retropropagazione e la discesa del gradiente con pesi condivisi. Il docente fornisce anche principi di progettazione per la creazione di architetture CNN efficaci, come l'utilizzo di filtri più piccoli e l'attivazione non lineare dopo ogni convoluzione.
In questa conferenza sulle reti neurali convoluzionali (CNN), il relatore discute il concetto di connessioni residue come soluzione al problema del gradiente di fuga affrontato dalle reti neurali profonde. Queste connessioni saltate consentono di accorciare i percorsi di rete e ignorare i livelli inutili pur essendo ancora in grado di utilizzarli se necessario per evitare di produrre output vicini allo zero. Viene inoltre introdotto l'uso di tecniche di normalizzazione batch per mitigare il problema dell'evanescenza dei gradienti. Inoltre, il relatore osserva che le CNN possono essere applicate a dati sequenziali e tensori con più di due dimensioni, come nelle sequenze video, e che anche le CNN 3D sono una possibilità per determinate applicazioni. Il framework TensorFlow è evidenziato come progettato per il calcolo con array multidimensionali.