Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
CS 198-126: Vorlesung 14 - Transformatoren und Aufmerksamkeit
CS 198-126: Vorlesung 14 - Transformatoren und Aufmerksamkeit
Dieser Videovortrag über Transformer und Aufmerksamkeit behandelt das Konzept und die Motivation hinter Aufmerksamkeit, ihre Beziehung zu Transformern und ihre Anwendung in NLP und Vision. Der Dozent diskutiert weiche und harte Aufmerksamkeit, Selbstaufmerksamkeit, lokale Aufmerksamkeit und Mehrkopfaufmerksamkeit und wie sie in der Transformer-Architektur verwendet werden. Sie erläutern auch das Schlüsselwert-Abfragesystem, die Bedeutung von Restverbindungen und Layer-Normalisierung sowie den Prozess der Anwendung eines linearen Layers, um kqv aus Eingabeeinbettungen zu erhalten. Schließlich behandelt der Vortrag die Verwendung von Positionseinbettungen und dem CLS-Token in Sequence-to-Vector-Beispielen und hebt die Recheneffizienz und Skalierbarkeit des Aufmerksamkeitsmechanismus hervor.
CS 198-126: Vorlesung 15 - Vision Transformers
CS 198-126: Vorlesung 15 - Vision Transformers
In diesem Vortrag geht der Referent auf den Einsatz von Vision Transformern (ViTs) für Bildverarbeitungsaufgaben ein. Die ViT-Architektur umfasst das Downsampling von Bildern in diskrete Patches, die dann unter Verwendung einer linearen Schichtausgabe in Eingabeeinbettungen projiziert werden, bevor sie durch einen Transformer geleitet werden. Das Modell wird auf einem großen, beschrifteten Datensatz vortrainiert, bevor der eigentliche Datensatz feinabgestimmt wird, was zu einer hervorragenden Leistung mit weniger Rechenaufwand als bei den vorherigen hochmodernen Methoden führt. Die Unterschiede zwischen ViTs und Convolutional Neural Networks (CNNs) werden diskutiert, wobei ViTs ein globales Empfangsfeld und mehr Flexibilität als CNNs haben. Der Einsatz von selbstüberwachtem und unüberwachtem Lernen mit Transformern für Sehaufgaben wird ebenfalls hervorgehoben.
CS 198-126: Vorlesung 16 - Fortgeschrittene Objekterkennung und semantische Segmentierung
CS 198-126: Vorlesung 16 - Fortgeschrittene Objekterkennung und semantische Segmentierung
In dieser fortgeschrittenen Vorlesung zur Objekterkennung und semantischen Segmentierung diskutiert der Dozent die Vor- und Nachteile von Convolutional Neural Networks (CNNs) und Transformers, insbesondere in der Verarbeitung natürlicher Sprache (NLP) und Computer Vision. Während CNNs sich durch strukturelle Voreingenommenheit auszeichnen, bewältigen Transformer sowohl NLP- als auch Computer-Vision-Aufgaben effizient, indem sie Selbstaufmerksamkeitsebenen verwenden, um wichtige Konzepte miteinander zu verbinden und sich auf bestimmte Eingaben zu konzentrieren. Der Vortrag befasst sich dann mit Vision Transformers, die der Form Vorrang vor der Textur einräumen und sie so widerstandsfähig gegen Verzerrungen machen. Er erläutert außerdem die Vorteile und Einschränkungen des Swin Transformer, einer verbesserten Version des Vision Transformer, der sich durch Bildklassifizierung, semantische Segmentierung und Objekterkennung auszeichnet. Der Vortrag betont die Bedeutung der Verallgemeinerbarkeit in Modellen, die mit beliebigen Daten umgehen können, und die potenziellen Anwendungen in Bereichen wie selbstfahrenden Autos.
CS 198-126: Vorlesung 17 - 3-D Vision Survey, Teil 1
CS 198-126: Vorlesung 17 - 3-D Vision Survey, Teil 1
Das Video diskutiert verschiedene visuelle 3D-Darstellungen und ihre Vor- und Nachteile, einschließlich Punktwolken, Maschen, Voxel und Strahlungsfelder. Die Vorlesung behandelt auch Raycasting, vorwärts und rückwärts, sowie das Kolorieren und Rendern von Bildern für Objekte, die sich überschneiden, mit unterschiedlichen Ansätzen für Festkörper und Transparenzen. Der Dozent geht auf die Grenzen des differenzierbaren Renderings ein und wie Radiance Fields eine Funktion für jeden XYZ-Punkt mit einer Dichte und physikalischen Farbe erstellen kann, wodurch es lernbarer wird.
CS 198-126: Vorlesung 18 - 3-D Vision Survey, Teil 2
CS 198-126: Vorlesung 18 - 3-D Vision Survey, Teil 2
In dieser Vorlesung zum 3D-Sehen geht der Dozent auf Strahlungsfelder ein, insbesondere auf Neural Radiance Fields (NeRFs), die eine Position im Raum einnehmen und Farbe und Dichte ausgeben. Der Referent erklärt den Prozess des Renderns, bei dem aus der Kameraperspektive abgefragt und mithilfe der Blackbox-Funktion ermittelt wird, wie das Bild aussehen wird. Die Vorlesungen diskutieren die Herausforderungen bei der Darstellung konsistenter Perspektiven von Objekten in 3D-Vision und die Verwendung von MLPs zur Aufnahme der XYZ-Daten eines Objekts und der Blickrichtung zur Ausgabe von Dichte- und RGB-Informationen. Der Vortrag behandelt auch die Herausforderungen des volumetrischen Renderings und die Verwendung von Nerf-Derivaten zur Verbesserung des Computersehens. Am Ende demonstriert der Ausbilder die Verwendung der Raumkontraktion, um realistische 3D-Bilder mithilfe eines neuronalen Netzwerks zu erzeugen.
CS 198-126: Vorlesung 19 - Advanced Vision Pretraining
CS 198-126: Vorlesung 19 - Advanced Vision Pretraining
Dieses Video behandelt verschiedene Techniken, die für das selbstüberwachte Vortraining im fortgeschrittenen Sehen verwendet werden, darunter kontrastives Lernen, Entrauschen von Autoencodern, Kontextencodern und dem Mae-Netzwerk. Der Referent gibt einen Überblick über jede Methode, diskutiert ihre Stärken und Schwächen und hebt die Vorteile der Kombination von Kontrastmittel- und Rekonstruktionsverlusten in der BYOL-Methode hervor, die beide einzeln übertrifft. Das Video bietet nützliche Einblicke in die neuesten Forschungstrends zum selbstüberwachten Lernen und ihr Potenzial zur Verbesserung der Leistung von Computer-Vision-Modellen.
CS 198-126: Vorlesung 20 - Stilisierung von Bildern
CS 198-126: Vorlesung 20 - Stilisierung von Bildern
Das Video diskutiert verschiedene Techniken zur Bildstilisierung, darunter neuronale Stilübertragung, GANs und Pix2Pix, die gepaarte Daten erfordern, und CycleGAN, das ungepaarte Daten für die Bild-zu-Bild-Übersetzung verwendet. Die Einschränkungen von CycleGAN können von StarGAN angegangen werden, das Informationen aus mehreren Domänen verwenden kann, um Generatoren für Bildübergangsaufgaben in mehreren Domänen zu trainieren. Der Referent erörtert auch die multimodale, unbeaufsichtigte Bild-zu-Bild-Übersetzung unter Verwendung von Domäneninformationen und niedrigdimensionalen latenten Codes, um verschiedene Ausgaben zu erzeugen, beispielhaft dargestellt durch das BicycleGAN-Modell. Abschließend werden die potenziellen Vorteile der Verwendung von Vision Transformers mit GANs für Bildübersetzungsaufgaben erwähnt, und der Vortrag endet mit lustigen Bildbeispielen und einer Gelegenheit für Fragen und Diskussionen.
CS 198-126: Vorlesung 21 - Generatives Audio
CS 198-126: Vorlesung 21 - Generatives Audio
In diesem Vortrag zu generativem Audio behandelt der Moderator verschiedene Themen wie Quantisierung, Aliasing, Signalverarbeitung, Projektionen, Deep Learning und Transformers. Der Dozent diskutiert, wie man kontinuierliche Signale abtastet und quantisiert und den Kompromiss zwischen der Genauigkeit der Bittiefe und der Rechenleistung. Das Shannon-Nequist-Abtasttheorem und seine Auswirkungen auf die Rekonstruktion von Signalen sowie die Bedeutung von Projektionen und ihre Verwendung für die Signalrekonstruktion werden ebenfalls erläutert. Deep Learning wird für die Audiorekonstruktion untersucht, und der Moderator stellt generatives Audio vor und wie es Musik aus verlorenen oder beschädigten Aufnahmen rekonstruieren kann. Die Verwendung von Transformern zur Audiogenerierung wird diskutiert und der Prozess der Darstellung von Musik als eine Reihe von Tokens wird erklärt. Der Redner betont auch die Bedeutung eines großen und vielfältigen Datensatzes und erörtert die Funktionsweise des Transformer-Modells für Musikvorhersagen. Der Vortrag endet mit einer Demo der generierten Musik, die die Fähigkeit des Modells zeigt, zukünftige Noten genau vorherzusagen.
CS 198-126: Vorlesung 22 - Multimodales Lernen
CS 198-126: Vorlesung 22 - Multimodales Lernen
Multimodales Lernen beinhaltet die Darstellung von Objekten auf unterschiedliche Weise, z. B. durch Text, Bilder, Videos oder Audio, wobei dennoch erkannt wird, dass es sich um dasselbe Objekt handelt. Die Vorlesungen erläutern die Bedeutung des multimodalen Lernens bei der Erfassung diverser Datensätze und der Lösung des Verteilungsverschiebungsproblems. Das Video konzentriert sich auf CLIP, eine Contrastive Language Image Pre-Training-Methode, die Text- und Bild-Encoder verwendet, um Einbettungen für ähnliche Bild-Untertitel-Paare zu erstellen. Die Einbettungen können für Klassifizierung, Robotik, Text-zu-Bild-Generierung und 3D-Vision verwendet werden. Der Referent betont, dass die Universalität von CLIP Latents die Bedeutung des Repräsentationslernens und seine Nützlichkeit beim maschinellen Lernen zeigt. Die CLIP-Methode hat zur Entwicklung des Bereichs des multimodalen Lernens geführt.
Tensorflow für die Deep-Learning-Forschung - Vorlesung 1
Tensorflow für die Deep-Learning-Forschung - Vorlesung 1
Das Video „Tensorflow for Deep Learning Research – Lecture 1“ stellt das Tutorial zu TensorFlow vor, indem es die Notwendigkeit eines Deep-Level-Tutorials abdeckt und die Grundlagen und praktischen Anwendungen der Bibliothek erklärt. Die Vorlesung behandelt das Erstellen und Strukturieren von Modellen mit TensorFlow aus Deep-Learning-Perspektive. Das Tutorial behandelt auch die Tools, die in TensorBoard zum Visualisieren eines Berechnungsdiagrammmodells verwendet werden, einschließlich der Arbeit mit Knoten, Kanten und Sitzungen, die effiziente Berechnungsoptionen durch Ausführen von Unterdiagrammen bieten. Der Dozent empfiehlt, TensorFlow von Grund auf zu lernen, um benutzerdefinierte Modelle zu erstellen und effizient mit Ressourcen umzugehen, mit der Möglichkeit, auf CPU, GPU, Android oder iOS zu laufen und gleichzeitig die Möglichkeit zu bieten, Modelle bereitzustellen.