Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
ESP-Tutorial – Gewusst wie: Entwerfen eines Beschleunigers in Keras/Pytorch/ONNX
ESP-Tutorial – Gewusst wie: Entwerfen eines Beschleunigers in Keras/Pytorch/ONNX
Das Tutorial stellt ein Tool namens Chalice for ML vor, das automatisch einen Beschleuniger aus einem Keras/Pytorch/ONNX-Modell generieren kann. Anschließend zeigt das Tutorial, wie der Beschleuniger in ESP (Early Stage Prototyper) integriert wird. Der Referent zeigt auch, wie man einen Beschleuniger in Keras/Pytorch/ONNX entwirft, und geht durch die Schritte zum Importieren eines Beschleunigers, Hinzufügen einer Testbench, Generieren von RTL und Erstellen von zwei Versionen des Beschleunigers. Das Video behandelt auch das Kompilieren von Linux und das Erstellen einer Linux-Benutzerbereichsanwendung für den Beschleuniger. Schließlich endet das Tutorial mit Ressourcen zum weiteren Lernen.
Optimales Inferencing auf flexibler Hardware mit ONNX Runtime
Optimales Inferencing auf flexibler Hardware mit ONNX Runtime
Dieses Tutorial behandelt die Bereitstellung von Modellen auf CPU, GPU und OpenVINO mit ONNX Runtime. Der Referent demonstriert die Verwendung verschiedener Ausführungsanbieter, einschließlich OpenVINO, für die Inferenz auf flexibler Hardware. Der Code für Rückschlüsse ist in allen Umgebungen im Wesentlichen gleich, wobei der Hauptunterschied der Ausführungsanbieter ist. ONNX Runtime führt Rückschlüsse auf CPU und GPU schneller durch als PyTorch, und für OpenVINO existiert eine separate ONNX Runtime-Bibliothek. Insgesamt bietet das Tutorial einen Überblick darüber, wie Modelle mithilfe von ONNX Runtime auf verschiedenen Hardwareoptionen bereitgestellt werden.
Machine-Learning-Inferenz in Flink mit ONNX
Machine-Learning-Inferenz in Flink mit ONNX
In dem Video werden die Vorteile und die Implementierung der Verwendung von ONNX in Machine-Learning-Inferenzen und deren Bereitstellung im Distributed-Computing-Framework Flink erörtert. Die Trennung zwischen Modelltraining und Produktionsinferenz, die Möglichkeit, Spezifikationen für Eingaben und Ausgaben zu definieren, und die Sprachunabhängigkeit machen ONNX zu einem wertvollen Werkzeug für Datenwissenschaftler. Das Video zeigt, wie ein ONNX-Modell in Flink geladen wird, stellt Schlüsselkomponenten der Rich-Map-Funktion bereit und erklärt, wie die Modelle zusammen mit dem Code mithilfe einer JAR-Datei gebündelt werden. Der Redner geht auch auf Überlegungen wie Speicherverwaltung, Batch-Optimierung und Hardwarebeschleunigung mit ONNX ein und betont seine Vorteile für die Inferenz von maschinellem Lernen in Echtzeit in Flink.
Verbesserung des Online-Einkaufserlebnisses mit ONNX
Verbesserung des Online-Einkaufserlebnisses mit ONNX
In diesem Video wird erläutert, wie E-Commerce-Unternehmen KI nutzen, um aussagekräftige Erkenntnisse zu gewinnen, die zwischen Gewinnen und Verlieren im Online-Einzelhandelsbereich unterscheiden. Der Redner gibt ein Beispiel für Bazaar Voice, das größte Netzwerk von Marken und Einzelhändlern, das insgesamt über 8 Milliarden Bewertungen bereitstellt, und wie sie Produktabgleiche verwenden, um Bewertungen zu teilen. Der Referent beschreibt dann, wie sie ein maschinelles Lernmodell in Python entwickelt, es in das ONNX-Format exportiert und es mithilfe einer Knotenumgebung für eine serverlose Funktion bereitgestellt haben, um Inferenzen auf einer ONNX-Laufzeit auszuführen. Diese Lösung ermöglicht den Hochgeschwindigkeitsabgleich von Hunderten von Millionen Produkten aus Tausenden von Kundenkatalogen bei gleichzeitig niedrigen Kosten, was zu erheblichen Kosteneinsparungen und Millionen von zusätzlichen Bewertungen für Marken und Einzelhändler führt. Abschließend lädt der Redner die Zuschauer ein, weitere Möglichkeiten zur Nutzung der Funktionen von ONNX zu erkunden und ihre Anwendungsfälle für zukünftige technologische Fortschritte zu teilen.
DSS online Nr. 4: End-to-End-Deep-Learning-Bereitstellung mit ONNX
DSS online Nr. 4: End-to-End-Deep-Learning-Bereitstellung mit ONNX
In diesem Video werden die Herausforderungen einer End-to-End-Deep-Learning-Bereitstellung erörtert, einschließlich der Verwaltung verschiedener Sprachen, Frameworks, Abhängigkeiten und Leistungsschwankungen sowie der Reibung zwischen Teams und der Bindung an proprietäre Formate. Der Open Neural Network Exchange (ONNX) wird als protokollpufferbasiertes Format für Deep-Learning-Serialisierung eingeführt. Es unterstützt wichtige Deep-Learning-Frameworks und stellt ein eigenständiges Artefakt zum Ausführen des Modells bereit. ONNX ML wird auch als Teil der ONNX-Spezifikation diskutiert, die Unterstützung für die traditionelle maschinelle Lernvorverarbeitung bietet. Die Einschränkungen von ONNX sind anerkannt, aber es wird als ein schnell wachsendes Projekt mit starker Unterstützung durch große Organisationen angesehen, das echte Portabilität über verschiedene Dimensionen von Sprachen, Frameworks, Laufzeiten und Versionen bietet.
ONNX und ONNX Runtime mit Vinitra Swamy und Pranav Sharma von Microsoft
ONNX und ONNX Runtime mit Vinitra Swamy und Pranav Sharma von Microsoft
Das Video behandelt das Format Open Neural Network Exchange (ONNX), das erstellt wurde, um Modelle interoperabel und effizient bei der Serialisierung und Versionierung zu machen. ONNX besteht aus einer Zwischendarstellungsschicht, Betreiberspezifikationen und unterstützt verschiedene Datentypen. Die in C++ und Assembler implementierte ONNX Runtime bietet Abwärtskompatibilität und ist durch Ausführungsanbieter, benutzerdefinierte Operatoren und Grafikoptimierer erweiterbar. Die API bietet Unterstützung für Plattformen, Programmiersprachen und Ausführungsanbieter. Benutzer können Sitzungen erstellen, Modelle optimieren und sie für die zukünftige Verwendung serialisieren. Die Referenten demonstrieren die Vielseitigkeit und Effizienz von ONNX Runtime mit der Fähigkeit, auf Android-Geräten ausgeführt zu werden.
Kompatibilität bis zurück zu CentOS 7.6. Das ONNX Go Live Tool, ein Open-Source-Tool zum Konvertieren und Tunen von Modellen für optimale Leistung, wird ebenfalls diskutiert. Der Abschnitt schließt mit Beispielen für Microsoft-Dienste, die ONNX verwenden, einschließlich einer 14-fachen Leistungssteigerung im fehlenden Bestimmungsmodell von Office und einer 3-fachen Leistungssteigerung im optischen Zeichenerkennungsmodell, das in kognitiven Diensten verwendet wird.
Jan-Benedikt Jagusch Christian Bourjau: Anwendungen für maschinelles Lernen mit ONNX schnell und einfach machen
Jan-Benedikt Jagusch Christian Bourjau: Anwendungen für maschinelles Lernen mit ONNX schnell und einfach machen
In diesem Video über maschinelles Lernen und Bereitstellung erörtern die Referenten die Herausforderungen bei der Einführung von Modellen in die Produktion, insbesondere die Schwierigkeit beim Beizen und Bereitstellen von Modellen. Sie stellen ONNX vor, ein universelles Dateiformat zum Exportieren von Modellen für maschinelles Lernen, und erklären, wie es dazu beitragen kann, Training und Inferenz zu entkoppeln und die Bereitstellung schneller und effizienter zu gestalten. Sie bieten eine Live-Demo mit scikit-learn und erklären, wie man eine Pipeline für maschinelles Lernen in das ONNX-Format konvertiert. Sie diskutieren auch die Einschränkungen von Docker-Containern für die Bereitstellung von Modellen für maschinelles Lernen und heben die Vorteile der Verwendung von ONNX hervor. Sie berühren das Thema Verschlüsselungsmodelle für zusätzliche Sicherheit und sprechen das Usability-Problem von ONNX an, das noch ein junges Ökosystem mit einigen kryptischen Fehlermeldungen ist.
ONNX Runtime Azure EP für hybride Rückschlüsse auf Edge und Cloud
ONNX Runtime Azure EP für hybride Rückschlüsse auf Edge und Cloud
Das ONNX Runtime-Team hat seinen ersten Schritt in die hybride Welt veröffentlicht, indem es Entwicklern ermöglicht, eine einzige API für Edge- und Cloud-Computing mit dem Azure EP zu verwenden, wodurch Bedenken hinsichtlich der Gerätekonnektivität beseitigt werden und Entwicklern ermöglicht wird, zu dem von ihnen optimierten Cloud-Modell zu wechseln , Kosten sparen und Latenz reduzieren. Diese neue Funktion ermöglicht es Entwicklern, die Anwendungslogik zu aktualisieren und den Weg zu wählen, den sie über das Azure EP einschlagen möchten, was mehr Möglichkeiten und Leistung bietet. Das Team demonstriert die Bereitstellung von Kinderservern und Objekterkennungsmodellen sowie das einfache Testen des Endpunkts und die einfache Konfiguration von Onnx Runtime Azure. Die Referenten diskutieren auch die Möglichkeit, zwischen lokaler und Remote-Verarbeitung zu wechseln, und potenzielle Anwendungsfälle, einschließlich leistungsschwächerer und leistungsstärkerer Modelle. Das ONNX Runtime Azure EP kann vorab geladen und einfach mit den erforderlichen Paketen für die Bereitstellung konfiguriert werden, was zur Benutzerfreundlichkeit der Software beiträgt.
INT8-Inferenz von quantisierungsbewussten trainierten Modellen mit ONNX-TensorRT
INT8-Inferenz von quantisierungsbewussten trainierten Modellen mit ONNX-TensorRT
Dheeraj Peri, Deep Learning Software Engineer bei NVIDIA, erklärt die Grundlagen der Quantisierung und wie TensorRT quantisierte Netzwerke durch verschiedene Fusionen unterstützt. Sie konzentrieren sich auf Modelle, die mit dem TensorFlow 2.0-Framework trainiert wurden, und darauf, wie man Post-Training Quantization (PTQ) und Quantization-Aware Training (QAT) durchführt. Der Prozess der Bereitstellung eines Modells, das mit dem Nvidia TF2-Quantisierungs-Toolkit mit ONNX-TensorRT trainiert wurde, wird erläutert, und die Genauigkeits- und Latenzergebnisse werden für verschiedene ResNet-Modelle präsentiert. Insgesamt wird der End-to-End-QAT-Workflow von TensorFlow bis zur TensorRT-Bereitstellung über ONNX-TensorRT demonstriert.
Praktische Post-Training-Quantisierung eines ONNX-Modells
Praktische Post-Training-Quantisierung eines ONNX-Modells
Das Video erläutert, wie die Quantisierung implementiert wird, um die Größe eines TensorFlow-Modells auf ein quantisiertes ONNX-Modell zu reduzieren. Das ONNX-Modell ist deutlich kleiner und kann auf einer CPU schneller ausgeführt werden. Der Autor stellt Codeschnipsel und Anleitungen bereit, wie man dynamische Quantisierung implementiert und wie man die CPU-Geschwindigkeit überprüft.
Das Video zeigt den Prozess der Quantisierung eines Modells für maschinelles Lernen, um es schneller und leichter zu machen, wobei anerkannt wird, dass dies zu einem Rückgang der Genauigkeit führen kann. Die ONNX- und TensorFlow-Modelle werden mit einem quantisierten Modell verglichen, wobei letzteres schneller und leichter ist. Allerdings profitiert das quantisierte Modell nicht so stark von der Verwendung von GPUs wie die anderen Modelle. Die Genauigkeit des quantisierten Modells wird dann bewertet und es wird festgestellt, dass es nur einen leichten Abfall aufweist. Der Prozess der Visualisierung von ONNX-Modellen wird ebenfalls diskutiert, wobei die Verwendung der Loot Rodas Neutron-App demonstriert wird. Der Gesamtprozess führt zu einer Reduzierung der Modellgröße von einem Gigabyte auf 83 Megabyte bei minimalem Genauigkeitsverlust.