Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Webinaire NVAITC : Déployer des modèles avec TensorRT
Webinaire NVAITC : Déployer des modèles avec TensorRT
Dans cette section du webinaire NVAITC, l'architecte de solutions Nikki Loppie présente TensorRT, le kit de développement logiciel de NVIDIA pour l'inférence d'apprentissage en profondeur hautes performances. TensorRT fournit un optimiseur d'inférence et un temps d'exécution pour une inférence à faible latence et à haut débit sur une gamme de plates-formes, des appareils intégrés aux centres de données. Loppie explique les cinq technologies utilisées par TensorRT pour optimiser les performances d'inférence, y compris la fusion du noyau et l'étalonnage de précision. Les développeurs peuvent utiliser les API Python et C++ de TensorRT pour incorporer ces optimisations dans leurs propres applications, et des bibliothèques de conversion comme trtorch peuvent être utilisées pour optimiser les modèles PyTorch pour l'inférence. Loppie montre comment enregistrer des modèles optimisés TensorRT à l'aide de la bibliothèque trtorch et compare les modèles optimisés à des modèles non optimisés pour la classification des images, montrant des accélérations significatives avec une demi-précision.
Tutoriel ESP - Comment : concevoir un accélérateur dans Keras/Pytorch/ONNX
Tutoriel ESP - Comment : concevoir un accélérateur dans Keras/Pytorch/ONNX
Le didacticiel présente un outil appelé Chalice for ML, qui peut générer automatiquement un accélérateur à partir d'un modèle Keras/Pytorch/ONNX. Le didacticiel se poursuit ensuite pour démontrer comment intégrer l'accélérateur dans ESP (Early Stage Prototyper). L'orateur montre également comment concevoir un accélérateur dans Keras/Pytorch/ONNX et passe par les étapes d'importation d'un accélérateur, d'ajout d'un banc de test, de génération de RTL et de création de deux versions de l'accélérateur. La vidéo couvre également la compilation de Linux et la création d'une application d'espace utilisateur Linux pour l'accélérateur. Enfin, le didacticiel se termine par des ressources pour un apprentissage plus approfondi.
Inférence optimale sur du matériel flexible avec ONNX Runtime
Inférence optimale sur du matériel flexible avec ONNX Runtime
Ce didacticiel couvre le déploiement de modèles sur CPU, GPU et OpenVINO à l'aide d'ONNX Runtime. L'orateur démontre l'utilisation de différents fournisseurs d'exécution, dont OpenVINO, pour l'inférence sur du matériel flexible. Le code d'inférence est essentiellement le même dans tous les environnements, la principale différence étant le fournisseur d'exécution. ONNX Runtime effectue l'inférence plus rapidement que PyTorch sur le CPU et le GPU, et une bibliothèque ONNX Runtime distincte existe pour OpenVINO. Dans l'ensemble, le didacticiel fournit un aperçu de la façon de déployer des modèles sur diverses options matérielles à l'aide d'ONNX Runtime.
Inférence d'apprentissage automatique dans Flink avec ONNX
Inférence d'apprentissage automatique dans Flink avec ONNX
La vidéo traite des avantages et de la mise en œuvre de l'utilisation d'ONNX dans l'inférence d'apprentissage automatique et de son déploiement dans le cadre informatique distribué, Flink. La séparation des préoccupations entre la formation de modèles et l'inférence de production, la capacité à définir des spécifications pour les entrées et les sorties et l'indépendance linguistique font d'ONNX un outil précieux pour les scientifiques des données. La vidéo montre comment charger un modèle ONNX dans Flink, en fournissant les composants clés de la fonction de carte riche et en expliquant comment regrouper les modèles avec le code à l'aide d'un fichier jar. Le conférencier aborde également des considérations telles que la gestion de la mémoire, l'optimisation des lots et l'accélération matérielle avec ONNX, et souligne ses avantages pour l'inférence d'apprentissage automatique en temps réel dans Flink.
Améliorer l'expérience d'achat en ligne avec ONNX
Améliorer l'expérience d'achat en ligne avec ONNX
Cette vidéo explique comment les entreprises de commerce électronique utilisent l'IA pour créer des informations percutantes qui différencient les gagnants et les perdants dans l'espace de vente au détail en ligne. L'orateur donne un exemple de Bazaar Voice, le plus grand réseau de marques et de détaillants qui fournit plus de 8 milliards d'avis au total, et comment ils utilisent la correspondance des produits pour partager des avis. L'orateur décrit ensuite comment ils ont développé un modèle d'apprentissage automatique en Python, l'ont exporté au format ONNX et l'ont déployé dans une fonction sans serveur à l'aide d'un environnement de nœud pour exécuter l'inférence sur un environnement d'exécution ONNX. Cette solution permet une mise en correspondance à grande vitesse de centaines de millions de produits sur des milliers de catalogues clients tout en maintenant des coûts bas, ce qui se traduit par des économies importantes et des millions d'avis supplémentaires pour les marques et les détaillants. L'orateur conclut en invitant les téléspectateurs à explorer d'autres façons d'utiliser les capacités d'ONNX et à partager leurs cas d'utilisation pour les futures avancées technologiques.
DSS en ligne #4 : Déploiement du Deep Learning de bout en bout avec ONNX
DSS en ligne #4 : Déploiement du Deep Learning de bout en bout avec ONNX
Cette vidéo aborde les défis du déploiement de l'apprentissage en profondeur de bout en bout, y compris la gestion de différents langages, frameworks, dépendances et variabilité des performances, ainsi que les frictions entre les équipes et les verrouillages de formats propriétaires. L'Open Neural Network Exchange (ONNX) est introduit en tant que format basé sur un tampon de protocole pour la sérialisation d'apprentissage en profondeur. Il prend en charge les principaux frameworks d'apprentissage en profondeur et fournit un artefact autonome pour l'exécution du modèle. ONNX ML est également abordé dans le cadre de la spécification ONNX qui prend en charge le prétraitement traditionnel de l'apprentissage automatique. Les limites d'ONNX sont reconnues, mais il est considéré comme un projet à croissance rapide avec un soutien solide de la part de grandes organisations qui offre une véritable portabilité à travers différentes dimensions de langages, de cadres, d'environnements d'exécution et de versions.
ONNX et ONNX Runtime avec Vinitra Swamy et Pranav Sharma de Microsoft
ONNX et ONNX Runtime avec Vinitra Swamy et Pranav Sharma de Microsoft
La vidéo traite du format Open Neural Network Exchange (ONNX), créé pour rendre les modèles interopérables et efficaces dans la sérialisation et la gestion des versions. ONNX se compose d'une couche de représentation intermédiaire, de spécifications d'opérateur et prend en charge différents types de données. Le runtime ONNX, implémenté en C++ et en assembleur, offre une rétrocompatibilité et est extensible via des fournisseurs d'exécution, des opérateurs personnalisés et des optimiseurs de graphes. L'API prend en charge les plates-formes, les langages de programmation et les fournisseurs d'exécution. Les utilisateurs peuvent créer des sessions, optimiser des modèles et les sérialiser pour une utilisation future. Les haut-parleurs fournissent une démonstration de la polyvalence et de l'efficacité d'ONNX Runtime, avec la possibilité de fonctionner sur des appareils Android.
compatibilité remontant à CentOS 7.6. L'outil ONNX Go Live, un outil open source pour convertir et régler les modèles pour des performances optimales, est également abordé. La section se termine par des exemples de services Microsoft utilisant ONNX, y compris un gain de performances 14x dans le modèle de déterminant manquant d'Office et un gain de performances 3x dans le modèle de reconnaissance optique de caractères utilisé dans les services cognitifs.
Jan-Benedikt Jagusch Christian Bourjau : Rendre les applications d'apprentissage automatique rapides et simples avec ONNX
Jan-Benedikt Jagusch Christian Bourjau : Rendre les applications d'apprentissage automatique rapides et simples avec ONNX
Dans cette vidéo sur l'apprentissage automatique et le déploiement, les conférenciers discutent des défis de la mise en production de modèles, en particulier de la difficulté de décaper et de déployer des modèles. Ils présentent ONNX, un format de fichier universel pour l'exportation de modèles d'apprentissage automatique, et expliquent comment il peut aider à découpler la formation et l'inférence, ce qui rend le déploiement plus rapide et plus efficace. Ils fournissent une démonstration en direct à l'aide de scikit-learn, expliquant comment convertir un pipeline d'apprentissage automatique au format ONNX. Ils discutent également des limites des conteneurs Docker pour le déploiement de modèles d'apprentissage automatique et soulignent les avantages d'utiliser ONNX à la place. Ils abordent le sujet des modèles de chiffrement pour une sécurité supplémentaire et abordent le problème de convivialité d'ONNX, qui est encore un jeune écosystème avec des messages d'erreur cryptiques.
ONNX Runtime Azure EP pour l'inférence hybride sur Edge et Cloud
ONNX Runtime Azure EP pour l'inférence hybride sur Edge et Cloud
L'équipe ONNX Runtime a publié sa première étape dans le monde hybride permettant aux développeurs d'utiliser une seule API pour l'informatique en périphérie et dans le cloud avec Azure EP, ce qui élimine les problèmes de connectivité des appareils et permet aux développeurs de passer au modèle cloud qu'ils ont optimisé. , en réduisant les coûts et en réduisant la latence. Cette nouvelle fonctionnalité permet aux développeurs de mettre à jour la logique de l'application et de choisir le chemin à emprunter via Azure EP, offrant ainsi plus de capacités et de puissance. L'équipe démontre le déploiement de serveurs enfants et de modèles de détection d'objets, ainsi que la façon de tester le point de terminaison et de configurer simplement Onnx Runtime Azure. Les présentateurs discutent également de la possibilité de basculer entre le traitement local et à distance et les cas d'utilisation potentiels, y compris les modèles les moins performants par rapport aux modèles les plus performants. ONNX Runtime Azure EP peut être préchargé et configuré facilement avec les packages nécessaires au déploiement, contribuant ainsi à la facilité d'utilisation du logiciel.
Inférence INT8 de modèles entraînés compatibles avec la quantification à l'aide d'ONNX-TensorRT
Inférence INT8 de modèles entraînés compatibles avec la quantification à l'aide d'ONNX-TensorRT
Dheeraj Peri, ingénieur logiciel d'apprentissage en profondeur chez NVIDIA, explique les bases de la quantification et comment TensorRT prend en charge les réseaux quantifiés via diverses fusions. Ils se concentrent sur les modèles formés à l'aide du framework TensorFlow 2.0 et sur la manière d'effectuer la quantification post-formation (PTQ) et la formation sensible à la quantification (QAT). Le processus de déploiement d'un modèle formé à l'aide de la boîte à outils de quantification Nvidia TF2 avec ONNX-TensorRT est expliqué, et les résultats de précision et de latence sont présentés pour divers modèles ResNet. Dans l'ensemble, le flux de travail QAT de bout en bout, du déploiement de TensorFlow au déploiement de TensorRT via ONNX-TensorRT, est démontré.