Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
AI Show Live - Episódio 62 - Inferência Multiplataforma com o ONNX Runtime
AI Show Live - Episódio 62 - Inferência Multiplataforma com o ONNX Runtime
No episódio "Multiplatform Inference with the ONNX Runtime" do AI Show Live, os apresentadores mostram como implantar um modelo de super resolução e um modelo de detecção de objetos em várias plataformas usando a estrutura ONNX Runtime. Eles discutem as etapas de pré-processamento e pós-processamento para plataformas móveis e da web, demonstram os benefícios de usar uma única solução, explicam o processo de conversão de um modelo PyTorch em um modelo ONNX e mostram como pré-processar dados para inferência com o ONNX Tempo de execução. Além disso, eles demonstram a implementação do modelo de processamento de linguagem natural BERT usando o Onnx Runtime em C#. Os modelos de código e open-source estão disponíveis para customização para as soluções dos usuários.
Na segunda parte do AI Show Live, os apresentadores abordam uma variedade de tópicos relacionados à execução de inferência com o ONNX Runtime. Eles demonstram o processo de classificação de texto usando um exemplo dos exemplos de inferência ONNX e exploram a instalação de pacotes e ferramentas necessárias para construir modelos de classificação BERT em C#. Eles também discutem o uso do IntelliCode com o VS 2022 e percorrem as etapas de preparação para a inferência do modelo, incluindo a criação de tensores, a configuração da sessão de inferência do ONNX Runtime e o pós-processamento da saída. Além disso, eles abordam a importância de consultar a documentação do modelo e selecionar o tokenizador correto para obter resultados precisos.
Machine Learning Aplicado com ONNX Runtime
Machine Learning Aplicado com ONNX Runtime
Jennifer Looper, Principal Education Cloud Advocate da Microsoft, discute a convergência de criação de aplicativos, aprendizado de máquina e ciência de dados neste vídeo. Ela recomenda a criação de aplicativos inteligentes para a Web e explora várias APIs JavaScript, incluindo ml5.js, Magenta.js, PoseNet e Brain.js, para incorporar tecnologia de aprendizado de máquina em aplicativos. Looper enfatiza a utilidade do scikit-learn para aprendizado de máquina clássico e o recomenda como uma ferramenta poderosa sem a solução pesada de redes neurais. Ela também discute o Onnx Runtime, que otimiza o treinamento e a inferência definindo um conjunto comum de operadores para construir modelos de aprendizado de máquina e aprendizado profundo, e obtém dados do Kaggle para explicar o processo de execução de uma tarefa de classificação básica usando aprendizado de máquina supervisionado. O palestrante demonstra como criar um mecanismo de recomendação usando modelos de aprendizado de máquina e sugere visitar os recursos online da Microsoft para aprender mais sobre aprendizado de máquina. Ela conclui que o Onnx Runtime é adequado para iniciantes como parte de seu currículo ou para quem deseja aprender mais sobre aprendizado de máquina.
Traga o poder do ONNX para o Spark como nunca aconteceu antes
Traga o poder do ONNX para o Spark como nunca aconteceu antes
Neste vídeo, Shivan Wang da Huawei explica como trazer o poder do ONNX para o Spark para inferência. Ele discute os desafios na implantação de modelos DL no Spark e como a comunidade Spark iniciou uma proposta chamada Spip para simplificar o processo. O palestrante também discute o processador AI da Huawei, o Ascent e o ecossistema Ascent AI, que inclui vários modelos de processadores Ascent e hardware Atlas. Ele sugere adicionar Con como um novo provedor de execução no próximo tempo de execução para usar modelos ONNX diretamente no hardware Ascent, sem a necessidade de tradução de modelo. Por fim, ele menciona que o código POC para trazer o poder do ONNX para o Spark está quase completo e convida os usuários interessados a deixar uma mensagem para discutir e potencialmente fornecer recursos para fins de teste.
Builders Build #3 - Do Colab à produção com ONNX
Builders Build #3 - Do Colab à produção com ONNX
O vídeo ilustra o processo de implantação de um projeto do Colab para produção usando o ONNX. O apresentador aborda vários aspectos, como sinais de pré-processamento, modificação de código para implantação, criação de um manipulador no AWS Lambda, aceitação de entrada de áudio em um site, upload de uma função para S3 e implantação de dependências para ONNX. Apesar de encontrar algumas dificuldades, o palestrante implementa com sucesso seu modelo com a AWS e sugere que eles possam usar um objeto de arquivo base64 de carregamento do navegador ou trechos de leitura de arquivo de som para etapas futuras.
Além disso, o vídeo mostra o uso do modelo SimCLR para aprendizado contrastivo em áudio, criando um catálogo de músicas alimentando-as no modelo e treinando-o com PyTorch para obter perda zero e recuperação em k=1. O apresentador discute os desafios do uso do PyTorch na produção e propõe o ONNX como solução. O vídeo demonstra como exportar e carregar o modelo PyTorch no formato ONNX e executar a inferência. Ele também mostra como processar arquivos de áudio usando as bibliotecas Torch Audio e Numpy e soluciona problemas ao configurar um modelo PyTorch para implantação. O vídeo oferece insights sobre como mudar modelos de desenvolvimento em notebooks Colab para ambientes de produção.
Combinando o poder de Optimum, OpenVINO™, ONNX Runtime e Azure
Combinando o poder de Optimum, OpenVINO™, ONNX Runtime e Azure
O vídeo mostra a combinação de Optimum, OpenVINO, ONNX Runtime e Azure para simplificar o fluxo de trabalho do desenvolvedor e melhorar a precisão e a velocidade de seus modelos. Os palestrantes demonstram o uso de funções auxiliares, ONNX Runtime e o OpenVINO Execution Provider para otimizar modelos de aprendizado profundo. Eles também mostram como otimizar modelos de rostos abraçados usando quantização no Neural Network Compression Framework e ilustram o processo de treinamento e inferência usando Azure ML, Optimum, ONNX Runtime e OpenVINO. A demonstração destaca o poder dessas ferramentas para melhorar o desempenho dos modelos e, ao mesmo tempo, minimizar a perda de precisão.
Inferência mais rápida de modelos ONNX | Série Edge Innovation para Desenvolvedores | Software Intel
Inferência mais rápida de modelos ONNX | Série Edge Innovation para Desenvolvedores | Software Intel
O Provedor de Execução OpenVINO para ONNX Runtime é discutido neste vídeo. É um acelerador de modelo de aprendizado de máquina multiplataforma que permite a implantação de modelos de aprendizado profundo em uma variedade de dispositivos de computação da Intel. Usando o kit de ferramentas OpenVINO, que é otimizado para hardware Intel, e definindo o provedor como o OpenVINO Execution Provider no código, os desenvolvedores podem acelerar a inferência de modelos ONNX com técnicas avançadas de otimização. O vídeo enfatiza a simplicidade da modificação necessária para utilizar as ferramentas discutidas.
Inferência de modelo mais rápida e leve com ONNX Runtime da nuvem para o cliente
Inferência de modelo mais rápida e leve com ONNX Runtime da nuvem para o cliente
Neste vídeo, Emma, do grupo Microsoft Cloud and AI, explica o Open Neural Network Exchange (ONNX) e o ONNX Runtime, que é um mecanismo de alto desempenho para inferir modelos ONNX em diferentes hardwares. Emma discute o significativo ganho de desempenho e redução no tamanho do modelo que a quantização ONNX Runtime INT8 pode fornecer, bem como a importância da precisão. Ela demonstra o fluxo de trabalho de ponta a ponta da quantização ONNX Runtime INT8 e apresenta os resultados de um modelo de linha de base usando a quantização PyTorch. Além disso, Emma discute a capacidade do ONNX Runtime de otimizar a inferência de modelo da nuvem para o cliente e como ele pode atingir um tamanho inferior a 300 kilobytes nas plataformas Android e iOS por padrão.
Inferência rápida de CPU de modelo de transformador T5 com conversão e quantização ONNX
Inferência rápida de CPU de modelo de transformador T5 com conversão e quantização ONNX
Ao converter o modelo do transformador T5 para ONNX e implementar a quantização, é possível diminuir o tamanho do modelo em 3 vezes e aumentar a velocidade de inferência em até 5 vezes. Isso é particularmente útil para implantar um modelo de geração de perguntas, como T5, em uma CPU com latência abaixo de um segundo. Além disso, o aplicativo Gradio oferece uma interface visualmente atraente para o modelo. O modelo de transformador T5 da Huggingface é utilizado e a biblioteca FastT5 é usada para ONNX e quantização. A implementação dessas otimizações pode resultar em economia significativa de custos para implantações de produção desses sistemas.
Azure AI e tempo de execução ONNX
Azure AI e tempo de execução ONNX
O texto aborda vários aspectos do aprendizado de máquina e sua implantação. Ele discute a evolução da ciência de dados, os desafios de compatibilidade de estrutura, o uso de Azure AI e ONNX Runtime para implantação de modelo, a criação de ambientes de ML e as limitações do ONNX Runtime. O alto-falante enfatiza a padronização do ONNX e seu suporte para várias estruturas, facilitando a otimização para diferentes hardwares. O vídeo também menciona a ausência de um benchmark para preferências de hardware e a necessidade de usar várias ferramentas para superar as limitações do ONNX.
Implante Machine Learning em qualquer lugar com o ONNX. Modelo Python SKLearn em execução em uma função Azure ml.net
Implante Machine Learning em qualquer lugar com o ONNX. Modelo Python SKLearn em execução em uma função Azure ml.net
O vídeo mostra como o tempo de execução ONNX simplifica e padroniza a implantação de modelos de aprendizado de máquina criados em diferentes linguagens e estruturas. Ele demonstra o processo de empacotamento de um modelo Python scikit-learn em um modelo ONNX e sua implantação em uma função .NET do Azure ML. O vídeo destaca que a função do Azure pode ser facilmente acionada por meio de uma solicitação HTTP POST, facilitando a chamada de qualquer aplicativo ou site e, independentemente da linguagem usada para construir o modelo de aprendizado de máquina, ele pode ser convertido em um modelo ONNX e implantado por meio do ML.NET para ser executado de forma consistente.