Le logiciel vise à améliorer les performances et réduire les coûts opérationnels, notamment en augmentant le nombre de jetons générés par les modèles d’IA.
Pour ce faire, Dynamo orchestre efficacement les demandes d’inférence sur des milliers de GPU, en utilisant une approche désagrégée pour optimiser chaque phase de traitement et de génération des modèles.
En plus d’améliorer les performances, le logiciel peut également ajouter, supprimer et réaffecter dynamiquement les GPU en fonction des demandes fluctuantes, ce qui permet d’optimiser l’utilisation des ressources GPU.
En outre, Dynamo offre une prise en charge robuste de la portion désagrégée, une technique qui attribue différentes phases de calcul à différents GPU pour améliorer le débit global et réduire les temps de réponse.
Plusieurs innovations clés de Dynamo, telles que le GPU Planner, le Smart Router, la Bibliothèque de communication à faible latence et le Gestionnaire de mémoire, contribuent à réduire les coûts de service à l’inférence et à améliorer l’expérience utilisateur.
Avec ces fonctionnalités avancées, Nvidia s’attend à ce que Dynamo accélère l’adoption de l’inférence de l’IA dans diverses organisations, offrant des performances optimisées et des opportunités de revenus améliorées pour les usines d’IA.