Les modèles contemporains, notamment les modèles de langage visuel (VLM), excellent dans la reconnaissance d’objets généraux, mais rencontrent des difficultés lorsqu’il s’agit d’identifier des instances spécifiques, comme un animal de compagnie.
Cette limitation est attribuée à un déficit dans l’apprentissage contextuel qui pourrait maximiser leur efficacité.
Dans cette optique, des chercheurs du MIT et du MIT-IBM Watson AI Lab ont mis au point une approche novatrice fondée sur l’analyse de données provenant de séquences vidéo.
Cette méthode permet aux VLM d’accorder davantage d’attention aux indices contextuels, au lieu de s’appuyer uniquement sur les connaissances qu’ils ont préalablement acquises.
Les résultats de ces travaux ont été probants, avec une amélioration de 12 % de la précision de localisation.
Il a également été observé que, bien que les VLM soient basés sur des modèles de langage, ils ne tirent pas toujours parti de leurs capacités d’apprentissage contextuel.
Pour contrer ce problème, les chercheurs ont introduit des pseudo-noms, afin d’éviter que les modèles ne reconnaissent les objets simplement à partir de données préexistantes.
Cette avancée ouvre des perspectives prometteuses pour l’identification d’objets spécifiques dans divers contextes visuels, avec des implications pratiques dans des secteurs comme la robotique et la réalité augmentée.
Source: IA Tech news
