Contrairement aux techniques classiques qui s’appuient sur des catégories fixes, OAK offre une approche plus souple, permettant à une même image d’être interprétée de manière diverse selon les objectifs visés ou l’environnement d’analyse.
Par exemple, une image montrant une personne en train de boire peut être classifiée en fonction de l’action effectuée, du lieu ou des émotions exprimées.
Cette méthodologie combine l’utilisation de données à la fois non étiquetées et étiquetées, complétée par des jetons de contexte pour orienter le traitement des visuels.
S’appuyant sur le système CLIP d’OpenAI, ce modèle d’intelligence artificielle a prouvé son efficacité en identifiant de nouvelles catégories d’objets, telles que des chapeaux ou des bagages lors d’une vente de garage, même sans exemples d’apprentissage préalables.
Les résultats des tests menés par les chercheurs avec des ensembles d’images démontrent une précision supérieure dans la découverte de concepts, ouvrant la voie à de nombreuses applications potentielles, notamment en robotique, où une perception contextuelle s’avère essentielle.
Source: IA Tech news