Les tests traditionnels mesuraient uniquement la fonctionnalité du code sans tenir compte de l’esthétique ou de l’interactivité, posant ainsi un défi majeur dans le développement d’IA capable de juger la qualité visuelle.
ArtifactsBench se positionne donc comme un critique d’art automatisé qui utilise un pipeline multimodal pour évaluer 1 825 tâches créatives.
Le processus commence par la génération de code par une IA suite à un défi créatif.
ArtifactsBench exécute ensuite ce code dans un environnement sécurisé et capture des captures d’écran pour analyser l’interaction de l’utilisateur avec l’application.
Un juge multimodal évalue les résultats en utilisant des critères précis, ce qui a révélé une corrélation de 94,4 % avec les jugements humains, signifiant une amélioration significative par rapport aux anciennes méthodes d’évaluation.
Les tests ont montré que les modèles d’IA généralistes surpassaient souvent les modèles spécialisés, prouvant que la création d’applications visuelles nécessite une combinaison de compétences allant au-delà du simple codage.
Tencent espère que cette approche contribuera à mesurer et à promouvoir l’évolution de la créativité artificielle.