Pour s’assurer que Claude intègre bien ces valeurs, l’entreprise Anthropic utilise des techniques telles que la formation constitutionnelle d’IA, ciblant des comportements spécifiques à encourager, comme être utile, honnête et inoffensif.
Bien que confiants, les concepteurs reconnaissent qu’ils ne peuvent pas garantir une adhérence parfaite aux valeurs souhaitées et envisagent la possibilité que l’IA puisse parfois s’écarter des principes enseignés.Pour évaluer de manière fiable et en conditions réelles les valeurs que Claude défend, Anthropic a développé une méthode d’analyse des conversations anonymisées entre l’IA et les utilisateurs.
Cette méthode enlève toute information personnelle avant d’extraire les valeurs exprimées par l’IA, ce qui permet de classer ces dernières dans une structure hiérarchique sans compromettre la confidentialité des utilisateurs.
L’étude de 700 000 conversations a montré que Claude tend à exprimer des valeurs alignées sur les principes de formation, comme l’utilité et l’honnêteté, mais a aussi révélé des exceptions, notamment dans des cas de contournement des sécurités standard de l’IA.
Ces observations suggèrent que cette approche peut également servir à détecter des utilisations malveillantes potentielles de l’IA.