L’équipe, composée d’experts en politique, science des données et ingénierie, met en place une approche en couches pour la sécurité, avec des règles d’utilisation claires, particulièrement pour des sujets sensibles comme la finance et la santé.
À l’aide d’un cadre d’analyse des préjudices, ils évaluent les impacts négatifs potentiels et collaborent avec des spécialistes externes pour tester la robustesse de leurs politiques.
Avant chaque nouvelle version de Claude, des évaluations rigoureuses sont conduites pour vérifier le respect des règles et l’absence de biais.
Une fois que Claude est opérationnel, un système de surveillance hybride s’active, utilisant des modèles classificateurs pour détecter les violations en temps réel.
Anthropic est conscient que la sécurité de l’IA nécessite une collaboration avec des chercheurs et le grand public pour renforcer les mesures de protection.