Alibaba a répondu à Deepseek en lançant Qwen 2.
5-Max, un modèle de mélange d’Experts (MOE) de grande envergure, doté d’une formation sur plus de 20 billions de jetons et de techniques de pointe comme le réglage fin supervisé (SFT) et l’apprentissage du renforcement de la rétroaction humaine (RLHF).
Ce modèle, désormais accessible via l’API Alibaba Cloud et le chat QWen, a surpassé ses pairs dans plusieurs domaines clés, dépassant même des modèles bien établis comme Deepseek V3.
Alibaba vise à étendre ses capacités d’IA en continuant à innover et à repousser les limites de l’apprentissage du renforcement, avec des implications potentiellement profondes pour l’industrie.