Root Signals, spécialiste de l’évaluation des grands modèles de langage (LLM) et du contrôle de la qualité des applications d’IA, a récemment annoncé le lancement de Root Judge, un modèle conçu pour mesurer la fiabilité des applications GenAI. Ce nouvel outil, basé sur le modèle open-source Llama-3.3-70B-Instruct de Meta, promet d’établir une nouvelle norme en matière d’évaluation fiable, personnalisable et déployable localement.
Une IA qui juge l’IA : vers une évaluation automatisée et fiable
Root Judge vise à répondre aux défis liés aux hallucinations des LLMs et à la fiabilité des décisions générées.
Son objectif est triple :
- Détection des hallucinations : il identifie, décrit et bloque automatiquement les erreurs contextuelles dans les pipelines d’IA générative augmentée (RAG) ;
- Jugements de préférence par paires : Le modèle facilite les comparaisons entre différentes sorties de modèles grâce à des critères personnalisables ;
- Respect de la confidentialité : Root Judge prend en charge les déploiements locaux, garantissant ainsi la confidentialité des données en évitant l’envoi de données sensibles sur des serveurs externes.
Une structure d’entraînement de pointe
Root Judge a été post-entraîné sur un ensemble de données rigoureusement annoté et optimisé à l’aide de techniques avancées telles que la Direct Preference Optimization (DPO) et l’Identity Preference Optimization (IPO).
Root Signals, basée à Palo Alto et à Helsinki, a exploité la puissance du supercalculateur EuroHPC JU LUMI installé à Kajaani, en Finlande pour entraîner son « LLM-as-a-Judge », sur 384 GPU AMD Radeon Instinct MI250X.
Un modèle qui se démarque
Root Judge surpasse à la fois les modèles fermés tels que GPT-4o, o1-mini, o1-preview d’OpenAI et Sonnet-3.5 d’Anthropic, ainsi que d’autres LLMs Judge open source de taille similaire en matière de détection des hallucinations et de génération d’extrants explicables. Ses applications s’étendent à tous les secteurs, ce qui en fait un outil polyvalent pour les entreprises, les développeurs et les chercheurs à la recherche de solutions d’IA fiables et adaptées à leurs besoins. Nous sommes désormais en attente de benchmarks face à GPT 4.5 et Sonnet 3.7 qui viennent de sortir.
Disponible sous une licence open weights, le modèle est également accessible via Root Signals EvalOps, une plateforme conçue pour mesurer et surveiller les comportements des LLMs en production.
Leave A Comment