OkurAI
Raisonnement

HellaSwag

Test de raisonnement de bon sens pour compléter des scénarios

Créé: 01/05/2019
Mis à jour: 10/01/2024

Métriques

  • Précision

Statistiques

Modèles évalués
3
Score moyen
94.4%

Meilleur résultat

Modèle
Claude 3 Opus
Score
95.4%

Classement des modèles

Résultats triés par performance

RangModèleScoreDate
1Claude 3 Opus95.4%04/03/2024
2GPT-495.3%14/03/2023
3Gemini 1.5 Pro92.5%15/02/2024