OkurAI
Génération de code

HumanEval

Évaluation de la capacité à générer du code Python fonctionnel

Créé: 07/07/2021
Mis à jour: 20/01/2024

Métriques

  • Pass@1
  • Pass@10
  • Pass@100

Statistiques

Modèles évalués
3
Score moyen
74.6%

Meilleur résultat

Modèle
Claude 3 Opus
Score
84.9%

Classement des modèles

Résultats triés par performance

RangModèleScoreDate
1Claude 3 Opus84.9%04/03/2024
2Gemini 1.5 Pro71.9%15/02/2024
3GPT-467%14/03/2023