Génération de code
HumanEval
Évaluation de la capacité à générer du code Python fonctionnel
Créé: 07/07/2021
Mis à jour: 20/01/2024
Métriques
- Pass@1
- Pass@10
- Pass@100
Statistiques
Modèles évalués
3
Score moyen
74.6%
Meilleur résultat
Modèle
Claude 3 Opus
Score
84.9%
Classement des modèles
Résultats triés par performance
| Rang | Modèle | Score | Date |
|---|---|---|---|
| 1 | Claude 3 Opus | 84.9% | 04/03/2024 |
| 2 | Gemini 1.5 Pro | 71.9% | 15/02/2024 |
| 3 | GPT-4 | 67% | 14/03/2023 |