Génération de code

HumanEval

Évaluation de la capacité à générer du code Python fonctionnel

Créé: 07/07/2021

Mis à jour: 20/01/2024

Métriques

Pass@1
Pass@10
Pass@100

Statistiques

Modèles évalués

3

Score moyen

74.6%

Meilleur résultat

Modèle

Claude 3 Opus

Score

84.9%

Classement des modèles

Résultats triés par performance

Rang	Modèle	Score	Date
1	Claude 3 Opus	84.9%	04/03/2024
2	Gemini 1.5 Pro	71.9%	15/02/2024
3	GPT-4	67%	14/03/2023