Modèles ouverts vs fermés : 4 mois de retard moyen

Depuis janvier 2026, les modèles open-weight les plus capables ont traîné en moyenne quatre mois derrière les modèles fermés de pointe selon le Capabilities Index (ECI), notre mesure agrégée de performance des modèles. L'écart ECI moyen est de 8 points — comparable au saut entre GPT-5 et GPT-5.5.

Score Capabilities Index par modèle

Poids fermés

Poids ouverts

OkurAI|CC-BY

Cet écart entre modèles ouverts et fermés est légèrement plus large que celui identifié dans notre Data Insight d'octobre 2025, qui constatait un retard moyen de trois mois entre janvier 2023 et octobre 2025.

En savoir plus sur ce graphique

Nous calculons le délai moyen que mettent les meilleurs modèles open-weight pour rattraper le niveau de pointe selon notre indice de capacité (ECI), une mesure composite qui capte la performance sur de nombreux benchmarks.

Méthodologie

Pour calculer l'écart temporel moyen, nous parcourons jour par jour notre fenêtre d'analyse, du 1^er janvier 2026 au 28 mai 2026. Chaque jour, nous identifions le modèle open-weight ayant le meilleur score ECI à cette date. Nous comparons ensuite ce modèle à la frontière historique des SOTA fermés et nous demandons : quelle est la date la plus récente à laquelle le SOTA fermé n'était pas significativement meilleur que ce modèle ouvert ? L'écart temporel pour ce jour est le nombre de jours écoulés depuis cette date.

Les scores ECI étant estimés avec incertitude, nous utilisons des échantillons bootstrap pour effectuer la comparaison. Les échantillons bootstrap sont générés en rééchantillonnant avec remplacement notre ensemble complet de scores de benchmarks et en réajustant le modèle ECI sur chaque jeu rééchantillonné. Pour chaque échantillon bootstrap, nous comparons l'estimation ECI bootstrappée du modèle ouvert à celle de chaque SOTA historique, en préservant l'appariement bootstrap entre modèles.

Nous considérons que le modèle ouvert a plausiblement rattrapé un ancien SOTA s'il le surpasse dans au moins 5 % des échantillons appariés — ce qui équivaut à dire que l'ancien SOTA n'est pas significativement meilleur au seuil de 5 %. La date SOTA la plus récente satisfaisant ce critère sert à calculer l'écart temporel.

Nous obtenons un écart temporel moyen de quatre mois. Cette estimation passerait à six mois si nous exigions que l'estimation ponctuelle ECI du modèle ouvert soit strictement supérieure à celle du modèle fermé qu'il rattrape (au lieu d'être meilleur dans au moins 5 % des échantillons).

Les dates de sortie étant observées sans incertitude, calculer l'écart ECI moyen (l'écart « vertical » à une date donnée) revient simplement à observer la différence moyenne entre le SOTA absolu et le SOTA open-weight sur toutes les dates de la fenêtre. Nous trouvons un écart ECI moyen de 8 points, avec un intervalle de confiance à 90 % de 7 à 11 unités.

Pourquoi l'écart réel pourrait être plus large

Deux facteurs suggèrent que notre estimation pourrait sous-estimer l'écart réel entre modèles ouverts et fermés.

1. Benchmarks privés. Les indices suggèrent que les modèles open-weight performent moins bien sur les benchmarks privés que sur les benchmarks publics — plausiblement parce qu'ils sont plus agressivement optimisés (« hillclimbing ») sur ces derniers.

2. Couverture des modèles. Nous n'incluons que les modèles disposant d'une couverture benchmarks suffisante pour calculer un ECI. Les laboratoires fermés de pointe ne publient pas toujours leurs modèles les plus capables — pour des raisons de sécurité, commerciales ou concurrentielles — ce qui rend la frontière fermée que nous mesurons potentiellement en dessous du véritable état de l'art.

Article publié par OkurAI, 29 mai 2026. Reproductible sous licence Creative Commons BY.

Les modèles ouverts accusent 4 mois de retard sur les modèles fermés de pointe

En savoir plus sur ce graphique

Méthodologie

Pourquoi l'écart réel pourrait être plus large

À propos des auteurs

Jack Edwards

Luke Emberson

Rayane Moumni

Sujets liés