OkurAI
Data Insight29 mai 2026

Les modèles ouverts accusent 4 mois de retard sur les modèles fermés de pointe

Depuis janvier 2026, les meilleurs modèles open-weight traînent en moyenne quatre mois derrière la frontière fermée. L'écart ECI moyen est de 8 points — soit l'équivalent du saut entre GPT-5 et GPT-5.5.

JE
Luke Emberson
Rayane Moumni

Article écrit par Jack Edwards, Luke Emberson et Rayane Moumni

Depuis janvier 2026, les modèles open-weight les plus capables ont traîné en moyenne quatre mois derrière les modèles fermés de pointe selon le Capabilities Index (ECI), notre mesure agrégée de performance des modèles. L'écart ECI moyen est de 8 points — comparable au saut entre GPT-5 et GPT-5.5.

Score Capabilities Index par modèle

Poids fermés
Poids ouverts
110120130140150160Janv. 2023Juill. 2023Janv. 2024Juill. 2024Janv. 2025Juill. 2025Janv. 2026Date de sortieGPT-4 (Mar 2023)Claude 3.5 Sonneto1-minio1o3GPT-5 ProGPT-5.3 CodexGPT-5.5 ProLlama 2-70BYi-34BMixtral 8x7BMixtral 8x22BLlama 3.1-405BDeepSeek-V3DeepSeek-R1Qwen3-235B-A22BKimi K2.6
OkurAI|CC-BY

Cet écart entre modèles ouverts et fermés est légèrement plus large que celui identifié dans notre Data Insight d'octobre 2025, qui constatait un retard moyen de trois mois entre janvier 2023 et octobre 2025.

En savoir plus sur ce graphique

Nous calculons le délai moyen que mettent les meilleurs modèles open-weight pour rattraper le niveau de pointe selon notre indice de capacité (ECI), une mesure composite qui capte la performance sur de nombreux benchmarks.

Méthodologie

Pour calculer l'écart temporel moyen, nous parcourons jour par jour notre fenêtre d'analyse, du 1er janvier 2026 au 28 mai 2026. Chaque jour, nous identifions le modèle open-weight ayant le meilleur score ECI à cette date. Nous comparons ensuite ce modèle à la frontière historique des SOTA fermés et nous demandons : quelle est la date la plus récente à laquelle le SOTA fermé n'était pas significativement meilleur que ce modèle ouvert ? L'écart temporel pour ce jour est le nombre de jours écoulés depuis cette date.

Les scores ECI étant estimés avec incertitude, nous utilisons des échantillons bootstrap pour effectuer la comparaison. Les échantillons bootstrap sont générés en rééchantillonnant avec remplacement notre ensemble complet de scores de benchmarks et en réajustant le modèle ECI sur chaque jeu rééchantillonné. Pour chaque échantillon bootstrap, nous comparons l'estimation ECI bootstrappée du modèle ouvert à celle de chaque SOTA historique, en préservant l'appariement bootstrap entre modèles.

Nous considérons que le modèle ouvert a plausiblement rattrapé un ancien SOTA s'il le surpasse dans au moins 5 % des échantillons appariés — ce qui équivaut à dire que l'ancien SOTA n'est pas significativement meilleur au seuil de 5 %. La date SOTA la plus récente satisfaisant ce critère sert à calculer l'écart temporel.

Nous obtenons un écart temporel moyen de quatre mois. Cette estimation passerait à six mois si nous exigions que l'estimation ponctuelle ECI du modèle ouvert soit strictement supérieure à celle du modèle fermé qu'il rattrape (au lieu d'être meilleur dans au moins 5 % des échantillons).

Les dates de sortie étant observées sans incertitude, calculer l'écart ECI moyen (l'écart « vertical » à une date donnée) revient simplement à observer la différence moyenne entre le SOTA absolu et le SOTA open-weight sur toutes les dates de la fenêtre. Nous trouvons un écart ECI moyen de 8 points, avec un intervalle de confiance à 90 % de 7 à 11 unités.

Pourquoi l'écart réel pourrait être plus large

Deux facteurs suggèrent que notre estimation pourrait sous-estimer l'écart réel entre modèles ouverts et fermés.

1. Benchmarks privés. Les indices suggèrent que les modèles open-weight performent moins bien sur les benchmarks privés que sur les benchmarks publics — plausiblement parce qu'ils sont plus agressivement optimisés (« hillclimbing ») sur ces derniers.

2. Couverture des modèles. Nous n'incluons que les modèles disposant d'une couverture benchmarks suffisante pour calculer un ECI. Les laboratoires fermés de pointe ne publient pas toujours leurs modèles les plus capables — pour des raisons de sécurité, commerciales ou concurrentielles — ce qui rend la frontière fermée que nous mesurons potentiellement en dessous du véritable état de l'art.

Article publié par OkurAI, 29 mai 2026. Reproductible sous licence Creative Commons BY.

À propos des auteurs

JE

Jack Edwards

Jack Edwards est analyste spécialisé dans l'évaluation des capacités des modèles d'IA. Ses travaux portent sur la mesure des progrès des modèles open-weight et la construction d'indices composites de performance.

Luke Emberson

Luke Emberson

Luke Emberson est analyste spécialisé dans l'étude économique et structurelle de l'industrie de l'intelligence artificielle. Il s'intéresse particulièrement aux dynamiques de revenu, d'effectifs et d'adoption des laboratoires d'IA de pointe.

Rayane Moumni

Rayane Moumni

Rayane Moumni, fondateur d'OkurAI, premier observatoire et think tank français spécialisé dans l'analyse de l'intelligence artificielle. Multi-entrepreneur et chercheur sur l'IA.