Anthropic voert nu vijf Arena-ranglijsten aan met Claude Opus

De nieuwste Text Arena van 28 mei laat zien dat Anthropic de bovenste vier plekken bezet. claude-opus-4-6-thinking staat daar op één, gevolgd door claude-opus-4-7-thinking, claude-opus-4-6 en claude-opus-4-7. Daarachter volgen muse-spark van Meta als voorlopige nummer vijf en Google's gemini-3.1-pro-preview als nummer zes, terwijl OpenAI's hoogste notering in deze lijst bij gpt-5.5-high op plek zeven ligt.

Die stand staat niet op zichzelf. De Arena-overzichtspagina laat zien dat Claude Opus-varianten ook de koppositie vasthouden in Code, Vision, Document en Search. Daarmee wordt de voorsprong van Anthropic breder dan alleen een klassieke chatranglijst: ook arena's voor visuele taken, documentwerk en zoekopdrachten worden nu door dezelfde modelfamilie aangevoerd.

Vooral de Code Arena past in een trend die de laatste maanden sterker zichtbaar wordt. Arena omschrijft die ranglijst expliciet als een meting van front-end-webdevelopment en agentische coding-workflows met meerstapsredenering en toolgebruik. Dat juist daar vooral Claude Opus-varianten bovenaan staan, sluit aan op de bredere verschuiving van losse benchmarkpieken naar modellen die langere taken consistenter afmaken.

Tegelijk zit er wel beweging onder die top. In Code Arena staat qwen3.7-max-20260517 van Alibaba voorlopig op plek vier met een preliminary-label, nog voor claude-opus-4-6 en ruim voor OpenAI's gpt-5.5-high (codex-harness) op plek negen. Ook glm-5.1 en kimi-k2.6 staan daar in de top zes. Dat wijst erop dat Chinese labs vooral bij code en agentische workflows sneller naar voren schuiven dan in de algemene tekstranglijst.

Wel is voorzichtigheid nodig bij het lezen van de precieze tussenstanden. De betrokken Arena-tabbladen verversen niet allemaal op dezelfde dag: de tekstlijst is bijgewerkt op 28 mei, code op 24 mei, vision op 17 mei en search op 12 mei. De grote lijn lijkt daardoor op dit moment relevanter dan een losse wisseling van één plek.