---
title: "Arena AI (LMArena) — przewodnik po leaderboardzie LLM-ów w 2026"
description: "Czym jest Arena AI (dawniej LMArena, Chatbot Arena), jak działa Bradley-Terry ranking, kontrowersja "Leaderboard Illusion" i jak czytać leaderboard pod strategię GEO."
date: 2026-04-27
category: AI
tags: ["AI", "LLM", "GEO", "leaderboard", "benchmarki AI", "Arena", "LMArena", "Chatbot Arena", "AI Overviews", "ranking AI"]
url: https://uper.pl/blog/arena-ai-llm-leaderboard-2026/
---

# Arena AI (LMArena) — przewodnik po leaderboardzie LLM-ów w 2026

**[Arena AI](https://arena.ai/) — wcześniej LMArena, jeszcze wcześniej Chatbot Arena — to dziś najpopularniejszy publiczny leaderboard rankingujący duże modele językowe (LLM-y).** 6 milionów oddanych głosów, ranking aktualizowany na żywo, wycena startupu **1,7 mld dolarów** po rundzie Series A w styczniu 2026 r. Arena to nieformalny, ale realny arbiter pytania „który AI jest teraz najlepszy" — a to ma bezpośrednie konsekwencje dla strategii [GEO i pozycjonowania w erze AI](/blog/jak-ai-zmienia-zasady-gry-w-seo/).

Ten przewodnik to wszystko, co specjalista SEO, copywriter i menedżer marki powinien wiedzieć o Arenie w 2026 r.: jak działa metodologia, dlaczego rebrandowała się ze startu uczelnianego, jakie ma realne kontrowersje (paper „The Leaderboard Illusion" z kwietnia 2025) i — najważniejsze — **jak czytać leaderboard pod strategię contentową**.

## Czym jest Arena AI

Arena to publiczna platforma webowa, która rankinguje LLM-y na podstawie **anonimowych głosowań head-to-head**. Mechanizm jest prosty:

1. Wpisujesz prompt.
2. Dostajesz **dwie odpowiedzi** od dwóch losowych modeli — bez informacji, który to który.
3. Wybierasz lepszą (lub remis / „obie złe").
4. Twoje głosy zasilają centralny ranking.

Po wyborze widzisz, jakie modele to były. Skala działania: **ponad 6 mln głosów** od użytkowników z całego świata — to czyni Arenę największym crowdsourcowym benchmarkiem LLM-ów w 2026 r. ([arXiv 2403.04132 — Chatbot Arena: Open Platform for Evaluating LLMs by Human Preference](https://arxiv.org/pdf/2403.04132)).

W przeciwieństwie do statycznych benchmarków typu MMLU czy HumanEval — które testują modele na zdefiniowanym zbiorze pytań — Arena mierzy **subiektywną preferencję użytkowników na otwartych promptach**. To największa siła i jednocześnie największa słabość platformy, do której wrócimy w sekcji o kontrowersjach.

## Krótka historia: od projektu Berkeley do startupu wartego 1,7 mld $

Arena zaczęła się jako akademicki projekt w **UC Berkeley Sky Computing Lab** pod marką **Chatbot Arena**, jako część grupy badawczej LMSYS. Twórcy — początkowo dwaj współlokatorzy z Berkeley — chcieli zbudować neutralny benchmark dla porównywania LLM-ów ([founded.com — historia założycieli](https://www.founded.com/lmarena-arena-ai-ranking-tool-startup-founders/)).

Linia czasu:

- **2023** — uruchomienie Chatbot Arena jako projektu akademickiego LMSYS.
- **Maj 2025** — runda **seed na 100 mln $**, wycena post-money 600 mln $.
- **Styczeń 2026** — **Series A na 150 mln $**, wycena post-money **~1,7 mld $** ([Contrary Research — LMArena business breakdown](https://research.contrary.com/company/lmarena), [CryptoRank — $1.7B startup](https://cryptorank.io/news/feed/638ec-ai-model-leaderboard-arena-judges)).
- **28 stycznia 2026** — rebrand z LMArena na **Arena** ([Wikipedia — Arena (AI platform)](https://en.wikipedia.org/wiki/Arena_(AI_platform))).

Dwa lata od projektu studenckiego do jednorożca to typowy trajekt w erze AI, ale w przypadku Areny ma jedną osobliwość: **firma utrzymała ethos badawczy** mimo komercyjnej skali. Tylko w 2026 r. tę neutralność po raz pierwszy poważnie podważono — o tym dalej.

## Założyciele i kapitał

Trzon zespołu to:

- **Anastasios N. Angelopoulos** — CEO, doktor Berkeley, statystyk specjalizujący się w testowaniu hipotez i prediction-powered inference.
- **Wei-Lin Chiang** — CTO, jeden z autorów oryginalnego paperu Chatbot Arena.
- **Ion Stoica** — co-founder i advisor, profesor Berkeley, współzałożyciel **Databricks** i **Anyscale**, jedna z najbardziej rozpoznawalnych postaci w infrastrukturze AI.

Inwestorzy Series A obejmują m.in. **Andreessen Horowitz (a16z)**. Zespół rekrutuje z Google, DeepMind, Discord, Vercel, Berkeley i Stanford.

## Jak działa Arena — battle mode i blind voting

Konkretny flow:

1. Użytkownik wybiera tryb (Battle Mode, Direct Chat, Vision Battle, etc.) — większość głosów pochodzi z Battle Mode.
2. Wpisuje prompt w naturalnym języku.
3. System losuje dwa modele z aktualnej puli (50+ modeli komercyjnych i open-source).
4. Modele odpowiadają — użytkownik widzi obie odpowiedzi anonimowo (oznaczone jako „Model A" i „Model B").
5. Użytkownik głosuje: **A lepsze**, **B lepsze**, **remis**, **obie złe**.
6. Po głosowaniu identyfikatory modeli są ujawniane.

Każdy głos to jedna obserwacja w gigantycznej macierzy preferencji. Centralna część metodologii — to, jak z tych głosów wyłania się ranking — opiera się na statystyce, do której teraz przejdziemy.

## Metodologia rankingu: Bradley-Terry zamiast Elo

Pierwotnie Arena używała **klasycznego rankingu Elo** (znanego z szachów). Od końca 2023 r. platforma migrowała do **Bradley-Terry (BT) model** ([LMArena blog — Statistical Extensions of Bradley-Terry and Elo Models](https://news.lmarena.ai/extended-arena/), [arXiv 2412.18407 — Statistical Framework for Ranking LLM-Based Chatbots](https://arxiv.org/html/2412.18407v1)).

### Dlaczego nie klasyczny Elo

Klasyczny Elo to algorytm **online**: po każdym pojedynku ratingi obu graczy są aktualizowane krok po kroku. To ma sens w szachach, gdzie:

- Każdy gracz gra setki pojedynków przez lata.
- Forma graczy się zmienia (dziś lepszy, jutro gorszy).
- Centralny dostęp do całej historii bywa niemożliwy.

Żaden z tych warunków nie obowiązuje w przypadku LLM-ów:

- **Modele są statyczne** — GPT-5 z czerwca 2026 jest tym samym modelem co GPT-5 z lipca, jeśli OpenAI nie wypuści nowej wersji.
- **Mamy pełną historię wszystkich pojedynków** — algorytm online nie jest potrzebny.
- **Kolejność pojedynków nie powinna mieć znaczenia** — model X przegrał z Y w styczniu, wygrał z Y w lutym; oba pojedynki są równoważne.

### Co oferuje Bradley-Terry

BT to **estymator największej wiarygodności (MLE)** dla pairwise win-rates. Model zakłada, że każdy gracz ma stałą, ale nieznaną „siłę", a prawdopodobieństwo zwycięstwa zależy tylko od różnicy sił między graczami. Daje to:

- **Stabilniejsze ratingi** — mniej zależne od kolejności pojedynków.
- **Realne przedziały ufności** (bootstrap) — widzisz, czy różnica między modelem #2 a #3 jest istotna statystycznie, czy mieści się w szumie.
- **Możliwość rozbicia po kategoriach** (coding, math, multilingual) bez psucia rankingu globalnego.

Praktyczna konsekwencja dla czytelnika leaderboarda: **nie patrz tylko na pojedyncze miejsce — patrz na przedział ufności**. Pomiędzy pozycjami #2 a #5 często nie ma istotnej statystycznie różnicy.

## Co znajdziesz na leaderboardzie 2026

Arena utrzymuje równolegle kilka rankingów:

- **Overall Leaderboard** — generyczny ranking po wszystkich kategoriach. Najczęściej cytowany medialnie.
- **Coding Arena** — zadania programistyczne; tu Anthropic Claude i specjalistyczne modele typu Cursor czy Cognition Devin dominują.
- **Math Arena** — zadania matematyczne; modele OpenAI z reasoning (o1, o3) zwykle prowadzą.
- **Vision Arena** — porównania na promptach z obrazami.
- **Hard Prompts Arena** — pytania filtrowane jako trudniejsze, mniej podatne na format gaming.
- **Multilingual Arenas** — rankingi per język (polski jest tu, ale baza głosów jest mniejsza, więc przedziały ufności szersze).
- **Style Control** — eksperymentalny ranking z korektą o długość odpowiedzi i format markdown.

Praktyczny wniosek: **leaderboard Overall jest najmniej informatywny**, jeśli wiesz, do czego potrzebujesz modelu. Code-assistant team patrzy na Coding; firma analityczna na Math; agencja contentowa na multilingual + Hard Prompts.

## „The Leaderboard Illusion" — kontrowersja kwiecień 2025

W kwietniu 2025 r. zespół z **Cohere Labs, AI2, Princeton, Stanford, Waterloo i University of Washington** opublikował 68-stronicowy paper *The Leaderboard Illusion*, który zarzucił Arena Systemowe nieprawidłowości w testowaniu modeli.

Kluczowe zarzuty:

- **Selective disclosure**: duże laby (Meta, OpenAI, Google, Amazon) miały możliwość prywatnego testowania wielu wariantów tego samego modelu i publikowania wyniku **tylko najlepszego**.
- **Konkretny przypadek Llama 4**: Meta przetestowała **27 wariantów Llama 4** prywatnie między styczniem a marcem 2025 r., a w dniu premiery ujawniła wynik **tylko jednego** — który akurat trafił blisko szczytu leaderboarda.
- **Skala efektu**: paper pokazuje, że labowie z dużymi budżetami systematycznie korzystają z mechanizmu private testingu, podczas gdy mniejsi gracze dostają jedną szansę publiczną.

Źródła:
- [TechCrunch — Study accuses LM Arena of helping top AI labs game its benchmark](https://techcrunch.com/2025/04/30/study-accuses-lm-arena-of-helping-top-ai-labs-game-its-benchmark/)
- [Simon Willison — Understanding the recent criticism of the Chatbot Arena](https://simonwillison.net/2025/Apr/30/criticism-of-the-chatbot-arena/)
- [OpenReview — The Leaderboard Illusion (full paper)](https://openreview.net/forum?id=4Ae8edNqm0)

### Odpowiedź LMArena

Ion Stoica nazwał paper „pełnym nieścisłości" i „wątpliwym" ([LMArena blog — Our response](https://lmarena.ai/blog/our-response/)). Argumenty platformy:

- Każdy provider może zgłosić tyle wariantów, ile chce — duże laby zgłaszają więcej, bo **rozwijają więcej modeli**, a nie dlatego, że dostały specjalny dostęp.
- Ranking publikowany jest na podstawie **ujawnionych modeli**, więc decyzja o publikacji to decyzja vendora, nie Arena.
- Platforma od 2025 r. wprowadziła pewne reformy (większa transparentność, jasna polityka model testingu), ale nie zniosła możliwości private testingu — bo jest ona też potrzebna mniejszym labom do iteracji przed publicznym debiutem.

### Co to znaczy w praktyce

Niezależnie od strony sporu, fakt jest taki: **leaderboard Overall jest skewed w stronę dużych labów** w sposób, który niekoniecznie odzwierciedla „prawdę o jakości". Dla czytelnika to argument, by:

- Patrzeć na **rankingi specjalistyczne** zamiast Overall.
- Porównywać Arena z **alternatywnymi benchmarkami** (HumanEval, MMLU, SWE-Bench, GAIA).
- Brać poprawkę na to, że **najnowsze modele** są często lepiej dostrojone pod „styl Areny" niż wcześniejsze.

## Goodhart's Law — gaming stylem zamiast jakością

Druga warstwa krytyki dotyczy nie wendorskiego gamingu, tylko samej natury crowdsourcowych głosowań. Niezależne analizy ([Collinear — Goodhart's Law in AI Leaderboard Controversy](https://blog.collinear.ai/p/gaming-the-system-goodharts-law-exemplified-in-ai-leaderboard-controversy)) pokazują, że użytkownicy **systematycznie premiują**:

- **Listy punktowane** zamiast tekstu ciągłego.
- **Określoną długość odpowiedzi** (~200–400 słów dla zapytań ogólnych) — krótsze są oceniane jako „leniwe", dłuższe jako „rozwlekłe".
- **Markdown formatting** (nagłówki, pogrubienia).
- **Pewność tonalną** zamiast zniuansowanej odpowiedzi.

Konsekwencja: model, który **nauczył się stylu Areny**, dostaje wyższe ratingi nawet bez realnego wzrostu jakości merytorycznej. To klasyczny przykład **prawa Goodharta**: „kiedy miara staje się celem, przestaje być dobrą miarą".

Dodatkowo niezależni badacze pokazali, że ranking można zmanipulować już **kilkoma setkami zorganizowanych głosów** ([OpenReview — Improving Your Model Ranking on Chatbot Arena by Vote Rigging](https://openreview.net/forum?id=5cDc71jLc1)). To nie jest tania manipulacja, ale dla labu z budżetem marketingowym — w pełni osiągalna.

## Dlaczego SEO-wiec i marketer powinien zaglądać do Areny

Skoro leaderboard ma realne wady, po co w ogóle do niego zaglądać?

Trzy konkretne powody:

### 1. Wybór modelu, pod który optymalizujesz GEO

[GEO (Generative Engine Optimization)](/blog/jak-ai-zmienia-zasady-gry-w-seo/) wymaga wiedzy, **który silnik AI realnie obsługuje Twoich klientów**. Jeśli ranking Arena pokazuje, że GPT-5 dominuje w kategorii „business inquiries", a Claude w „technical writing" — Twoja strategia content marketingu pod biznes B2B powinna być optymalizowana **pod GPT-5 first**, a treści techniczne pod Claude.

### 2. Trendy adopcji wyprzedzają oficjalne komunikaty

Nowe modele pojawiają się na Arenie z kilkutygodniowym wyprzedzeniem przed pełnymi premierami komercyjnymi. Monitorowanie pojawiania się nowych nazw na leaderboardzie pozwala **przewidzieć**, który model będzie cytowany w AI Overviews za 3–6 miesięcy — i przygotować [treści cytowalne przez AI](/blog/widocznosc-w-ai-jak-tworzyc-tresci-cytowane-przez-llm/) zanim konkurencja zauważy zmianę.

### 3. Kalibracja własnych testów

Większość zespołów contentowych używa „chodzącego prompta" — własnych zapytań, na których oceniają jakość AI. Problem: te prompty są zwykle wąskie i mogą faworyzować jeden model. Arena, mimo wad, jest **dużo szerszym samplem ludzkiej preferencji**. Jeśli Twoja wewnętrzna ocena diverguje od Areny, jest to sygnał — może masz unikalny use case (świetnie!), albo Twoja ocena jest skrzywiona (czas zrewidować).

## Jak czytać leaderboard pod strategię contentową

### Praktyczne reguły

**1. Pomiń Overall, idź do specjalistycznych rankingów.** Coding, Multilingual (per język), Hard Prompts — to one mówią Ci coś sensownego o realnym use case.

**2. Patrz na przedziały ufności, nie pozycje.** Różnica między #2 a #5 często mieści się w szumie. Próg, gdzie pojedynczy stopień różni się statystycznie od następnego, to zwykle 30–50 punktów BT score.

**3. Watch trends, not snapshots.** Pojedyncze zdjęcie leaderboarda jest mało informacyjne — śledź, **który model się rusza**. Model awansujący szybko z #15 na #5 to często lepszy zakład na 6-mies. horyzont niż stały lider, który trzyma #1 od miesięcy.

**4. Kombinuj z innymi benchmarkami.** Arena + MMLU + SWE-Bench + GAIA daje czterowymiarowy obraz. Sam Arena Overall to streszczenie.

**5. Nie wierz Overall „winner-takes-all"** narracji. Nawet w 2026 r. Top 3 modeli ma swoje **mocne i słabe strony**. Strategia contentowa powinna być **multi-model**, nie „one true LLM".

### Konkretny workflow dla zespołu marketingu

- **Co tydzień**: sprawdź ruch w Top 10 (czy są nowe nazwy).
- **Co miesiąc**: zaktualizuj listę modeli, pod które testujesz cytowalność własnych treści (zob. [nowe KPI cytowalności w AI](/blog/nowe-kpi-seo-cytowalnosc-ai/)).
- **Co kwartał**: przegląd kategorii specjalistycznych pasujących do Twojej branży.
- **Po każdej dużej premierze (GPT-X, Claude X, Gemini X)**: 2–3 tygodnie obserwacji, jak nowy model rankinguje, zanim podejmiesz decyzje strategiczne.

## Ograniczenia i ryzyka leaderboarda

Podsumowanie wad, które trzeba mieć z tyłu głowy:

- **Subiektywność** — preferencja głosujących nie zawsze pokrywa się z obiektywną jakością.
- **Format gaming** — modele uczące się stylu Areny dostają boost niezwiązany z merytoryką.
- **Selective disclosure** przez duże laby (kontrowersja Leaderboard Illusion).
- **Wąski sample użytkowników** — głosujący to głównie tech-savvy populacja anglojęzyczna, niekoniecznie reprezentatywna.
- **Volatility** — pozycje zmieniają się tygodniowo, zwłaszcza po premierach. Decyzje strategiczne na podstawie zdjęcia leaderboarda są ryzykowne.
- **Kategorie spec. mają mniejsze sample** — przedziały ufności w polskim rankingu czy w Vision są szersze niż w Overall.

## Alternatywy i benchmarki komplementarne

Arena nie jest jedynym benchmarkem — i nie powinna być jedynym źródłem decyzji.

- **MMLU (Massive Multitask Language Understanding)** — statyczny benchmark wiedzy ogólnej, 57 dziedzin.
- **HumanEval / MBPP** — zadania programistyczne (statyczne, automatycznie ewaluowane).
- **SWE-Bench / SWE-Bench Verified** — realne issue z GitHub, mierzy zdolność do rozwiązywania bugów.
- **GAIA** — benchmark agentic z realnym surfingiem internetu.
- **GPQA Diamond** — ekstremalnie trudne pytania naukowe (Google-proof Q&A).
- **MT-Bench** — generowane przez sędziów GPT-4 oceny multi-turn konwersacji.

Każdy z nich ma swoje wady, ale **kombinacja Arena + MMLU + GPQA + SWE-Bench** daje znacznie pełniejszy obraz niż pojedynczy ranking.

## Praktyczna checklista dla zespołu marketingu

Jeśli prowadzisz agencję marketingową albo dział contentowy w firmie, w 2026 r. minimum to:

- [ ] Konto na [arena.ai](https://arena.ai/) — choćby do okazjonalnych własnych testów blind.
- [ ] Lista 3–5 modeli, pod które piszesz [treści cytowalne przez AI](/blog/jak-pisac-tresci-cytowalne-przez-ai/), aktualizowana co kwartał.
- [ ] Subskrypcja [news.lmarena.ai](https://news.lmarena.ai/) — alerty o większych zmianach metodologii.
- [ ] Kombinacja Arena + co najmniej jeden statyczny benchmark (MMLU/SWE-Bench) w decyzjach strategicznych.
- [ ] Test cytowalności własnej witryny w top 3 modelach co miesiąc — porównanie z [widocznością strony w LLM-ach](/blog/widocznosc-strony-w-llm/).

## Co dalej z Areną

Po Series A Arena stoi przed kilkoma decyzjami, które wpłyną na to, jak będzie wyglądać w 2027 r.:

- **Komercjalizacja**: jak monetyzować platformę bez utraty zaufania badawczego? Premium features, API, enterprise audyty? Każda droga ma trade-offy.
- **Reformy po Leaderboard Illusion**: ile transparentności wprowadzą wokół private testingu i selective disclosure?
- **Internacjonalizacja**: rankingi non-English są dziś niedostatecznie próbkowane. Czy Arena zainwestuje w lokalizację głosujących?
- **Konkurencja**: pojawiają się alternatywne benchmarki (np. zamknięte enterprise audyty), które mogą przesunąć część użytkowników.

Dla SEO/GEO praktyków: niezależnie od kierunku rozwoju Areny, **publiczny leaderboard LLM-ów istnieje teraz na stałe**. To, co się może zmienić, to konkretny brand i metodologia — nie sam fakt, że taka platforma jest częścią ekosystemu.

## Wnioski

Arena AI to dziś najbliższa publiczna aproksymacja pytania „który LLM jest najlepszy", ale **nie jest to obiektywny werdykt** — to crowdsourcowy ranking ludzkich preferencji z konkretnymi wadami metodologicznymi. Dla SEO-wca i marketera w 2026 r. wartością Areny nie jest „kto wygrywa", tylko **co i jak się zmienia**: które modele zyskują, jak rośnie udział nowych graczy, jakie kategorie premiują różne style odpowiedzi.

Trzy rzeczy, które warto zapamiętać:

1. **Specjalistyczne rankingi > Overall.** Coding, Multilingual, Hard Prompts mówią więcej niż główny leaderboard.
2. **Kombinuj benchmarki.** Arena + MMLU + SWE-Bench + GAIA = rzetelny obraz.
3. **Czytaj leaderboard jako trend, nie zdjęcie.** Decyzje strategiczne na podstawie pojedynczego stanu są ryzykowne.

Dobrze prowadzona strategia [GEO i AEO](/blog/jak-ai-zmienia-zasady-gry-w-seo/) używa Areny jako jednego z 4–5 sygnałów — nie jako pojedynczego źródła prawdy.

## Powiązane artykuły z bloga

- [Jak AI zmienia zasady gry w SEO](/blog/jak-ai-zmienia-zasady-gry-w-seo/) — fundamenty GEO i AEO
- [Nowe KPI SEO: cytowalność w AI](/blog/nowe-kpi-seo-cytowalnosc-ai/) — jak mierzyć skuteczność w erze AI Overviews
- [Jak modele AI cytują treści — przewodnik AIO](/blog/jak-modele-ai-cytuja-tresci-przewodnik-aio/) — mechanizm cytowania
- [Jak pisać treści cytowalne przez AI](/blog/jak-pisac-tresci-cytowalne-przez-ai/) — praktyczne writing guidelines
- [Widoczność strony w LLM-ach](/blog/widocznosc-strony-w-llm/) — jak sprawdzić, czy AI cytuje Twoją witrynę
- [Widoczność w AI: tworzenie treści cytowanych przez LLM](/blog/widocznosc-w-ai-jak-tworzyc-tresci-cytowane-przez-llm/) — strategia content
- [Pozycjonowanie w LLM](/blog/pozycjonowanie-w-llm/) — perspektywa pozycjonera
- [Czy AI zabija ruch organiczny? Dane, nie opinie](/blog/czy-ai-zabija-ruch-dane-nie-opinie/) — twarde liczby
- [Architektura AI: OpenClaw, SEO i AEO](/blog/architektura-ai-openclaw-seo-aeo/) — techniczna strona AI search

## Źródła

### Oficjalne źródła Areny

- [arena.ai — Arena AI: The Official AI Ranking & LLM Leaderboard](https://arena.ai/)
- [news.lmarena.ai — oficjalny blog Arena/LMArena](https://news.lmarena.ai/)
- [LMArena blog — Statistical Extensions of Bradley-Terry and Elo Models](https://news.lmarena.ai/extended-arena/)
- [LMArena blog — Our response to "The Leaderboard Illusion"](https://lmarena.ai/blog/our-response/)

### Referencje encyklopedyczne i przeglądowe

- [Wikipedia — Arena (AI platform)](https://en.wikipedia.org/wiki/Arena_(AI_platform))
- [Sider.ai — LMArena.ai Explained: Understanding the Chatbot Arena Ranking System](https://sider.ai/blog/ai-tools/lmarena-ai-explained)
- [OpenLM.ai — Chatbot Arena overview](https://openlm.ai/chatbot-arena/)
- [Sebastian Raschka — Leaderboard Rankings (reasoning from scratch)](https://sebastianraschka.com/reasoning-from-scratch/chF/03_leaderboards/)

### Finansowanie i biznes

- [Contrary Research — LMArena Business Breakdown & Founding Story](https://research.contrary.com/company/lmarena)
- [CryptoRank — AI Model Leaderboard Arena: $1.7B Startup Defining AI's Ultimate Judges](https://cryptorank.io/news/feed/638ec-ai-model-leaderboard-arena-judges)
- [Founded.com — How two Berkeley roommates built a $1.7B startup](https://www.founded.com/lmarena-arena-ai-ranking-tool-startup-founders/)
- [Tracxn — Arena 2026 company profile](https://tracxn.com/d/companies/arena/__HV4KthDzBK57rcgaV6pgdxEyUmVUwI9knYBy6IojIZs)
- [Crunchbase — LMArena company profile & funding](https://www.crunchbase.com/organization/lmarena)
- [LinkedIn — Arena (Arena AI)](https://www.linkedin.com/company/arenaai)

### Prace akademickie i metodologia

- [arXiv 2403.04132 — Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference](https://arxiv.org/pdf/2403.04132)
- [arXiv 2412.18407 — A Statistical Framework for Ranking LLM-Based Chatbots](https://arxiv.org/html/2412.18407v1)
- [hippocampus-garden — Elo vs Bradley-Terry: Which is Better for Comparing LLMs?](https://hippocampus-garden.com/elo_vs_bt/)
- [Clayton's Blog — How I Sped Up the Chatbot Arena Ratings Calculations from 19 minutes to 8 seconds](https://cthorrez.github.io/blog/posts/fast_llm_ratings/)

### Krytyka, kontrowersje i analiza

- [TechCrunch — Study accuses LM Arena of helping top AI labs game its benchmark](https://techcrunch.com/2025/04/30/study-accuses-lm-arena-of-helping-top-ai-labs-game-its-benchmark/)
- [Simon Willison — Understanding the recent criticism of the Chatbot Arena](https://simonwillison.net/2025/Apr/30/criticism-of-the-chatbot-arena/)
- [OpenReview — The Leaderboard Illusion (full paper, Cohere/AI2/Princeton/Stanford et al.)](https://openreview.net/forum?id=4Ae8edNqm0)
- [Collinear — Gaming the System: Goodhart's Law Exemplified in AI Leaderboard Controversy](https://blog.collinear.ai/p/gaming-the-system-goodharts-law-exemplified-in-ai-leaderboard-controversy)
- [OpenReview — Improving Your Model Ranking on Chatbot Arena by Vote Rigging](https://openreview.net/forum?id=5cDc71jLc1)
- [Hugging Face — Arena Leaderboard space](https://huggingface.co/spaces/lmarena-ai/arena-leaderboard)
