Einleitung
Große Sprachmodelle (LLMs) verändern die Art und Weise, wie wir mit Technologie interagieren, aber die Bewertung ihrer Leistung kann komplex sein.
Sie möchten entscheiden, welches LLM Sie für Ihren speziellen Anwendungsfall verwenden wollen.
Welches sollten Sie wählen?
Nun, das kommt darauf an. Brauchen Sie einen schnellen LLM? Einen intelligenten LLM? Gut für die Codierung? Gut für Konfliktlösung? Billig? Intelligent, aber open source? RAG? Völlig unzensiert…?
LLM-Benchmarks bieten eine strukturierte Möglichkeit, Modelle in all diesen Bereichen zu vergleichen.
Dies hilft den Nutzern (Ihnen!), die beste Lösung für ihre Bedürfnisse zu finden! ✅
Wir bei Dentro sind immer auf der Suche nach guten LLM-Benchmarks.
In diesem Beitrag stellen wir Ihnen eine umfassende Liste von 18 Benchmarks vor.
Wir haben sie aus dem Kommentarbereich als Antwort auf Simon Willisons X-Beitrag gesammelt, in dem er nach glaubwürdigen LLM-Ranglisten fragte (was für eine Goldgrube!).
Benchmark-Übersicht
Nachfolgend finden Sie einen detaillierten Blick auf jeden LLM-Benchmark, den wir im Kommentarbereich des X-Posts gefunden haben.
Etwa die Hälfte davon kannten wir bereits, aber wir haben noch viel mehr erfahren!
Hier ist die vollständige, unvollständige Liste der verfügbaren LLM-Benchmarks:
Aider bench: Dieser LLM-Benchmark konzentriert sich auf die Codebearbeitung und testet LLMs auf ihre Fähigkeit, Anweisungen zu folgen und Code in mehreren Programmiersprachen ohne menschliches Eingreifen zu bearbeiten. Er verwendet einen polyglotten Benchmark mit 225 Aufgaben, um Modelle wie Gemini 2.5 Pro Preview zu bewerten, das eine Erfolgsquote von 72,9 % erreichte.
EQ-Bench: Spezialisiert auf emotionale Intelligenz, bewertet eqbench, wie gut LLMs Konflikte in emotional aufgeladenen Szenarien schlichten können. Es bewertet die Modelle auf der Grundlage ihrer Einhaltung professioneller Mediationsstandards. Einzelheiten sind in seinem GitHub-Repository und einem zugehörigen Forschungspapier (GitHub, Paper) verfügbar.
Chatbot arena (ehemals LMSys): Eine Crowdsourced-Plattform, auf der LLMs in Chatbot-Interaktionen gegeneinander antreten, wobei Benutzerabstimmungen die Rangfolge auf der Grundlage von Präferenzen für Text, Bilder und mehr bestimmen. Es wird das Elo-Bewertungssystem verwendet, um Modelle wie GPT-4o und Qwen 32B zu bewerten, wobei über 2,8 Millionen Stimmen zur Rangliste beitragen.
SVGarena: Für diejenigen, die dachten, bei LLMs ginge es nur um Text, lässt svgarena Modelle bei der Erzeugung von SVG-Bildern gegeneinander antreten. Es ist ein einzigartiger Benchmark, der kreative und visuelle Fähigkeiten testet, wobei die Modelle auf der Grundlage der Benutzerpräferenzen für die generierten SVGs gegeneinander antreten.
LongBench: Wie der Name schon sagt, testet LongBench LLMs auf ihre Fähigkeit, extrem lange Kontexte (bis zu 2 Millionen Wörter) in Aufgaben wie QA, kontextbezogenes Lernen und Dialogverständnis zu verarbeiten. Dieser Benchmark findet eine einzelne Nadel im Heuhaufen und eignet sich gut zur Bewertung von Modellen für RAG-Pipelines (lesen Sie hier mehr über die 5 Schritte zur Freischaltung von Retrieval Augmented Generation für Unternehmensdaten (in Englisch)).
Fiction.liveBench: Unter Verwendung der fiction.live-Plattform fordert dieser Benchmark LLMs heraus, in langen, narrativen Kontexten zu navigieren, mehrere Nadeln in einem Heuhaufen zu finden und komplexe Beziehungen innerhalb von Geschichten zu verstehen. Dieser LLM-Benchmark eignet sich hervorragend zur Bewertung von Modellen für RAG-Pipelines.
SEAL LLM-Ranglisten: Diese expertengesteuerten Evaluierungen verwenden komplexe, private Datensätze, um LLMs an der Grenze zu bewerten und sicherzustellen, dass Modelle auf ungesehenen Daten getestet werden, um eine Überanpassung zu verhindern. Hinter diesem LLM-Benchmark steht das berüchtigte Unternehmen „Scale“ mit dem Wirtschaftswunder Alexander Wang an der Spitze.
Berkeley Function Calling Leaderboard (Gorilla-Benchmark): Dieser LLM-Benchmark bewertet LLMs nach ihrer Fähigkeit, Funktionen oder Tools korrekt aufzurufen, wobei verschiedene Versionen fortgeschrittene Funktionen wie Multi-Turn-Interaktionen einführen. Es werden reale Daten verwendet, um Metriken wie Genauigkeit, Kosten und Latenzzeit zu messen, wobei Modelle wie GPT-4o hohe Punktzahlen erreichen.
OpenRouter-Rankings: Basierend auf der realen API-Nutzung von OpenRouter zeigen diese Ranglisten, welche LLMs am meisten über die OpenRouter-Plattform genutzt werden. Es handelt sich dabei allerdings um eine Art Spätindikator, da Anwendungen in der Regel nicht sofort die neuesten/besten Large Language Models verwenden.
Vectara Hallucination-Leaderboard: Dieses LLM-Leaderboard konzentriert sich auf die faktische Konsistenz und misst, wie oft LLMs beim Zusammenfassen kurzer Dokumente halluzinieren. Es verwendet das Hughes Hallucination Evaluation Model (HHEM-2.1), um Modelle wie Google Gemini-2.0-Flash-001 zu bewerten, das eine Halluzinationsrate von 0,7% erreichte.
Kagi LLM Benchmark: Mit einem dynamischen Satz von Fragen testet dieser Benchmark LLMs auf logisches Denken, Codierung und Befolgung von Anweisungen und stellt sicher, dass Modelle auf neuartigen Aufgaben bewertet werden, um eine Überanpassung zu vermeiden. Er ist inspiriert von Projekten wie dem LLM Benchmarking von Wolfram und dem Coding Leaderboard von Aider und konzentriert sich auf Fähigkeiten, die für Suchanwendungen entscheidend sind.
ARC AGI-Rangliste: Dieses LLM-Leaderboard hat visuelle Probleme, die für Menschen leicht zu lösen sind, aber für Large Language Models schwierig zu lösen sind. Der Schwerpunkt liegt auf flüssiger Intelligenz und Effizienz, wobei Systeme nach ihrer Fähigkeit bewertet werden, Probleme mit minimalen Ressourcen und hoher Anpassungsfähigkeit zu lösen.
SimpleBench: Dieser LLM-Benchmark enthält Multiple-Choice-Fragen, die für nicht spezialisierte Menschen (aus der High School) einfach, für aktuelle LLMs jedoch schwierig sind. Er enthält über 200 Fragen zum räumlich-zeitlichen Denken, zur sozialen Intelligenz und zu „Trickfragen“.
Convex LLM Leaderboard: Dieser auf Entwickler zugeschnittene Benchmark bewertet die Fähigkeit von LLMs, Convex-Code zu schreiben, wobei der Schwerpunkt auf Korrektheit, Effizienz und Verständnis von Codestrukturen liegt. Er umfasst sieben Benchmark-Kategorien, Details sind auf GitHub verfügbar (GitHub).
Dubesor LLM-Benchmark: Ein persönlicher und dennoch umfassender Benchmark, dubesor bench vergleicht KI-Modelle in einer Vielzahl von Aufgaben unter Verwendung eines gewichteten Bewertungssystems. Er umfasst 83 Aufgaben und manuelle Tests. Die Ergebnisse werden aus Gründen der Transparenz geteilt, aber als persönlich und potenziell variabel gekennzeichnet.
Artificial Analysis: Diese Plattform bietet eine unabhängige Analyse von KI-Modellen und -Anbietern und verwendet Metriken wie Intelligenz, Geschwindigkeit und Preis, um Benutzern bei der Auswahl des besten Modells für ihre Bedürfnisse zu helfen. Sie bietet detaillierte Vergleiche zwischen Modellen von Anbietern wie OpenAI, Meta und Google.
LiveBench: LiveBench wurde entwickelt, um frei von Kontaminationen zu sein, und veröffentlicht monatlich neue Fragen aus aktuellen Quellen wie arXiv-Papieren und Nachrichtenartikeln. Es umfasst 18 verschiedene Aufgaben aus Kategorien wie Mathematik, Codierung und logisches Denken, mit objektiver, automatischer Bewertung, um Fairness zu gewährleisten.
SWE-bench: Für diejenigen, die sich für Software-Engineering interessieren, testet swebench LLMs auf ihre Fähigkeit, reale GitHub-Probleme automatisch zu lösen. Er umfasst Untergruppen wie Lite, Verified und Multimodal, wobei die Bewertung auf der Verifizierung von Einheitstests basiert.

Übersichtstabelle von LLM-Benchmarks
Das war in der Tat eine ganze Menge! Aber keine Sorge, wir haben eine Tabelle für Sie erstellt 😉
LLM-Benchmarks, kategorisiert nach Schwerpunktbereichen:
Fokusbereich | Benchmarks |
---|---|
Coding and Tools | Aider bench, Berkeley Function Calling Leaderboard, Convex leaderboard, SWE-bench |
Reasoning and Intelligence | LongBench, Kagi LLM Benchmark, ARC AGI Leaderboard, SimpleBench |
Emotional and Social | EQ-Bench |
Chat and Interaction | Chatbot Arena |
Visual and Creative | SVGarena, Chatbot Arena |
Factual Consistency | Vectara Hallucination Leaderboard |
Usage and Popularity | OpenRouter Rankings |
Narrative and Context | Fiction.liveBench |
Comprehensive Analysis | SEAL LLM Leaderboards, Artificial Analysis leaderboard, LiveBench, Dubesor Bench |
Diese Tabelle verdeutlicht die Vielfalt, wobei Kodierung und Argumentation im Vordergrund stehen, was die Prioritäten der Gemeinschaft bei der LLM-Evaluation widerspiegelt.
Fazit
Die 18 LLM-Benchmarks bieten gemeinsam einen umfassenden Rahmen für die Bewertung von LLMs über technische, kreative und soziale Dimensionen hinweg.
Ihre Methoden, von Crowdsourced Voting bis hin zu expertengesteuerten Bewertungen, gehen auf Herausforderungen wie Kontamination und Überanpassung ein, obwohl ihre Verallgemeinerbarkeit umstritten ist.
Diese Analyse, die auf den Erkenntnissen der Community aus Simon Willisons X-Beitrag beruht, unterstreicht die sich entwickelnde Landschaft des LLM-Benchmarking und bietet wertvolle Ressourcen für eine fundierte Entscheidungsfindung in der KI-Entwicklung.