Chatbot Arena最新LLMランキング

最新!みんなで選ぶ人気LLMランキング:Chatbot Arenaリーダーボード解説

AIの世界では、色々な賢いおしゃべりコンピューター(大規模言語モデル、LLM)が登場しています。どれが一番賢いの?と気になりますよね。それをみんなで決めよう!というのが「Chatbot Arena」です。

Chatbot Arenaの面白いところは、実際にユーザーがモデルを使ってみて、どっちの応答が良いかを「ブラインドテスト」で評価するところです。モデルの名前は隠されているので、見た目に惑わされず、純粋に性能だけで判断できます。このユーザー投票の結果を集計して、「Arena Score」という点数がつけられます。これは、将棋やチェスの強さを表す「Eloレーティング」と同じ仕組みで、スコアが高いほど「ユーザーが使ってみて賢いと感じたモデル」ということになります。

2025年5月11日に更新された最新ランキングを見ると、GoogleのGeminiやOpenAIのGPT-4oといった有名なモデルがトップにいます。これらのモデルは、難しい質問にもしっかり答えられる、まさにAIのトップランナーです。

更に、今回のランキングで特に目を引くのが、みんなが自由に使える「オープンソース(OSS)」のモデルの頑張りです!DeepSeekが作ったDeepSeek-V3-0324はなんと8位にランクイン!DeepSeekのモデルは誰でも使いやすいMITライセンスで提供されています。GoogleのGemmaシリーズも、色々なサイズのモデルが上位に入っています。Facebookを作ったMetaのLlamaシリーズも、どんどん新しいモデルが登場して、OSSモデル全体のレベルを押し上げています。他にも、AI21 LabsのJambaやZhipu AIのGLMの一部、StepFunのStep、01 AIのYiといったOSSモデルが、それぞれ得意な分野で良いスコアを出しています。

そして、中国のAIモデルも力をつけているのが分かります。AlibabaのQwenやTencentのHunyuanは、多くのモデルがランキングに入っています。Zhipu AIのChatGLMやDeepSeek、01 AIのYi、StepFunのStepなども上位に顔を出しており、中国の技術力の高さが分かります。

今回のランキングから分かるのは、一部の巨大企業だけでなく、色々な場所で開発されたAIモデルがどんどん賢くなってきているということです。特に、無料で使えるOSSモデルの進化は、AIをみんなが使えるようにするためにとても重要です。これからどんなAIが出てきて、ランキングがどう変わるのか、目が離せませんね!

スコアの詳細(5/11更新)はこちらのPDFもご参照ください。太字はOSS、茶色色付き文字は中国発のLLMです。最新のスコアは公式サイトのLeaderBoardも併せて確認してください。