„The King is Dead“ – Cloud 3 schlägt GPT-4 zum ersten Mal in der Chatbot Arena

Am Dienstag übertraf das Claude 3 Opus Large Language Model (LLM) von Anthropic auf Chatbot Arena, einer beliebten Crowdsourcing-Website, zum ersten Mal das GPT-4-Modell von OpenAI (das ChatGPT antreibt). Bestenlisten Es wird von KI-Forschern verwendet, um die relativen Fähigkeiten von KI-Sprachmodellen zu messen. „Der König ist tot,“ zwitschern Softwareentwickler Nick Dobos in einem Beitrag, der GPT-4 Turbo und Claude 3 Opus vergleicht und der in den sozialen Medien verbreitet wurde. „GPT-4 rippen.“

Seit GPT-4 in Chatbot Arena enthalten ist Ungefähr am 10. Mai 2023 (Die Bestenliste wurde gestartet 3. Mai In diesem Jahr standen Versionen von GPT-4 bisher durchweg an der Spitze der Tabelle, daher ist seine Niederlage in der Arena ein bemerkenswerter Moment in der relativ kurzen Geschichte der KI-Sprachmodelle. Eines der kleineren Modelle von Anthropic, Haiku, sorgte mit seiner Leistung auf der Bestenliste ebenfalls für Aufsehen.

„Zum ersten Mal stammen die besten verfügbaren Modelle – Opus für fortgeschrittene Aufgaben, Haiku für Kosten und Effizienz – von einem anderen Anbieter als OpenAI“, sagte der unabhängige KI-Forscher Simon Willison gegenüber Ars Technica. „Das ist beruhigend – wir alle profitieren von der Vielfalt der großen Anbieter in diesem Bereich. Aber GPT-4 ist zu diesem Zeitpunkt über ein Jahr alt, und es hat dieses Jahr gedauert, bis alle anderen aufgeholt haben.“

Hineinzoomen / Screenshot der Bestenliste der LMSYS Chatbot Arena, die Claude 3 Opus an der Spitze gegen GPT-4 Turbo zeigt, aktualisiert am 26. März 2024.

Bing Edwards

Chatbot Arena wird verwaltet Große Modellsystemorganisation (LMSYS ORG), eine Forschungsorganisation, die sich offenen Modellen widmet und als Zusammenarbeit zwischen Studierenden und Lehrkräften der University of California, Berkeley, der University of California, San Diego und der Carnegie Mellon University fungiert.

Siehe auch Reddit, das einen Börsengang anstrebt, erhebt Gebühren in Millionenhöhe für den API-Zugriff Dritter

Wir haben bereits im Dezember beschrieben, wie die Website funktioniert, aber kurz gesagt: Chatbot Arena präsentiert einem Benutzer, der die Website besucht, ein Chat-Eingabefeld und zwei Fenster, in denen die Ergebnisse von zwei unbenannten MBAs angezeigt werden. Die Aufgabe des Benutzers besteht darin, anhand der Kriterien, die er für am geeignetsten hält, zu bewerten, welche Ausgabe am besten ist. Durch Tausende dieser personalisierten Vergleiche berechnet Chatbot Arena insgesamt die „besten“ Modelle, füllt die Bestenliste und aktualisiert sie im Laufe der Zeit.

Chatbot Arena ist wichtig, da Forscher und Benutzer gleichermaßen oft frustriert sind, wenn sie versuchen, die Leistung von KI-gestützten Chatbots zu messen, deren stark variierende Ergebnisse schwer zu messen sind. Tatsächlich haben wir in unserem Nachrichtenartikel über die Einführung von Cloud 3 darüber geschrieben, wie schwierig es ist, einen Master-Abschluss objektiv zu messen. In dieser Geschichte betonte Willison die wichtige Rolle von „Gefühlen“ oder subjektiven Gefühlen bei der Bestimmung der Qualität von arbeiten. Master. „Es ist ein weiterer Fall, dass Emotionen ein Schlüsselkonzept in der modernen KI sind“, sagte er.

Ein Screenshot der Chatbot Arena vom 27. März 2024, der die Ausgabe von zwei LLM-Spams zeigt, die herausgeworfen wurden, "Bekommt die Farbe einen Namen? — Hineinzoomen / Ein Screenshot der Chatbot Arena vom 27. März 2024, der die Ausgabe von zwei LLM-Spams zeigt, in denen gefragt wurde: „Würde die Farbe ‚Lila‘ heißen, wenn es keine lila Stadt gäbe?“

Bing Edwards

Im KI-Bereich herrscht häufig eine „gute Stimmung“, wo numerische Benchmarks, die Wissen oder Testfähigkeit messen, von Anbietern häufig übernommen werden, um ihre Ergebnisse relevanter erscheinen zu lassen. „Ich hatte gerade eine lange Programmiersitzung mit Claude 3 Opus und der Mensch hat gpt-4 völlig zerstört. Ich glaube nicht, dass die Benchmarks diesem Modell gerecht werden.“ zwitschern Anton Bakaj, Entwickler von Software für künstliche Intelligenz, am 19. März.

Siehe auch Sephiroth und Kazuya Amiibo sind jetzt verfügbar

Claudes Aufstieg könnte OpenAI zum Erliegen bringen, aber wie Willison erwähnte, ist die GPT-4-Familie selbst (obwohl sie mehrmals aktualisiert wurde) mehr als ein Jahr alt. Derzeit listet Arena vier verschiedene Versionen von GPT-4 auf, bei denen es sich um inkrementelle Aktualisierungen von LLM handelt, die im Laufe der Zeit hängen bleiben, weil jede über einen einzigartigen Ausgabestil verfügt und einige Entwickler, die sie mit der API von OpenAI verwenden, Konsistenz benötigen, damit ihre Anwendungen darauf aufbauen können GPT-Ausgabe. -4.

Dazu gehört GPT-4-0314 (die „native“ Version von GPT-4 von März 2023), GPT-4-0613 (Momentaufnahme von GPT-4 vom 13. Juni 2023, mit „verbesserter Funktionsaufrufunterstützung“, entsprechend OpenAI), GPT-4-1106-preview (Startversion von GPT-4 Turbo ab November 2023) und GPT-4-0125-preview (neuestes Modell von GPT-4 Turbo, soll ab Januar 2024 „faule“ Instanzen reduzieren ).

Doch selbst mit vier GPT-4-Modellen auf der Bestenliste sind die Claude 3-Modelle von Anthropic seit ihrer Veröffentlichung Anfang dieses Monats kontinuierlich in den Charts aufgestiegen. Der Erfolg von Claude 3 unter AI Assistant-Benutzern hat einige LLM-Benutzer dazu veranlasst, ChatGPT in ihrem täglichen Arbeitsablauf zu ersetzen, was möglicherweise den Marktanteil von ChatGPT schmälert. Auf X, Softwareentwickler Pietro Schirano Bücher„Ehrlich gesagt ist das Brutalste an Cloud 3 > GPT-4, wie einfach der Wechsel ist??“

Googles ähnlich leistungsfähiger Gemini Advanced hat auch im Bereich der KI-Assistenten an Bedeutung gewonnen. Dies mag OpenAI vorerst in Bedrängnis bringen, aber langfristig baut das Unternehmen neue Modelle auf. Ein wichtiger neuer Nachfolger von GPT-4 Turbo (ob GPT-4.5 oder GPT-5 genannt) wird voraussichtlich irgendwann in diesem Jahr, möglicherweise im Sommer, veröffentlicht. Es ist klar, dass der LLM-Bereich derzeit voller Konkurrenz sein wird, was in den kommenden Monaten und Jahren zu weiteren interessanten Änderungen in der Rangliste der Chatbot Arena führen könnte.

Siehe auch Das Display des Pixel 8a soll auf 120 Hz aufgerüstet werden

Ayhan

„Professioneller Internet-Junkie. Bacon-Fanatiker. Freundlicher Gamer. Bierfreak. Analyst. Twitter-Fan.“

Apple-ID-Konten melden Benutzer ab und erfordern das Zurücksetzen des Passworts

Manor Lords ist nur wenige Stunden nach seiner Early-Access-Veröffentlichung auf Steam erhältlich

So überlebte dieses iPhone einen Sturz aus 16.000 Fuß Höhe aus einem Flugzeug der Alaska Airlines

Marsmethan verblüfft Wissenschaftler: Die überraschende Entdeckung des Curiosity Rovers

Labriola am zweiten Tag des NFL Draft 2024

Apple-ID-Konten melden Benutzer ab und erfordern das Zurücksetzen des Passworts

Die Houthis im Jemen zerstören einen Öltanker und schießen eine amerikanische Drohne ab Nachrichten über den israelischen Krieg gegen Gaza

Schreibe einen Kommentar Antworten abbrechen

More Stories

Apple-ID-Konten melden Benutzer ab und erfordern das Zurücksetzen des Passworts

Manor Lords ist nur wenige Stunden nach seiner Early-Access-Veröffentlichung auf Steam erhältlich

So überlebte dieses iPhone einen Sturz aus 16.000 Fuß Höhe aus einem Flugzeug der Alaska Airlines

You may have missed

Marsmethan verblüfft Wissenschaftler: Die überraschende Entdeckung des Curiosity Rovers

Labriola am zweiten Tag des NFL Draft 2024

Apple-ID-Konten melden Benutzer ab und erfordern das Zurücksetzen des Passworts

Die Houthis im Jemen zerstören einen Öltanker und schießen eine amerikanische Drohne ab Nachrichten über den israelischen Krieg gegen Gaza