ChatGPT-o1 vs. ChatGPT-4o

Share post:

In der Welt der künst­li­chen Intel­li­genz zählt Geschwin­dig­keit und während ChatGPT 4 und dessen Nachfolger ChatGPT-4o gerade noch sämtliche Nutzer für sich gewinnen, schickt OpenAI seit Mitte September 2024 schon den nächsten Giganten in die Runde: ChatGPT-o1 (o1). Als Beta-User hatte ich vor kurzem die Gelegen­heit, das neueste Modell auf Herz und Nieren zu prüfen und natür­lich auch in den Ring mit GPT-4o zu schicken. Dabei sollten beide Kandi­daten sowohl ihre generelle Problem­lö­sungs­fä­hig­keit unter Beweis stellen als auch klassi­sche Aufgaben im Alltag eines Data Scien­tisten bearbeiten. In diesem Blogzwei­teiler stelle ich nun die Ergeb­nisse und meine persön­li­chen Schluss­fol­ge­rungen vor:

ChatGPT-o1 vs. ChatGPT-4o, was ist neu?

OpenAI verspricht, mit o1 die Qualität der Antworten zu verbes­sern, indem das Modell einen mensch­li­chen Denkpro­zess nachahmt  (und der darf etwas mehr Zeit kosten), statt direkt Antworten zu geben. Dieser Ansatz macht es effek­tiver bei der Bewäl­ti­gung komplexer Aufgaben, insbe­son­dere in Berei­chen wie Program­mie­rung und Mathe­matik.  Auf techni­scher Ebene hat OpenAI also um das eigent­liche Modell noch eine Ebene gepackt, die gemäß Metako­gni­tion zunächst überlegt, wie das Problem überhaupt am besten (in Subtasks) zu lösen ist, statt es gleich direkt irgendwie zu lösen.
Basie­rend auf der Lösung der Subtasks wird erneut evalu­iert, ob die Ergeb­nisse sinnvoll sind oder nochmal ran muss (ganz gemäß des “tree of thoughts” (ToT) Ansatzes, empfeh­lens­wert hierzu ist auch Andrew Ngs Gedanken zu “Agentic Design Patterns”).
Tree of thoughts by Yao et al. 2024
Yao et al. 2023
Auch als Mensch würde man z.B. eine Aufsatz nicht einfach nur herun­ter­schreiben, sondern Absatz für Absatz planen, erstellen und bewerten, ggf. nochmal umschreiben.

ChatGTP-o1 mit weniger KI-Hallu­zi­na­tionen

Mit dieser fortschritt­li­chen Denkfunk­tionen hat das o1 das Poten­zial, KI-Hallu­zi­na­tionen zu reduzieren – ein häufiges Problem in der KI, bei dem Modelle falsche oder unsin­nige Infor­ma­tionen generieren, indem sie selbst­be­wusst Fakten angeben, die nicht auf der Realität beruhen.

Es gibt jedoch einige Vorbe­halte. Aufgrund der Argumen­ta­ti­ons­funk­tio­na­lität des Modells benötigt es im Vergleich zu früheren Versionen mehr Zeit, um Antworten zu generieren. Außerdem können im Gegen­satz zu Modellen wie GPT-4o Dateien und Bilder derzeit nicht direkt als Eingabe an das o1 übergeben werden, und die Daten­ana­ly­se­funk­tionen sind begrenzter.

In unserem Experi­ment wollte ich verschie­dene Katego­rien testen, die Kontext­wissen aber auch die erwei­terte Denkfä­hig­keit zur Beant­wor­tung erfor­dern. Die Ergeb­nisse lassen sich auf jeden Fall sehen.

Aufgabe 1: Vorschlag für die Inves­ti­ti­ons­ren­dite beim Kauf eines Hauses

In meiner Frage gab ich explizit an, dass sich die Wohnung in Hamburg befindet, damit die Modelle idealer­weise lokale Markt­in­for­ma­tionen für ihre Schät­zung berück­sich­tigen können. Auch der Hinweis, dass nach 10 Jahren wieder verkauft wird, soll testen, wie sehr die Modelle Faktoren wie Infla­tion oder Preis­ent­wick­lung von Immobi­lien in ihre Rechnung einbe­ziehen. 

Chat-GPT o1 vs. Chat-GPT 4o Prompt for selling house with profit

Wir haben festge­stellt, dass ChatGPT-o1 fast 28 Sekunden brauchte, um über diese Frage nachzu­denken und dabei realis­ti­sche Annahmen über die Infla­ti­ons­rate und den Wertzu­wachs der Immobilie zu treffen. 

Der Ergeb­nis­ver­gleich zeigt, dass beide Modelle Angaben zur Infla­tion und zur Entwick­lung des Immobi­li­en­preises machen, auch wenn sie bei Letzterem zu unter­schied­li­chen Annahmen kommen. Ebenfalls versu­chen beide Modelle, ihre Heran­ge­hens­weise und den final berech­neten Preis zu begründen. 

Ergebnis ChatGPT-o1 für Aufgabe 1 
result of o1 model for task1
ChatGPT-o1 Ergebnis für Task 1 weiter

Ergebnis ChatGPT-4o für Aufgabe 1

Ergebnis ChatGPT-4o für Task 1
ChatGPT-o1 Ergebnis für Task 1 weiter

Ergebnis-Fakten­ver­gleich:

ChatGPT-o1ChatGPT-4o
2% p.a.Angenom­mende Infla­ti­ons­rate2% p.a.
4% p.a.Angenom­mene Wertstei­ge­rung4% p.a.
jaOffen­le­gung der Berech­nungs­de­tailsnein
jaBegrün­dung für Rechen­schritteja
Verkaufs­preis zwischen
370 000€ und 430 000€
Finaler Preis­vor­schlagVerkaufs­preis von 407 323€
Der Haupt­un­ter­schied zwischen ChatGPT-o1 und GPT-4o besteht darin, dass o1 es vorzog, eine empfoh­lene Spanne für den Verkaufs­preis der Wohnung anzugeben, zusammen mit einer detail­lierten Erklä­rung für die Antwort, während GPT-4o einen festen Wert inner­halb der von o1 vorge­schla­genen Spanne anbot. Auch werden die einzelnen Rechen­schritte an jewei­liger Stelle bei o1 im Detail erläu­tert, während GPT-4o zwar die Fakten nennt, das Zusam­men­rechnen aber im Hinter­grund geschieht.

Schluss­fol­ge­rung: Beide Modelle gingen von vernünf­tigen Annahmen aus, aber die Idee, eine Preis­spanne mit einer Begrün­dung zu präsen­tieren, fühlt sich mensch­li­cher an, was meiner persön­li­chen Präfe­renz entspricht.

Aufgabe 2: Wie viele Tennis­bällen passen maximal in ein Boeing 737-Flugzeug?

Die nächste Frage ist typisch für Bewer­bungs­ge­spräche und führt noch weiter in den Bereich der Argumen­ta­tion und des logischen Denkens: Die Modelle sollen grob schätzen, wie viele Tennis­bälle in ein Flugzeug vom Typ Boeing 737 passen. Wir haben ausdrück­lich weder die Maße eines Tennis­balls noch die des Flugzeugs angegeben, in der Hoffnung, dass die Modelle dies selbst heraus­finden werden.

Ergebnis ChatGPT-o1 für Aufgabe 2

Ergebnis ChatGPT-4o für Aufgabe 2

Ergebnis-Fakten­ver­gleich: Zunächst spannend zu erkennen ist, dass beide Modelle offenbar unter­schied­liche Quellen für die Kabinen­ab­mes­sung nutzen, auch wenn sich diese nur im Nachkom­ma­stel­len­be­reich unter­schieden. o1 ging sogar noch einen Schritt weiter und berück­sich­tigte zusätz­lich zum Innen­raum­vo­lumen auch noch den Laderaum (fair, dazu hatten wir keine Angaben gemacht). Im Vorgehen unter­scheiden sich beide Modelle nicht, zunächst ermit­teln sie das Flugzeug­vo­lumen und anschlie­ßend das Volumen eines Tennis­balls, diesmal mit gleichem Tennis­ballmaß. o1 gibt erst die Korrektur durch Verpa­ckungs­in­ef­fi­zient an und schließt dann auf die maximale Anzahl der Bälle während GPT-4o erst die Maximal­an­zahl berechnet und danach korri­giert. Da für uns aber nur die finale Anzahl an Bällen relevant ist, spielt die Reihen­folge der Berech­nung keine Rolle.

Schluss­fol­ge­rung: Letzt­lich sorgt das zusätz­liche Laderaum­vo­lumen bei o1, dass knapp 100K Bälle mehr erwartet werden. Da aber von uns keine Angaben zum Volumen gemacht wurden und beide Modelle vernünf­tige, plausible Annahmen und Schät­zungen vorge­nommen haben, gibt es hier keinen Gewinner, hier steht es unent­schieden. Auf die wahre Antwort werden wir wohl noch etwas warten müssen.

Die ersten zwei Fragen sind gestellt und beant­wortet, wie die zwei Giganten für die anderen vier Aufga­ben­stel­lungen abgeschnitten haben, berichten wir in unserem Teil 2.
Picture of Mark Willoughby

Mark Willoughby

Data Scien­tist

Projektanfrage

Vielen Dank für Ihr Interesse an den Leistungen von m²hycon. Wir freuen uns sehr, von Ihrem Projekt zu erfahren und legen großen Wert darauf, Sie ausführlich zu beraten.

Von Ihnen im Formular eingegebene Daten speichern und verwenden wir ausschließlich zur Bearbeitung Ihrer Anfrage. Ihre Daten werden verschlüsselt übermittelt. Wir verarbeiten Ihre personenbezogenen Daten im Einklang mit unserer Datenschutzerklärung.