
ChatGPT-o1 vs. ChatGPT-4o
- Von Mark Willoughby
Share post:
- ChatGPT-o1 vs. ChatGPT-4o, was ist neu?
- Aufgabe 1: Vorschlag für die Investitionsrendite beim Kauf eines Hauses
- Aufgabe 2: Wie viele Tennisbälle passen maximal in eine Boeing 737?
- Aufgabe 3: Übersetzung aus dem Englischen in die Sprache Yoruba
- Aufgabe 4: Schreiben eines Gedichts mit fester Wortzahl
- Aufgabe 5: Berechnung des Verhältnisses von dynamischen Druck unterschiedlicher Flüssigkeiten (Mathematische Frage)
- Aufgabe 6: Programmierung: addiere zwei ganze Zahlen ohne arithmetische Operationen (Programmierfrage)
ChatGPT-o1 vs. ChatGPT-4o, was ist neu?
ChatGTP-o1 mit weniger KI-Halluzinationen
Mit dieser fortschrittlichen Denkfunktionen hat das o1 das Potenzial, KI-Halluzinationen zu reduzieren – ein häufiges Problem in der KI, bei dem Modelle falsche oder unsinnige Informationen generieren, indem sie selbstbewusst Fakten angeben, die nicht auf der Realität beruhen.
Es gibt jedoch einige Vorbehalte. Aufgrund der Argumentationsfunktionalität des Modells benötigt es im Vergleich zu früheren Versionen mehr Zeit, um Antworten zu generieren. Außerdem können im Gegensatz zu Modellen wie GPT-4o Dateien und Bilder derzeit nicht direkt als Eingabe an das o1 übergeben werden, und die Datenanalysefunktionen sind begrenzter.
In unserem Experiment wollte ich verschiedene Kategorien testen, die Kontextwissen aber auch die erweiterte Denkfähigkeit zur Beantwortung erfordern. Die Ergebnisse lassen sich auf jeden Fall sehen.
Aufgabe 1: Vorschlag für die Investitionsrendite beim Kauf eines Hauses
In meiner Frage gab ich explizit an, dass sich die Wohnung in Hamburg befindet, damit die Modelle idealerweise lokale Marktinformationen für ihre Schätzung berücksichtigen können. Auch der Hinweis, dass nach 10 Jahren wieder verkauft wird, soll testen, wie sehr die Modelle Faktoren wie Inflation oder Preisentwicklung von Immobilien in ihre Rechnung einbeziehen.

Wir haben festgestellt, dass ChatGPT-o1 fast 28 Sekunden brauchte, um über diese Frage nachzudenken und dabei realistische Annahmen über die Inflationsrate und den Wertzuwachs der Immobilie zu treffen.
Der Ergebnisvergleich zeigt, dass beide Modelle Angaben zur Inflation und zur Entwicklung des Immobilienpreises machen, auch wenn sie bei Letzterem zu unterschiedlichen Annahmen kommen. Ebenfalls versuchen beide Modelle, ihre Herangehensweise und den final berechneten Preis zu begründen.


Ergebnis ChatGPT-4o für Aufgabe 1


Ergebnis-Faktenvergleich:
ChatGPT-o1 | ChatGPT-4o | |
---|---|---|
2% p.a. | Angenommende Inflationsrate | 2% p.a. |
4% p.a. | Angenommene Wertsteigerung | 4% p.a. |
ja | Offenlegung der Berechnungsdetails | nein |
ja | Begründung für Rechenschritte | ja |
Verkaufspreis zwischen 370 000€ und 430 000€ | Finaler Preisvorschlag | Verkaufspreis von 407 323€ |
Schlussfolgerung: Beide Modelle gingen von vernünftigen Annahmen aus, aber die Idee, eine Preisspanne mit einer Begründung zu präsentieren, fühlt sich menschlicher an, was meiner persönlichen Präferenz entspricht.
Aufgabe 2: Wie viele Tennisbällen passen maximal in ein Boeing 737-Flugzeug?
Ergebnis ChatGPT-o1 für Aufgabe 2

Ergebnis ChatGPT-4o für Aufgabe 2

Schlussfolgerung: Letztlich sorgt das zusätzliche Laderaumvolumen bei o1, dass knapp 100K Bälle mehr erwartet werden. Da aber von uns keine Angaben zum Volumen gemacht wurden und beide Modelle vernünftige, plausible Annahmen und Schätzungen vorgenommen haben, gibt es hier keinen Gewinner, hier steht es unentschieden. Auf die wahre Antwort werden wir wohl noch etwas warten müssen.
Die ersten zwei Fragen sind gestellt und beantwortet, wie die zwei Giganten für die anderen vier Aufgabenstellungen abgeschnitten haben, berichten wir in unserem Teil 2.

Mark Willoughby
Data Scientist