
ChatGPT-o1 vs. ChatGPT-4o – Teil 2
- Von Mark Willoughby
Share post:
- ChatGPT-o1 vs. ChatGPT-4o, was ist neu?
- Aufgabe 1: Vorschlag für die Investitionsrendite beim Kauf eines Hauses
- Aufgabe 2: Wie viele Tennisbälle passen maximal in eine Boeing 737?
- Aufgabe 3: Übersetzung aus dem Englischen in die Sprache Yoruba
- Aufgabe 4: Schreiben eines Gedichts mit fester Wortzahl
- Aufgabe 5: Berechnung des Verhältnisses von dynamischen Druck unterschiedlicher Flüssigkeiten (Mathematische Frage)
- Aufgabe 6: Addieren zweier ganzer Zahlen ohne arithmetische Operationen (Programmierfrage)
- Unser Vergleichs-Fazit
Aufgabe 3: Übersetzung aus dem Englischen in Yoruba
Yoruba ist eine tonale Sprache, bei der die Tonhöhe oder der Ton, der bei der Aussprache eines Wortes verwendet wird, die Bedeutung völlig verändern kann. Das macht es besonders für Anfänger schwer, die Sprache zu lernen.
Außerdem können Wörter mit ähnlicher Schreibweise je nach Tonlage eine völlig andere Bedeutung haben. Yoruba ist eine der wichtigsten Sprachen, die in Westafrika, insbesondere in Nigeria, gesprochen werden, und ihre sprachliche Komplexität bietet ein reichhaltiges Terrain für die Bewertung der Fähigkeit des Modells, tonale Sprachen zu handhaben, in denen subtile Veränderungen in der Aussprache zu drastischen Bedeutungsveränderungen führen können.
So kann beispielsweise das Wort „apẹ̀rẹ̀“ je nach Tonfall unterschiedliche Bedeutungen haben, was unterstreicht, wie wichtig es ist, die tonalen Unterschiede in der Sprache zu verstehen:
- apẹ̀rẹ̀ – Korb
- apẹẹrẹ – Beispiel
In ähnlicher Weise kann das Wort „koko“ mehrere Bedeutungen haben:
- Kókò – Kokojam
- Kókó – Punkt (der wichtigste Teil einer Diskussion)
- Kòkò – Topf
- Koóko – Gras
Im Folgenden testen wir o1 und GPT-4o zu dem Wort ‚koko‘ mit einigen Wortspielen.
Ergebnis ChatGPT-o1 für Aufgabe 3

Ergebnis ChatGPT-4o für Aufgabe 3

Ergebnis-Faktenvergleich:
ChatGPT-o1 leistete eine beeindruckende Arbeit bei der korrekten Übersetzung der Aussage, insbesondere bei Schlüsselwörtern wie „basket“, das mit apẹrẹ und „cocoyams“ mit kókó übersetzt wurde.
Im Vergleich dazu übersetzte GPT-4o „basket“ mit apo, was sich auf eine Tasche bezieht, und „cocoyam“ wurde fälschlicherweise mit isu ekó übersetzt.
Mein Fazit an dieser Stelle: ChatGPT-o1 schneidet besser ab.
Aufgabe 4: Gedichtschreiben mit fester Wortzahl
Für die nächste Aufgabe lautet die Anweisung, ein Gedicht zum Thema „Work-Life-Balance“ mit exakt 100 Wörtern zu formulieren. Da wir den Algorithmen keinen Spielraum bei der Anzahl der Wörter geben, ist diese Nuss besonders hart.

Ergebnis ChatGPT-4o für Aufgabe 4

Unser Fazit: GPT-4o lag mit nur sechs Wörtern daneben und schneidet bei dieser Aufgabe besser ab als sein Nachfolger
Aufgabe 5: Unsere Mathe-Frage

Ergebnis ChatGPT-o1 für Aufgabe 5



Schlussfolgerung: Da o1 nur zum richtigen Ergebnis kam, geht diese Aufgabe an o1.
Aufgabe 6: Unsere Programmier-Aufgabe



Ergebnis-Faktenvergleich:
Gute Nachricht: der Code beider Algorithmen lief bei den jeweiligen Tests. Allerdings mit einem Aber: Die Lösung von o1 war robuster und genauer.
Auch wenn GPT-4o einige Fälle mit negativen Zahlen korrekt behandeln konnte, führte die Lösung bei bestimmten Eingaben zu einer Endlosschleife, z. B. bei der Addition von -1 + 2 Dieses Problem ist darauf zurückzuführen, dass sich die Übertragsbits bei negativen Zahlen in Python unendlich fortpflanzen
Wie die Code-Ausgabe zeigt, benötigte o1 14 ms für die drei Fälle, während GPT-4o bei negativen Beispielen in der Endlosschleife festsaß.
Schlussfolgerung: Die Qualität des o1 Ergebnisses ist besser, deshalb geht diese Aufgabe an o1.
Unser Vergleichs-Fazit
Besonders beeindruckend waren die Vorteile und daraus entstehenden Möglichkeiten von o1 bei den komplexen Übersetzung aus ggf. etwas weniger verbreiteten Sprachen wie in unserem Beispiel Yoruba, wenn ein tieferes Verständnis des Kontextes von Bedeutung ist. Auch bei den Programmier- und Matheaufgaben demonstrierte o1 die eigenen Fähigkeiten.
Den Vorteilen von o1 steht natürlich die längere Laufzeit gegenüber, die man (aktuell) noch in Kauf nehmen muss. Vielleicht ist die goldene Mitte ein Zusammenspiel beider Modelle, mit ersten Prompts mit GPT-4o und gefolgt von näher spezifizierten für o1. Ich bin gespannt wohin die Reise für o1 noch geht.

Mark Willoughby
Data Scientist