ChatGPT-o1 vs. ChatGPT-4o – Teil 2

Share post:

Im ersten Blogar­tikel des Zweitei­lers ChatGPT-o1 vs. ChatGPT-4o haben wir über die fortschritt­liche Techno­logie bei o1 berichtet und uns die Unter­schiede beim Schätzen eines Verkaufs­preises und der Anzahl der Tennis­bälle, die in eine Boeing passen angeschaut. Jetzt geht es ans Einge­machte, wir testen ChatGPT-o1 und seinen Vorgänger mit weiteren vier Aufgaben aus den unter­schied­lichsten Themen­be­rei­chen:

Aufgabe 3: Überset­zung aus dem Engli­schen in Yoruba

Wir haben festge­stellt, dass o1 bei mehreren Sprach­bench­marks eine bessere Leistung erzielt hat. In diesem Fall werden wir die Modelle an der Sprache Yoruba testen, die aufgrund ihres tonalen Charak­ters eine beson­dere Heraus­for­de­rung darstellt.

Yoruba ist eine tonale Sprache, bei der die Tonhöhe oder der Ton, der bei der Aussprache eines Wortes verwendet wird, die Bedeu­tung völlig verän­dern kann. Das macht es beson­ders für Anfänger schwer, die Sprache zu lernen.

Außerdem können Wörter mit ähnli­cher Schreib­weise je nach Tonlage eine völlig andere Bedeu­tung haben. Yoruba ist eine der wichtigsten Sprachen, die in Westafrika, insbe­son­dere in Nigeria, gespro­chen werden, und ihre sprach­liche Komple­xität bietet ein reich­hal­tiges Terrain für die Bewer­tung der Fähig­keit des Modells, tonale Sprachen zu handhaben, in denen subtile Verän­de­rungen in der Aussprache zu drasti­schen Bedeu­tungs­ver­än­de­rungen führen können.
Als Yoruba-Mutter­sprachler hat es sich natür­lich angeboten, die Modelle bezüg­lich ihrer Überset­zungs­fä­hig­keiten zu testen.

So kann beispiels­weise das Wort „apẹ̀rẹ̀“ je nach Tonfall unter­schied­liche Bedeu­tungen haben, was unter­streicht, wie wichtig es ist, die tonalen Unter­schiede in der Sprache zu verstehen:
  • apẹ̀rẹ̀ – Korb
  • apẹẹrẹ – Beispiel


In ähnli­cher Weise kann das Wort „koko“ mehrere Bedeu­tungen haben:
  • Kókò – Kokojam
  • Kókó – Punkt (der wichtigste Teil einer Diskus­sion)
  • Kòkò – Topf
  • Koóko – Gras


Im Folgenden testen wir o1 und GPT-4o zu dem Wort ‚koko‘ mit einigen Wortspielen.

Ergebnis ChatGPT-o1 für Aufgabe 3

Ergebnis ChatGPT-4o für Aufgabe 3

Ergebnis-Fakten­ver­gleich:

ChatGPT-o1 leistete eine beein­dru­ckende Arbeit bei der korrekten Überset­zung der Aussage, insbe­son­dere bei Schlüs­sel­wör­tern wie „basket“, das mit apẹrẹ und „cocoyams“ mit kókó übersetzt wurde.

Im Vergleich dazu übersetzte GPT-4o „basket“ mit apo, was sich auf eine Tasche bezieht, und „cocoyam“ wurde fälsch­li­cher­weise mit isu ekó übersetzt.

Mein Fazit an dieser Stelle: ChatGPT-o1 schneidet besser ab.

Aufgabe 4: Gedicht­schreiben mit fester Wortzahl

Für die nächste Aufgabe lautet die Anwei­sung, ein Gedicht zum Thema „Work-Life-Balance“ mit exakt 100 Wörtern zu formu­lieren. Da wir den Algorithmen keinen Spiel­raum bei der Anzahl der Wörter geben, ist diese Nuss beson­ders hart.

Ergebnis ChatGPT-o1 für Aufgabe 4 

Ergebnis ChatGPT-4o für Aufgabe 4

Mit Hilfe eines Wortzäh­lers zur Analyse der Ergeb­nisse stellen wir fest, dass beide an den 100 Wörtern geschei­tert sind. Das Gedicht von ChatGPT-o1 ein hat 118 Wörtern, also definitiv zu lang, inter­es­san­ter­weise erstellte GPT-4o ein Gedicht mit 94 Wörtern, sprich zu kurz.

Unser Fazit: GPT-4o lag mit nur sechs Wörtern daneben und schneidet bei dieser Aufgabe besser ab als sein Nachfolger

Aufgabe 5: Unsere Mathe-Frage

Unsere erste Bonus­frage zielt auf die mathe­ma­ti­schen Fähig­keiten beider Algorithmen ab. Damit es nicht zu einfach wird, haben wir eine Aufgabe aus dem vermeint­lich 15 schwie­rigsten (digitalen) SAT-Fragen gewählt (für Inter­es­senten gibt es diesen Lösungsweg).

Ergebnis ChatGPT-o1 für Aufgabe 5

Ergebnis ChatGPT-4o für Aufgabe 5
Ergebnis-Fakten­ver­gleich: In diesem Beispiel können wir die zentrale Stärke von o1 bestä­tigen: Die richtige Antwort war 2,25 oder 9/4, wie von o1 richtig geschätzt, während GPT-4o eine Antwort von 1,125 oder 9/8 gab. Obwohl GPT-4o die Berech­nung und die Gleichung auf einem guten Weg begann, kam das Modell durch­ein­ander, als es versuchte, q2 zu schätzen, wenn der dynami­sche Druck bei einer Geschwin­dig­keit von 1,5υ war.

Schluss­fol­ge­rung: Da o1 nur zum richtigen Ergebnis kam, geht diese Aufgabe an o1.

Aufgabe 6: Unsere Program­mier-Aufgabe

Unsere zweite Bonus­frage soll aufde­cken, wie gut die Algorithmen den (vermeint­li­chen) Alltag eines z.B. Data Scien­tists (oder wer auch immer in Python program­miert) unter­stützen. Die Aufga­ben­stel­lung lautet wie folgt: „Schreibe ein Programm in Pyhton, mit dem zwei Integer addiert werden, ohne arith­me­ti­sche Opera­tion“ (wenn das mal keine klassi­sche Data Science Heraus­for­de­rung aus dem Alltag ist 😀 ).
Ergebnis ChatGPT-o1 für Aufgabe 6
Ergebnis ChatGPT-4o für Aufgabe 6

Ergebnis-Fakten­ver­gleich:

Gute Nachricht: der Code beider Algorithmen lief bei den jewei­ligen Tests. Aller­dings mit einem Aber: Die Lösung von o1 war robuster und genauer.
Auch wenn GPT-4o einige Fälle mit negativen Zahlen korrekt behan­deln konnte, führte die Lösung bei bestimmten Eingaben zu einer Endlos­schleife, z. B. bei der Addition von -1 + 2 Dieses Problem ist darauf zurück­zu­führen, dass sich die Übertrags­bits bei negativen Zahlen in Python unend­lich fortpflanzen
Wie die Code-Ausgabe zeigt, benötigte o1 14 ms für die drei Fälle, während GPT-4o bei negativen Beispielen in der Endlos­schleife festsaß.

Schluss­fol­ge­rung: Die Qualität des o1 Ergeb­nisses ist besser, deshalb geht diese Aufgabe an o1.

Unser Vergleichs-Fazit

Von sechs Aufgaben hat ChatGPT-o1 vier meiner Einschät­zung besser oder zumin­dest mensch­lich nachvoll­zieh­barer gelöst. Der Vorgänger ChatGPT-4o konnte einzig und alleine in der Gedicht­auf­gabe mit fester Wortan­zahl besser abschneiden. Bei der Schät­zung der Anzahl der Tennis­bälle war der Stand unent­schieden.

Beson­ders beein­dru­ckend waren die Vorteile und daraus entste­henden Möglich­keiten von o1 bei den komplexen Überset­zung aus ggf. etwas weniger verbrei­teten Sprachen wie in unserem Beispiel Yoruba, wenn ein tieferes Verständnis des Kontextes von Bedeu­tung ist. Auch bei den Program­mier- und Mathe­auf­gaben demons­trierte o1 die eigenen Fähig­keiten.

Den Vorteilen von o1 steht natür­lich die längere Laufzeit gegen­über, die man (aktuell) noch in Kauf nehmen muss. Vielleicht ist die goldene Mitte ein Zusam­men­spiel beider Modelle, mit ersten Prompts mit GPT-4o und gefolgt von näher spezi­fi­zierten für o1. Ich bin gespannt wohin die Reise für o1 noch geht.
Picture of Mark Willoughby

Mark Willoughby

Data Scien­tist

Projektanfrage

Vielen Dank für Ihr Interesse an den Leistungen von m²hycon. Wir freuen uns sehr, von Ihrem Projekt zu erfahren und legen großen Wert darauf, Sie ausführlich zu beraten.

Von Ihnen im Formular eingegebene Daten speichern und verwenden wir ausschließlich zur Bearbeitung Ihrer Anfrage. Ihre Daten werden verschlüsselt übermittelt. Wir verarbeiten Ihre personenbezogenen Daten im Einklang mit unserer Datenschutzerklärung.