Das Rennen um die beste generative Künstliche Intelligenz (KI) ist noch lange nicht vorbei. In letzter Zeit wurden immer wieder neue Technologien, neue Funktionen und eine neue Stufe der GenAI vorgestellt. Auch OpenAI hat ein neues Sprachmodel für seinen Chatbot ausgerollt – GPT-4o. Das ist keine Null hinter der Vier, sondern ein „o“ und dieses steht für „omni“. Was ist GPT-4o? Warum steht das „o“ für „omni“ und was kann das neue ChatGPT? Wir erklären es Ihnen.
Was ist ChatGPT-4o?
OpenAi hat 2022 mit seinem neuen Chatbot ChatGPT die Welt der künstlichen Intelligenz und die Entwicklung hinter der künstlichen Intelligenz komplett auf den Kopf gestellt und anschließend befeuert. Mittlerweile hat der Chatbot drei verschiedene Sprachmodelle, zwischen denen gewählt werden kann. So gibt es derzeit GPT-3.5, GPT-4 und jetzt auch GPT-4o.
GPT-4o ist noch einmal deutlich schneller als sein Vorgänger GPT-4. Dazu kann dieses Modell gesprochene Sprache fast in Echtzeit verarbeiten und darauf reagieren. Es soll ein weiterer Schritt zu einer natürlichen Interaktion zwischen Menschen und Computern sein. Das GPT versteht Kombinationen aus Text, Audio, Bild und Video und kann Kombinationen aus Audio, Bild und Text als Antwort wiedergeben. Aber wofür steht denn jetzt das „omni“? Übersetzt aus dem lateinischen steht „omni“ für alles. GPT-4o kombiniert alles, was GPT-3.5 und GPT-4 auf mehrere Modelle aufgeteilt hatten, in einem einzigen Modell. Dadurch ist es schneller, besser und verliert kaum Informationen bei der Verarbeitung.
Sprechen wie mit einem Menschen
Die Interaktion zwischen Mensch und Computer wurde von OpenAI auf ein neues Level angehoben. Mit einer deutlich geringen Latenz soll die Interaktion mit GPT-4o in Echtzeit stattfinden. So soll das Modell auf den Menschen eingehen, zwischendurch auch Scherze machen und soll Emotionen erkennen und darauf reagieren können. Die Latenz liegt bei durchschnittlich 320 Millisekunden, was in etwa der Reaktionszeit von uns Menschen in einem Gespräch entspricht.
Zwar konnten wir auch vorher schon mit ChatGPT sprechen, allerdings hat die Reaktion der Sprachmodelle zwischen 2,8 (GPT-3.5) und 5,4 Sekunden (GPT-4) gebraucht. So kann kein wirkliches menschenähnliches Gespräch zustande kommen. Dazu sind häufig viele Informationen auf dem Weg verloren gegangen, da die Vorgänger drei separate Modelle für das Sprachmodell genutzt haben.
Durch einige Videos, die OpenAI gedreht hat, wird dargestellt, wie schnell das neue Modell die Sprache versteht und interagiert. Auch eine direkte Übersetzung in Echtzeit ist jetzt möglich. Ebenso hat die KI jetzt auch die Fähigkeit sarkastisch zu sprechen oder ein Gute-Nacht-Lied singen. GPT-4o bringt auch kleine Lacher oder spricht mit anderen Betonungen und zögert auch manchmal etwas.
GPT-4o verarbeitet visuelle Informationen
Das neue Sprachmodell kann auch mittels der Kamera Informationen direkt aufnehmen und verarbeiten. So wird zum Beispiel ChatGPT zwei Früchte gezeigt und die KI soll diese auf Spanisch übersetzen. Die Kamera zeigt auf einen Apfel und eine Banane und kurz danach sagt ChatGPT, wie die beiden auf Spanisch heißen. Zudem kann die KI jetzt auch eine Matheaufgabe sehen und Tipps beim Rechenweg geben.
Es kann auch einem Blinden helfen, die Welt zu „sehen“. Dabei beschreibt ChatGPT alles, was die Kamera aufnimmt und was der Nutzer wissen möchte.
Was die Zukunft bringt
Nicht alle Fähigkeiten sind direkt mit der Einführung von GPT-4o verfügbar. Sie werden aber alle nach und nach ausgerollt und OpenAI möchte diese Version für jeden kostenlos zur Verfügung stellen. Dazu soll auch noch eine Desktop-Version für Mac und Windows kommen. Durch die Neuerungen und die Entwicklung, die OpenAI mit GPT-4o gemacht hat, ist es auch wahrscheinlich, dass wir noch weitere Änderungen in der Welt der KI in der nächsten Zeit mitbekommen werden. Die nächsten Innovationen lassen nicht lange auf sich warten. So hat Microsoft auch vor kurzem Neuerungen bei Copilot vorgestellt.
Wir können gespannt sein.
Ihr Agenturteam von Lenner Online Marketing