Google hat bereits im Frühjahr 2023 auf der Google I/O 2023 diese Konkurrenz für GPT-4 angekündigt. Bis diese Konkurrenz veröffentlicht wurde, hat es jedoch noch fast das ganze Jahr gedauert. Anfang Dezember 2023 hat Google dann endlich sein neues KI-Modell veröffentlicht und der breiten Masse zugänglich gemacht. Wir erklären Ihnen, was es mit Google Gemini auf sich hat und ob dies wirklich eine Konkurrenz zu GPT-4 sein kann.
Was ist Google Gemini?
Anders als ChatGPT oder Google Bard ist Google Gemini keine KI-Anwendung, also kein Chatbot, sondern vielmehr ein KI-Modell, ähnlich wie GPT-4 vom Konkurrenten OpenAI. Gemini soll vor allem im Hintergrund diverser Anwendungen laufen und deren Grundgerüst bilden. Nach Google ist Gemini das leistungsfähigste und vielseitigste KI-Modell, was sie je gebaut haben. Dazu soll es auch das flexibelste sein und überall effizient ausgeführt werden können. Das gilt für Rechenzentren sowie für das Smartphone.
Die drei Modelle von Gemini
Mit der Veröffentlichung von Gemini 1.0 sind auch drei verschiedene Größen der KI veröffentlicht worden. Jedes dieser Modelle basiert auf derselben KI, ist jedoch unterschiedlich groß und für verschiedene Bereiche und Aufgaben ausgelegt. Die drei Modelle lauten Gemini Ultra, Gemini Pro und Gemini Nano.
Gemini Ultra ist dabei das größte und leistungsstärkste Modell, welches sich vor allem für die Lösung von hochkomplexen Aufgaben eignet. Dieses Modell ist allerdings noch nicht von Google freigegeben und somit noch keinen zugänglich.
Gemini Pro ist bereits verfügbar und entgegen seines Namens auch kostenlos. Dieses Modell eignet sich am besten zur Anwendung in einem sehr breiten Aufgabenbereich. Zudem nutzt der Chatbot Bard bereits Gemini Pro als Grundlage, jedoch nicht hier in Europa.
Das kleinste Modell, Gemini Nano, soll vor allem direkt auf dem Gerät funktionieren. Das bedeutet, dass dieses lokal auf einem Smartphone unterstützen kann. Es ist bereits jetzt auf dem Google Pixel 8 Pro integriert und steht somit dort zur Verfügung.
Was macht Gemini so einzigartig?
Im Gegensatz zu anderen KI-Modellen ist Gemini von Google direkt multimodal trainiert worden. Das bedeutet, dass beim Training nicht nur eine Art von Inhalten als Trainingsdaten genutzt worden ist, sondern eine Mischung aus Bildern, Texten, Audios, Videos und mehr genutzt worden ist. Mithilfe dieses Trainings kann Gemini nicht nur Texte verstehen, sondern auch einen Zusammenhang aus Bildern, Sprache, Videos etc. herstellen und darauf reagieren.
Ein weiteres Feature von Gemini sind die kreativen Antworten, die das KI-Modell generiert. Dabei ist es jedoch wichtig zu wissen, dass diese Antworten nicht vorhanden sind, sondern als neuartiger Content generiert werden. Das bedeutet, dass für die Antworten keine Trainingsdaten vorhanden sein müssen.
Das Google KI-Modell im Test
Google ist von seinem KI-Modell sehr überzeugt und hat dieses auch einigen Tests und Benchmarks in unterschiedlichen Bereichen unterzogen. Zum einen wurden textbasierte Benchmarks und zum anderen multimodale Benchmarks angewendet. Zu diesen Tests gehört unter anderem MMLU, was für Massive Multitask Language Understanding steht und ein Benchmark für NLP-Modelle (Natural-Language-Processing-Modelle) ist. Weitere durchgeführte Datensätze bzw. Benchmarks sind DROP (Benchmark für das Leseverständnis), MATH (Datensatz über herausfordernde Matheaufgaben), HellaSwag (Benchmark um das Verständnis zu testen) und HumanEval (Benchmark für die Korrektheit und Funktionalität von Python Code).
Bei den multimodalen Benchmarks ist vor allem auf das Verständnis von Bildern, Videos und Audios sowie auf die Erstellung von Bildern eingegangen. Zudem ist auch das Verständnis von einem Prompt, welcher aus mehreren Medien besteht, überprüft worden. Hierbei wurde auf Benchmarks, wie MMMU (Massive Multi-discipline Multimodal Understanding Benchmark), TextVQA (Benchmark für das Lesen von Text auf Bildern), DocVQA (Benchmark für das Verständnis von Dokumenten), VATEX (Benchmark für Untertitelung englischer Videos oder Benchmarks für eine automatische Spracherkennung und -übersetzung.
Textbasierte Benchmarks
Diese Benchmarks wurden von Gemini Ultra durchgeführt und mit der Leistung von GPT-4 verglichen. Bei MMLU erreicht das KI-Modell eine Leistung von 90 Prozent und hat damit sogar als erstes KI-Modell überhaupt den Wert eines menschlichen Experten überschritten. Bei MMLU werden über 15.000 Fragen aus 57 verschiedenen Bereichen gestellt, die sowohl Naturwissenschaften als auch Geisteswissenschaften und Ethik beinhalten.
Bei DROP erreicht Gemini Ultra eine Leistung von 82,4 Prozent während GPT-4 nur 80,9 Prozent erreicht. DROP besteht aus 96.000 Fragen. Auch bei dem Benchmark MATH schneidet Gemini Ultra knapp über GPT-4 ab. Hierbei erreicht das Modell von Google 53,2 Prozent, während das Modell von OpenAI 52,9 Prozent erreicht.
Im Codieren hat Google die Nase deutlich vorne. Bei dem Benchmark HumanEval erreicht das Modell von Google 74,4 Prozent, während das OpenAI Modell nur 67,0 Prozent erreicht. Jedoch muss sich Google bei dem Benchmark HellaSwag geschlagen geben. Hier versteht das Modell von OpenAI mit 95,3 Prozent mehr als das von Google mit 87,8 Prozent. Dennoch schneidet Gemini Ultra in fast allen Benchmarks im Bereich Text besser ab.
Multimodale Benchmarks
Nicht nur bei den textbasierten Benchmarks schneidet das KI-Modell von Google besser als die Konkurrenz von OpenAI ab, sondern auch bei den multimodalen. Bei MMMU erreicht Gemini Ultra 59,4 Prozent, während GPT-4 nur 56,8 Prozent erreicht. Bei Lesen von Texten in natürlichen Bildern erreicht Google eine Leistung, die vier Prozent besser ist als die von OpenAI. Auch beim Verständnis von Dokumenten ist übertrifft Gemini die Leistung von GPT-4 um 2,5 Prozent.
Gemini kann aber nicht nur Bilder und das beweist Google auch mit der Leistung bei den Benchmarks im Bereich Video und Audio. Auch hier übertrifft das KI-Modell von Google die Leistung von GPT-4 in fast allen Bereichen. Bei manchen Benchmarks unterscheiden sich die Ergebnisse zwischen Google und OpenAI nur gering, bei anderen sind jedoch deutliche Unterschiede zu erkennen.
Was kann Gemini bereits?
Laut einem Video von Google kann Gemini bereits verschiedene Medien erkennen und aus diesen schnell einen Zusammenhang erschließen. So ist es dem Modell in diesem Video möglich, dass etwas auf ein Blatt Papier gezeichnet werden kann und Gemini darauf reagiert und versucht zu erkennen, was gezeichnet wird. Zu der Zeichnung gibt das Modell weitere Informationen. In dem Beispiel des Videos wurde eine blaue Ente gezeichnet und Gemini hat immer wieder beschrieben, was auf dem Blatt zu erkennen ist.
Dazu hat die KI in dem Beispielvideo den Zusammenhang zwischen verschiedenen Gegenständen erkannt und beschrieben. Außerdem konnte sie Ideenvorschläge machen, was aus zwei verschiedenen Wollknäulen gemacht werden kann. Obendrein erkenne die KI beim Hütchenspiel, unter welchen Hütchen oder Becher sich der versteckte Gegenstand befinde.
Es ist jedoch auch bestätigt, dass Google das Demo Video bearbeitet hat. Nach Googles Aussage sein die Prompts in dem Video echt, jedoch der Einfachheit halber gekürzt worden. Daraus lässt sich erkennen, dass die Umsetzung der Prompts von Gemini nicht so schnell abläuft, wie es in dem Video aussieht. Zumindest ist die Verarbeitung wohl noch nicht so schnell.
Kann ich Google Gemini nutzen?
Bisher können 170 Länder Google Gemini nutzen. Allerdings fällt Europa und somit auch Deutschland dabei komplett raus. Bis auch wir hier in Deutschland dieses KI-Modell ausprobieren und nutzen können, wird es wahrscheinlich noch etwas dauern, wenn alles gut läuft, klappt es aber vielleicht noch 2024.
Bisher ist Google Gemini für Nutzer von einem Google Pixel 8 Pro und für Menschen außerhalb von Europa nutzbar. Bisher ist das neue KI-Modell bereits in Bard integriert und soll in Zukunft auch in die Google Suche, Google Chrome, Google Ads und in den Google Workspace integriert werden. Laut Google wird bereits mit Gemini in der Google Suche experimentiert. Außerdem soll Gemini Ultra 2024 ebenfalls den ersten Entwicklern und Partnern zur Verfügung gestellt werden.
Fazit
Aufgrund der fehlenden Freischaltung für Europa und somit auch für uns können wir bisher nur auf die Aussagen von Google und anderen Testern zurückgreifen, die sich außerhalb von Europa befinden. Nach deren Analysen und Aussagen ist Google Gemini noch nicht komplett fertig entwickelt, hat aber ein sehr großes Potential und steht der Konkurrenz von OpenAI in Sachen Leistung nicht hinterher. Besonderes Augenmerk wird dabei vor allem auf die Multimodalität von Gemini gelegt.
Ebenso interessant ist das, was Google für die Zukunft geplant hat. Wenn Google seine Vorhaben so umsetzen wird, dann haben wir bald alle Zugriff auf dieses Modell und integrieren es durch unsere Smartphones, unsere Sprachassistenten und unsere alltägliche Suche immer mehr in unseren Alltag.
Es bleibt auf jeden Fall spannend.
Ihr Agenturteam von Lenner Online Marketing