Die Einführung von ChatGPT im letzten November erschütterte Google bis in seine Grundfesten. Der beliebte Chatbot stellte eine derartige Bedrohung für das Geschäft des Unternehmens dar, dass es den Alarmzustand ausrief und begann, in den Generative AI-Zug aufzuspringen. Diese Anstrengung führte nicht nur zur Veröffentlichung von Google Bard, sondern auch von Gemini.
Was ist Google Gemini?
Gemini ist eine Reihe großer Sprachmodelle (Large Language Models, LLMs), die GPT-4 mit Schulungstechniken aus AlphaGo kombinieren, wie etwa Verstärkungslernen und Baum-Suche. Dieses Modell hat das Potenzial, ChatGPT als die dominierende Generative AI-Lösung auf dem Planeten abzulösen.
Die Nachricht kommt nur wenige Monate, nachdem Google seine KI-Labore Brain und DeepMind zu einem neuen Forschungsteam namens Google DeepMind zusammengeführt hat und nur Monate nach der Einführung von Bard und seinem LLM der nächsten Generation, PaLM 2.
Mit der Einschätzung von Forschern, dass der Generative AI-Markt bis 2032 voraussichtlich 1,3 Billionen Dollar wert sein wird, ist klar, dass Google alles daran setzt, in den Bereich zu investieren, um seine Position als Führer in der KI-Entwicklung zu behaupten.
Was wir bisher über Gemini wissen
Obwohl viele erwarten, dass Google Gemini im Herbst 2023 veröffentlicht wird, ist über die Fähigkeiten des Modells wenig bekannt.
Im Mai veröffentlichte Sundar Pichai, CEO von Google und Alphabet, einen Blogbeitrag mit einem Überblick über das LLM, in dem er erklärte:
"Gemini wurde von Grund auf multimodal konzipiert, ist äußerst effizient bei der Integration von Tools und APIs und wurde entwickelt, um zukünftige Innovationen wie Gedächtnis und Planung zu ermöglichen."
Pichai betonte auch: "Obwohl es noch früh ist, sehen wir bereits beeindruckende multimodale Fähigkeiten, die in früheren Modellen nicht gesehen wurden.
"Sobald Gemini feinabgestimmt und rigoros auf Sicherheit getestet wurde, wird es in verschiedenen Größen und Fähigkeiten verfügbar sein, genau wie PaLM 2."
Seitdem wurde offiziell nicht viel über die Veröffentlichung gesagt, außer einem Interview des CEO von Google DeepMind, Demis Hassabis, mit Wired, in dem er erwähnte, dass Gemini "einige der Stärken von AlphaGo-ähnlichen Systemen mit den erstaunlichen Sprachfähigkeiten der großen Modelle kombiniert."
Android Police hat auch behauptet, dass eine anonyme Quelle, die mit dem Produkt zu tun hat, kommentiert hat, dass Gemini in der Lage sein wird, Texte und kontextbezogene Bilder zu generieren und auf Quellen wie YouTube-Video-Transkripten trainiert wird.
Wird Gemini die Krone von ChatGPT übernehmen?
Eine der größten Diskussionen rund um die Veröffentlichung von Gemini dreht sich darum, ob das mysteriöse Sprachmodell das Zeug hat, ChatGPT zu verdrängen, das in diesem Jahr über 100 Millionen monatlich aktive Nutzer erreicht hat.
Auf den ersten Blick gibt Gemini's Fähigkeit zur Text- und Bildgenerierung ihm einen ernsthaften Vorteil gegenüber GPT4 in Bezug auf die Vielfalt der Inhalte, die es produzieren kann.
Allerdings ist vielleicht der bedrohlichste Unterschied zwischen den beiden die immense Bandbreite der proprietären Schulungsdaten von Google. Google Gemini kann Daten aus verschiedenen Diensten verarbeiten, einschließlich Google Search, YouTube, Google Books und Google Scholar.
Die Verwendung dieser proprietären Daten bei der Schulung der Gemini-Modelle könnte zu einem deutlichen Vorteil bei der Raffinesse der Erkenntnisse und Schlussfolgerungen führen, die aus einem Datensatz gezogen werden können. Dies gilt insbesondere, wenn frühe Berichte, dass Gemini auf doppelt so vielen Tokens wie GPT4 trainiert wird, korrekt sind.
Zusätzlich darf die Partnerschaft zwischen den Google DeepMind- und Brain-Teams dieses Jahr nicht unterschätzt werden, da sie OpenAI mit einem Team von erstklassigen KI-Forschern, darunter Google-Mitgründer Sergey Brin und DeepMind-Senior-KI-Wissenschaftler und Maschinenlernexperte Paul Barham, auf Augenhöhe bringt.
Es handelt sich um ein erfahrenes Team, das ein tiefes Verständnis dafür hat, wie Techniken wie Verstärkungslernen und Baum-Suche angewendet werden können, um KI-Programme zu schaffen, die Feedback sammeln und ihre Problemlösungsfähigkeiten im Laufe der Zeit verbessern können. Dies nutzte das DeepMind-Team, um AlphaGo beizubringen, 2016 einen Go-Weltmeister zu besiegen.
Das Wettrüsten in der KI
Gemini's multimodale Fähigkeiten, die Verwendung von Verstärkungslernen, Text- und Bildgenerierungsfähigkeiten sowie die proprietären Daten von Google sind alle Zutaten, die Gemini benötigt, um GPT-4 zu übertreffen.
Die Schulungsdaten sind der entscheidende Unterschied, schließlich wird die Organisation, die das Rennen der LLMs gewinnt, weitgehend danach entschieden, wer seine Modelle auf dem größten und reichsten Datensatz trainiert.
Die Frage ist nun, was OpenAI tun wird, um zu reagieren?