Generative KI: Diese 5 Gründe ermöglich(t)en den rasanten Fortschritt!

Eine Kanye West KI-Version die „Just the Two of Us“[1] trällert. Universitäten, die versuchen festzustellen, ob Studenten ihre Arbeiten mithilfe von ChatGPT geschrieben haben. Forscher aus Tokyo, die faszinierende Bilder aus Gehirnscans reproduzieren, die widerspiegeln, was Menschen sehen[2] – generative KI hat die Welt im Sturm erobert. Viele Stimmen behaupten, dass wir auf diese Veränderungen nicht vorbereitet sind, während andere meinen, dass die Fähigkeiten der KI überschätzt werden. Einflussreiche Persönlichkeiten wie Elon Musk und Bjarne Stroustrup (Erfinder der Programmiersprache C++) haben einen Entwicklungsstopp für die Entwicklung von KI-Systemen gefordert, bis wir in der Lage sind, diese besser zu managen.

Die vergangenen Jahre könnten wir getrost als das goldene Zeitalter der generativen KI bezeichnen. Kontinuierlicher Fortschritt kombiniert mit revolutionären Entwicklungen hat es der KI ermöglicht, kreative Texte, Bilder, Videos und Musik zu erzeugen, die dem menschlichen Schaffen verblüffend ähneln. Woche für Woche sehen wir einen rasanten Anstieg an veröffentlichter KI-bezogener Software und Forschungsarbeiten, was es schwierig macht, den Überblick zu behalten.

Was ist also wirklich neu?  Welche grundlegenden Elemente haben der generativen KI ermöglicht, so wirkungsvoll und gleichzeitig kontrovers zu werden? In diesem Blog werfen  wir einen Blick auf die fünf wichtigsten Fortschritte, die den aktuellen Stand der generativen KI möglich gemacht haben.

Aufmerksamkeit ist alles, was du brauchst

Im Jahr 2017 veröffentlichte eine Gruppe von Forschern, hauptsächlich von Google, eine bahnbrechende Arbeit mit dem Titel „Attention is all you need“[3], dessen weitreichenden Auswirkungen sie selbst nicht voraussehen konnten. Der (Attention Mechanism) ist ein Teil des Transformer-Modells, der sich mit „Self Attention“ oder „Cross Attention“ zwischen den Schichten befasst. Einfach ausgedrückt, versucht der Aufmerksamkeitsmechanismus die Interdependenzen zwischen den Eingaben hervorzuheben. Zum Beispiel befasst er sich damit, wie die Wörter in einem Satz voneinander abhängen.

Aber du fragst dich vielleicht: Wie konnte ein auf den ersten Blick so simples Konzept einen so großen Einfluss haben? Die Antwort liegt in der Art und Weise, wie bisher mit sogenannten Sequenz-zu Sequenz-Modellen umgegangen wurde. Es sind Modelle, die eine Sequenz als Input benötigen und eine Sequenz als Output erzeugen. Ein Beispiel dafür ist die Übersetzung von „I have a cat“ zu „Ich habe eine Katze“.

In der Vergangenheit wurden solche Modelle typischerweise mit Rekurrentes neuronales Netz realisiert, die meist eine sequenzielle Ansatz verfolgten, die eine Rückführung des Outputs zu Input erforderte. Das hat die Möglichkeit zur Parallelisierung stark eingeschränkt.

Bevor dies geschah, mussten KI-Modelle Eingaben in einer Reihenfolge verarbeiten, was es schwierig machte, große Mengen an Daten auf einmal zu bewältigen. Dank des Aufmerksamkeitsmechanismus können KI-Systeme nun eine Vielzahl von Eingaben gleichzeitig verarbeiten.

 

Diffusion-Denoising-Modelle

Eine einfache Technik, die zur aktuellen Welle der Bild- und Videogenerierung beiträgt, ist die Verwendung von Diffusionsmodellen[4]. Mehrere Text-zu-Bild-Systeme wie Stable Diffusion, DALL-E und Midjourney haben die Erzeugung von Bildern aus bereitgestelltem Text populär gemacht.

Die Schlüsselidee hinter Diffusionsmodellen besteht aus einem Vorwärtsprozess, der ein sauberes Bild verschlechtert, und einem Rückwärtsprozess, der ein Bild rekonstruiert. Schauen wir uns das einmal genauer an:

Zunächst nimmt man ein qualitativ hochwertiges Bild auf- vielleicht eines, das ein Fotograf aufgenommen hat oder ein Gemälde eines Künstlers. Dann fügt man Schritt für Schritt Gaußsches Rauschen hinzu, bis nur noch reines Rauschen übrig bleibt, das keine Ähnlichkeit mehr mit dem Originalbild hat. In der Zwischenzeit kann man auch neuronale Netzwerke einschätzen lassen, welches Rauschen hinzugefügt wurde. Gaußsches Rauschen ist einfacher zu modellieren, da es nur zwei Parameter benötigt – den Mittelwert und die Standardabweichung, die weiter optimiert werden können.

In der Rückwärtsphase beginnt man mit gesamten Rauschen und der Textkonditionierung und versucht, ein sauberes Bild zu erzeugen, indem man den Prozess Schritt für Schritt umkehrt und die Rauschparameter schätzt, die bei diesem umgekehrten Prozess helfen. Dieser Ansatz ist besonders hilfreich, wenn man versucht, ein Bild aus einem Textstück zu erzeugen.

Rechenleistung und Daten

Eine Diskussion über die aktuellen Möglichkeiten der generativen KI wäre unvollständig, ohne die erhebliche Rechenleistung und die großen Mengen an Daten zu erwähnen, die dafür erforderlich sind. Tatsächlich kann man behaupten, dass die heutigen generativen KI-Produkte ohne die Nutzung von großen Mengen an Daten, Parametergruppen und Rechenressourcen nicht existieren würden.

Im Jahr 2020 löst ein Paper[5], das unter anderem von KI-Ethiker Timnit Gebur verfasst wurde, eine Kontroverse aus, die zu Gebrus umstrittenem Ausscheiden bei Google auf Druck der Geschäftsleitung führte. Das Paper konzentrierte sich auf die Umwelt- und Gesellschaftsauswirkungen des Trainings großer Sprachmodelle und unterstrich den steigenden Umfang von Trainingsdatensätzen und -parametern sowie die oft übersehenen Auswirkungen auf  Umwelt- und Energie.

Die Situation hat sich seither wohl noch verschärft. GPT-3, das große Sprachmodell, auf dem das erste ChatGPT basierte, wurde mit über 570 GB Textdaten trainiert und nutzte mehr als 175 Milliarden Parameter. Die Nutzung der aktuellen TPUs (Tensor Processing Units), von Google, um ein solches System zu trainieren, würde Kosten von über 1,65 Millionen Dollar verursachen. Anders ausgedrückt: Ein durchschnittlicher Laptop würde Jahrtausende benötigen, um ein solches System zu trainieren.

Die von GPT-3 verwendeten Daten wurden aus einer Vielzahl von Quellen zusammengestellt. Das Paper bezieht sich auf etwa 400 Milliarden Tokens von Common Crawl, einer Quelle für das Crawlen von Internettexten, zehn Milliarden Token aus Büchern und 3 Milliarden Token aus Wikipedia.

Angesichts wettbewerbsrechtlicher Bedenken hat OpenAI beschlossen, die bei GPT-4 verwendeten Daten und Parametergrößen nicht offenzulegen. Einige Quellen deuten jedoch darauf hin, dass sie über 1 Billion Parameter verwendet haben.

Was die derzeit verwendeten Computertypen angeht, so entwickelt Google 2016 die TPUs, die als spezialisierte Beschleuniger für maschinelles Lernen dienen. Nachdem sie erkannt hatten, dass die meisten neuronalen Netzwerksysteme keine doppelte Genauigkeit benötigten, entwickelten sie Hardware-Systeme, die Fließkommaoperationen durchführen.

 

Backpropagation

Backpropagation ist alles andere als ein neues Konzept. Tatsächlich existiert es schon seit den 1980er und 90er Jahren, aber erst in diesem Jahrhundert hat sie an Popularität gewonnen. Backpropagation ist zwar kein neuer Mitspieler im Bereich der generativen KI, bildet aber das Rückgrat der neuronalen Netzwerksysteme.

Für die meisten dieser Systeme ist die Optimierung der Kostenfunktion das ultimative Ziel. Die Kostenfunktion stellt den Abstand zwischen dem erwarteten Ergebnis und der vom System gelieferten Leistung dar. Das ideale Ziel besteht darin, diese Differenz zu minimieren und so nahe wie möglich an Null zu bringen.

In diesem Zusammenhang ist die Optimierung, also die Suche nach dem lokalen Minimum, ist eine Frage der Analysis. Neuronale Netzwerke sind jedoch aufgrund ihrer Struktur – Schichten über Schichten von miteinander verbundenen Neuronen – sehr komplex. Die in der finalen Ausgabe beobachteten Effekte sind das Ergebnis von Parametern in früheren Schichten der neuronalen Netzwerke.

Die Herausforderung besteht darin, die Auswirkung der Optimierung auf die vorhergehenden Schichten zu übertragen und jedem Neuron seine Rolle im Endergebnis zu übermitteln. Hier kommt die Backpropagation ins Spiel – sie leitet den Fehler durch alle versteckten Schichten eines neuronalen Netzwerksystems.

 

Reinforcement Learning

Ähnlich wie Backpropaation ist auch Reinforcement Learning kein neues Konzept. Es ist seit mehreren Jahrzehnten Gegenstand aktiver Studien und beruht auf einem Belohnungsmechanismus, um die Leistung eines Systems zu verbessern.

Reinforcement Learning spielt eine entscheidende Rolle in ChatGPT und anderen modernen KI-Systemen, die aktiv mit Nutzern interagieren. Als integraler Bestandteil des Feintuning-Prozesses kann Reinforcement Learning dazu beitragen, die Systemparameter basierend auf dem Feedback der aktiven Nutzer zu verfeinern.

 

Unser Fazit

Maschinen, die denken, erschaffen und die Feinheiten des Lebens verstehen, haben Wissenschaftler schon immer fasziniert. Wenn Maschinen aus allen jemals aufgezeichneten Musikstücken schöpfen und Musikstücke vorhersagen könnten, die unsere Sinne berühren- könnte das unsere eigene Kreativität gefährden? Oder können wir es vielmehr als eine Chance sehen, diese Werkzeuge zu nutzen, um in Zukunft unglaublich komplexe Dinge zu erschaffen, wo wir selbst nur die Grundlage bereitstellen müssen?

Auch wenn die bekanntesten Tools wie ChatGPT und Midjourney beeindruckend sind, sind sie weit davon entfernt, Menschen bei der Bewältigung komplexer Aufgaben zu ersetzen. Es ist nicht ungewöhnlich, dass ChatGPT nach einigen Textabsätzen anfängt zu halluzinieren oder selbstbewusst über Themen spricht, von denen es nichts weiß. Oftmals werden auch grundlegende Matheaufgaben nicht gelöst, die sogar Drittklässler bewältigen könnten.

Mehrere andere Herausforderungen – darunter Kontextlänge, Transferlernen und allgemeine Intelligenz – sind noch lange nicht gelöst sind und würden einen ausführlichen Blog-Eintrag zur vollständigen Diskussion erfordern. Trotz dieser Hürden ist es spannend, darüber nachzudenken, was die nächsten 5-10 Jahre bringen könnten. Tatsächlich leben wir in einer aufregenden und zugleich beunruhigenden Zeit. Wir müssen sorgfältig vorgehen.

 

Referenzen:
  1. https://www.youtube.com/watch?v=t-tx7A7bE4U&ab_channel=Ryuma
  2. https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
  3. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin: “Attention Is All You Need”, 2017; http://arxiv.org/abs/1706.03762.
  4. Jonathan Ho, Ajay Jain, Pieter Abbeel: “Denoising Diffusion Probabilistic Models”, 2020; http://arxiv.org/abs/2006.11239
  5. Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. 2021. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT ’21). Association for Computing Machinery, New York, NY, USA, 610–623. https://doi.org/10.1145/3442188.3445922

Bei uns landest du nicht in der Warteschleife.

Vereinbare einfach und schnell ein kostenloses Beratungsgespräch mit deinem persönlichen Berater oder nutze das Kontaktformular.

Deine Daten