Wie macht es das? Grundlagen gängiger Natural Language Processing Models – das Konzept ChatGPT.
Die ganze Welt spielt verrückt, seitdem OpenAI ChatGPT frei zugänglich gemacht hat. Studenten freuen sich darüber, nie mehr Hausarbeiten schreiben zu müssen, motivierende selfmade Entrepreneurs feiern die neuesten Geschäftsfelder, die Gesellschaft macht sich über die Bedeutung hoch entwickelter künstlicher Intelligenzen Gedanken, der Marktwert von OpenAI geht durch die Decke. Aber wie funktioniert ChatGPT eigentlich? Diese kurze Übersicht setzt die wichtigsten Lichtpunkte in einer hochkomplexen Technologie und stellt die wichtigsten Herausforderungen dar.
1. Die Grundlagen des maschinellen Lernens und Denkens
Neben ChatGPT gibt es verschiedene Modelle zur Nachahmung menschlicher Sprachmuster, die auf ähnlichem Niveau agieren. Unter anderem T5 oder BERT. Im Gegensatz zu herkömmlichen Natural Language Processing Modellen sind diese so verblüffend gut, da sie sich auf eine neue theoretische Herangehensweise in der Code-Architektur stützen. Die Transformer-Architektur ist ein Ansatz zur Verarbeitung von ganzen Sequenzen und stellt eine Spezialisierung des Deep Learnings dar. Die große Neuerung liegt in der Self-Attention, also der Selbstaufmerksamkeit. Dieser Ansatz ermöglicht es dem Modell, innerhalb des neuronalen Netzwerkes direkt auf die gesamten Eingabesequenzen zu achten und sich nicht nur auf einzelne Teile zu fokussieren. So können große Datensets, z. B. Texte, ganzheitlich betrachtet werden und müssen nicht zur Verarbeitung in unabhängige Teile getrennt werden. Das lässt eine spezifischere Analyse, die ebenso leicht Zusammenhänge erkennen kann, zu.
Die Basis dieser hoch entwickelten Programme ist maschinelles Lernen. Im Machine Learning werden Algorithmen entworfen, die es Computern möglich macht, aus Daten zu lernen und Entscheidungen zu treffen, für die sie nicht explizit programmiert wurden. Hierzu werden Programme mit Trainingsdaten gefüttert, um Zusammenhänge und Muster zu erkennen und diese anzuwenden. Dadurch können Vorhersagen oder Entscheidungen über noch unbekannte Objekte getroffen werden. Konnte früher eine Software eine Tätigkeit besonders gut ausführen, weil es z. B. alle Regeln eines Spiels kannte, so kann mittels Machine Learning ein Programm eine Tätigkeit besonders gut erlernen, ohne diese Regeln explizit zu kennen.
Ein herkömmliches primitives Programm würde zwischen einer Katze und einem Hund z. B. anhand der aufgestellten Regel, „Katze = Spitze Ohren“, unterscheiden. Jedoch kann das Programm dadurch nicht zwischen einem Welsh Corgi (Hund mit spitzen abstehenden Ohren und langem Fell) und einer Katze unterscheiden. Und auch nach tausenden Benutzungen würde es immer noch denselben Fehler machen. Hier handelt es sich um eine einfache Ja/Nein-Entscheidung.
Ein maschinell lernendes Programm hingegen bekommt keine Regeln vorgegeben, sondern wird mit Trainingsdaten gefüttert. Beispielhaft das Bild einer Katze und dazu die richtige Lösung: „Das ist eine Katze.“ Dies passiert viele Male, mit Katzen- und Hundefotos. Dadurch kann das Programm verschiedene Muster erkennen und würde so unterschiedliche Regeln festlegen. Eine Katze hat somit nicht mehr nur spitze Ohren, sondern ist auch deutlich kleiner als ein Hund und hat kürzeres Fell. Dies führt dazu, dass der Algorithmus nach dem Training Entscheidungen treffen kann, die es nicht ursprünglich erlernt hat und dies noch dazu differenzierter als das eingangs erläuterte primitive Modell.
Es werden also statistische Repräsentationen verschiedener Muster erhoben. „80 % aller Katzen sind kleiner als Hunde, haben kurzes Fell und spitze Ohren.“ Aufgrund dessen wird die Annahme getroffen, dass ein Objekt mit diesen Merkmalen eine Katze ist. Jedoch können auch hier Muster fehlschlagen, z. B. kann ein katzengroßer Hund mit spitzen Ohren und kurzem Fell als Katze erkannt werden (Chihuahua), obwohl dieser offensichtlich keine ist. Und zwar immer dann, wenn dem Modell ein ungewöhnliches Beispiel präsentiert wird, welches innerhalb der Daten unterrepräsentiert ist.
Eine Weiterentwicklung des maschinellen Lernens ist das Deep Learning. Dieses basiert auf dem Ansatz der neuronalen Netze, welches sich ganz ähnlich zu verschiedenen Prozessen in unserem Gehirn verhält. Aber dazu später mehr. Im Gegensatz zum Machine Learning durchläuft hier jede Information unterschiedliche Ebenen der Informationsverarbeitung über einzelne Neuronen hinweg. Jedes dieser Neuronen ist wiederum mit anderen Neuronen über Gewichte verknüpft. So sucht sich die Information durch das hierarchische Netz ihren Weg, sodass es nach vielen Schichten der Verarbeitung, von sehr spezifischen, zu immer abstrakteren Merkmalen, hin zu einer abschließenden Entscheidung kommt.
Im Training des Modells würde das bedeuten, dass diese Neuronen zunächst mit zufälligen Werten gewichtet sind. Werden sodann Informationen durch das System geleitet, wird das gefundene Ergebnis des Netzwerkes mit dem erwarteten Ergebnis verglichen. Tritt hier ein Fehler auf, führt dies zu einer Anpassung der Gewichte. Dadurch, dass die Gesamtentscheidung auf kleine Teile mit unterschiedlichen schrittweise angepassten Gewichten verlagert wird, können immer bessere Entscheidungen getroffen werden. Dies geschieht mit einer immensen Vielzahl an Variablen. So entsteht eine nahezu exakte Repräsentation von Katzen.
Deep Learning versucht demnach nicht, in Trainingsmaterialien feste Muster zu erkennen, sondern zerlegt zunächst die präsentierte Information in kleinste Teile und analysiert diese nacheinander. Abstrakte Merkmale wie Form der Ohren oder Größe des Körpers sowie Länge des Fells können somit anhand einer zutreffenden Kombination an kleinsten Teilen wie z. B. Pixeln erkannt werden. Erst zum Schluss und nach der Erkennung dieser Abstrakta entscheidet das System.
Diese hierarchische Verarbeitung und die zusätzliche Gewichtung der einzelnen Merkmale lassen zu, dass verschiedene Pfade mit unterschiedlichen Wahrscheinlichkeiten möglich werden. Wird ein neues Objekt eingegeben, so durchläuft dieses viele verschiedene Schichten an Neuronen. Anschließend wird aus den Informationen und deren Gewichtungen ein statistisches Maß berechnet, welches angibt, wie hoch die Wahrscheinlichkeit ist, dass das Objekt zu einer bestimmten Klasse, z. B. Katzen gehört.
Betrachtet man diese einfachen Erklärungsversuche, so fallen einem zwei Dinge auf: Einerseits sind die Modelle in aufsteigender Reifung, von komplexeren statistischen Maßen und Berechnungen abhängig, andererseits sind sie von den eingegebenen Trainingsdaten beeinflusst.
2. In den Daten liegt die Wahrheit
Für die Entwicklung aller Machine-Learning-Modelle werden eine große Anzahl an Trainingsdaten benötigt. Umso besser und komplexer ein Modell funktionieren soll, umso qualitativ hochwertigere und zahlreichere Trainingsdaten werden benötigt. ChatGPT wurde zu Beginn mit circa 40 GB an Daten gefüttert, heute sind es bereits über 500 GB, die verarbeitet werden können. Das ergibt insgesamt circa 175 Milliarden Parameter, basierend auf verschiedenen Faktoren wie Datenmenge, Model oder Architektur – eine Zahl, die für uns Menschen schier ungreifbar ist.
Eine große Menge an Daten und damit Verknüpfungen verschiedener Parameter in den neuronalen Netzwerken garantiert allerdings noch keine verlässlich funktionierende künstliche Intelligenz. Denn diese lässt sich vereinfacht als ein Spiegel unserer Gesellschaft, beziehungsweise der Trainingsdaten betrachten. Auch wenn das manchmal schmerzlich erscheint, treten hierdurch unterschiedliche Biases auf. Diese Verzerrungen lassen sich als Verhaltensweisen der KI betrachten, die zwar durch die trainierten Daten als logisch stringent erscheinen, aber innerhalb unserer Vorstellung eines korrekt agierenden Agenten nicht inkludiert ist. So zum Beispiel Antwortverhalten, welches gesellschaftlich verpönt, aber realitätsabbildend. So konnte auch ChatGPT zu Beginn nicht gut gendern, beschrieb das biologische Geschlecht als zweidimensionales Konstrukt oder benachteiligte ethnische Minderheiten.
Diese Biases resultieren unter anderem aus den Daten. Umso besser die Qualität dieser ist, umso wahrscheinlicher kann das Modell wie erwünscht agieren. Aber was sind eigentlich gute Daten? Man kann unterschiedliche grundlegende Aspekte der Trainingssets beeinflussen, die zugleich auch über deren Qualität Aussagekraft besitzen. Zum einen die Vollständigkeit. So sollten das Set alle relevanten Informationen enthalten, die der Algorithmus benötigt, um seine Aufgabe nach unseren Vorstellungen auszuführen. Zum zweiten sollten die Daten repräsentativ für die jeweilige Aufgabe sein. Zum dritten Korrektheit besitzen und keine fehlerhaften oder irreführenden Informationen enthalten.
Was bedeutet das für unser vorher eingeführtes Beispiel? Um gut zwischen Hunden und Katzen unterscheiden zu können, sollte zunächst einmal die Repräsentativität gegeben sein. Sprich, wir haben Bilder von Hunden und Katzen gleichermaßen gesammelt. Diese sind gleichwertig gewichtet und in ähnlicher Zahl und Qualität vorhanden. Weiter sollten sie in sich korrekt sein, sprich keine Katze als Hund und kein Hund als Katze gelabelt werden. Tatsächlich ist es auch notwendig, Katzen und Hunde in ihrer natürlichen Vollständigkeit abzubilden. Ausschließlich Bilder von Labradoren und von Kartäusern spiegeln nicht alle real vorkommenden Arten von Hunden und Katzen wider.
Eine genaue Menge an guten Daten, die für ein funktionierendes Modell benötigt wird, ist kaum festzusetzen. Dies hängt von vielen verschiedenen Faktoren ab: dem genauen Anwendungsfall, den erwarteten Entscheidungen oder der gewünschten Irrtumswahrscheinlichkeit. Generell lässt sich jedoch festhalten, dass umso komplexer ein Modell ist, desto mehr Daten benötigt es. Eine hohe Menge und Qualität der Daten garantiert jedoch allein noch keine Bias-freie KI.
Ist es also richtig, da realitätsgetreu, mehr Katzen als Hunde abzubilden, Geparden als Katzen zu labeln, und was macht man eigentlich mit Mulis, wenn man zwischen Eseln und Pferden unterscheiden will? Wie festgestellt, gibt es wahrscheinlich Parallelen innerhalb der Daten, die je nach Standpunkt unterschiedlich betrachtet werden könnten. Denn hier kommt der Faktor Mensch ins Spiel. Nachdem eine KI nicht nur durch Daten ein Spiegelbild unserer selbst darstellt und daher auch unsere Facetten übernimmt, ist es ebenso vom Menschen programmiert. Der Code ist vom Menschen gestaltet. Die Daten vom Menschen ausgewählt. Und genau diese humanoiden Faktoren bieten Angriffsfläche für Biases oder Fehleranfälligkeiten. So muss jemand entscheiden, ob eine Raubkatze eine Katze ist. Oder ein Muli, ein Esel, ein Pferd oder ein Pferdeesel? Weiter müssen Daten qualitativ hochwertig gestaltet werden. Wer legt die Regeln fest? Hier kommen wir zu einem Paradoxon der KI. Zum einen können Biases bereits im Code durch den Menschen als Programmierer manifestiert werden. Gute Daten haben nicht ausreichend Einfluss, diese sodann zu beheben. Zum anderen können schlechte Daten auch gute Codes negativ beeinflussen. Und selbst die Auswahl qualitativ hochwertiger Trainingssets kann durch die alleinige Entscheidungsfindung Fehlerquelle sein. Sprich, in unterschiedlichen Kulturen müssten KIs auch unterschiedliche Normen berücksichtigen. Aber wer entscheidet, was in unserer Referenzgruppe erwünscht ist? Die Demokratie, der Programmierer, die Gesellschaftsforschung? Fragen, die unbeantwortet bleiben.
Zusammengefasst hat jeder, der an der Entwicklung künstlicher Intelligenzen beteiligt ist, eine hohe Verantwortung und einen hohen Einfluss. KI muss von Anfang an so gestaltet werden, dass sie Aufgaben nach unseren Vorstellungen erledigt. Bereits im Code, in den Daten und in der Datenauswahl können sich Verzerrungen manifestieren. Doch wer entscheidet, wie sich eine gute KI verhalten sollte?
3. Debiasing
Wie kann man diese Probleme am besten umgehen? Ein Weg ist es, sogenannte Debiasing-Methoden oder Fairness Constraints zu verwenden. Die Idee umfasst Überlegungen, die im Allgemeinen spezifische Regeln enthalten, um sicherzustellen, dass etwaige Systeme nicht diskriminierend oder ungerecht agieren. Festgelegte Bedingungen treten in vielen verschiedenen Formen auf, zum Beispiel als moralische Leitlinien, Regeln in Algorithmen oder Überprüfungsmechanismen von Output und Trainingsdaten. Die wohl bekanntesten Regeln, nicht nur aufgrund des Films I-Robot, sind die von Isaac Asimov formulierten drei Gesetze der Robotik (1941).
Heutzutage gibt es viele verschiedene Arbeiten, die sich mit der Rolle von Mensch und Maschine beschäftigen und Leitlinien formulieren, die deren Interaktion gestalten sollen, in unterschiedlichem Umfang, unterschiedlicher Komplexität und Restriktion. Zum Beispiel die „Ethics Guidelines for Trustworthy AI“ oder der „European Union’s Artificial Intelligence Act“, ausgearbeitet von der EU in Brüssel.
Wie auch in unserem gesellschaftlichen Zusammenleben reicht es allerdings nicht allein, Regeln aufzustellen. Diese müssen auch überprüft werden, tatsächlich nicht von einer Online-Polizei oder einer staatlichen Stelle, sondern meist im Eigeninteresse der Produktentwickler. So gibt es Anbieter, die sich auf qualitativ hochwertige Trainingsdatensätze spezialisiert haben und sich diese teuer bezahlen lassen. Aber auch die besten qualitativen Daten können in Deep Learning Modellen zu unerwünschten Verzerrungen der Outputs oder generell fehlerhaftem Antwortverhalten führen. So muss eine unvorstellbar potenziell gefährliche Menge an Informationen kontrolliert werden, durchgeführt von billig abgespeisten Clickworkern in Entwicklungsländern wie Kenia. Diese Arbeiter verdienen weniger als zwei Euro die Stunde und müssen dafür teils traumatisierende Inhalte kategorisieren. So sind sie mit Schilderungen von sexuellem Kindesmissbrauch, Zoophilie, Tötungen, Suizid, Folter, Selbstverletzung und Inzest konfrontiert. Die Billiglöhner werden als Datenetikettierer eingesetzt. Das heißt, sie filtern abertausende als problematisch gekennzeichnete Inhalte auf deren Übereinstimmung mit den gesetzten Leitlinien und entfernen sie, wenn notwendig, aus den Datensätzen. Dies führt zu neuen Regeln oder spezifisch unterbundenem Antwortverhalten.
Wohl einer der Gründe, warum ChatGPT bei Fragen zu sensiblen Themen immer sehr phrasenhaft und schemenhaft zu reagieren scheint, ist, dass ein Phänomen besteht, das sich auch bei ethisch inkorrekten Fragestellungen zeigt. Teilweise werden Eingaben direkt unterbunden oder die Entwickler weisen auf die unterschiedlichen möglichen Fehler bei den Ausgaben hin. So können diese zum Beispiel Falschinformationen erhalten, obwohl sie plausibel klingen, aber auch die Rechte von Minderheiten verletzen.
