ChatGPT - Was es ist und wie es funktioniert

ChatGPT ist ein Dialogmodell, das von OpenAI ins Leben gerufen wurde. Die neue Funktion ermöglicht es, Fragen zu beantworten, Fehler anzuerkennen, falsche Aussagen in Frage zu stellen und unpassende Anfragen zurückzuweisen. Es handelt sich hierbei um ein Partnermodell von InstructGPT, welches darauf trainiert wurde, Anweisungen in einer Eingabeaufforderung zu folgen und eine detaillierte Antwort vorzulegen.

Auf der eigenen Website zeigt OpenAI unterschiedliche Beispiele, damit man sich die Funktion der ChatGPT besser vorstellen kann.

Die Entstehung des Modells

Mit der Unterstützung von RLHF (Reinforcement Learning from Human Feedback) wurde ChatGPT trainiert. Zuerst wurde ein erstes Modell programmiert, indem human AI-Trainer auf unterschiedliche Weise Konversation führten. Eine Person spielte den AI Assistenten, die andere den oder die Nutzer:in. Die daraus gewonnenen Fragen und Antworten wurden mit dem bereits vorhandenen Datenset der InstructGPT, die zu einem Dialogformat verändert wurde, vermischt.

Damit ein Belohnungsmodell für das Reinforcement Learning erstellt werden konnte, mussten Vergleichsdaten generiert werden. Diese sollten aus zwei oder mehr Modellantworten bestehen, die nach Qualität geordnet wurden. Damit solche Daten gesammelt werden konnten, wurden Unterhaltungen, die KI-Trainer mit dem Chatbot führten, aufgezeichnet.
Es wurden per Zufall vom Modell verfasste Nachrichten ausgewählt, verschiedene Vervollständigungen ausprobiert und zu guter Letzt liess man die KI-Trainer eine Bewertung abgeben. Mit Hilfe dieser Belohnungsmodelle kann nun das Modell mit der Unterstützung der Proximal Policy Optimization immer genauer abgestimmt werden. Dieser Prozess wurde einige Male durchgeführt.

Welche Grenzen gibt es aktuell?

Bei der ChatGPT kommt es immer wieder zu falschen oder sinnlosen Antworten. Ganz einfach lässt sich dieses Problem nicht beheben. Die Entwickler sind natürlich dran.
Das Modell verträgt Änderungen der eingegebenen Aussage bzw. mehrfache Eingabeversuche eher schlecht. So kann es passieren, dass die ChatGPT behauptet, die Antwort auf eine Frage nicht zu kennen, obwohl dies eigentlich nicht der Fall wäre.
Bestimmte Phrasen werden aktuell noch zu oft verwendet. Das scheint wohl daran zu liegen, dass die Trainer längere Antworten bevorzugen und der Text überoptimiert wird.
Es wäre eines Tages optimal, wenn das Modell Rückfragen stellen würde, wenn die Anfrage der Nutzer:innen in unterschiedliche Richtungen deutet. Aktuell fokussiert sich die ChatGPT konkret auf die Beabsichtigung der Nutzer:innen.
Es herrscht grosse Bemühung, wenn es um die Ablehnung von unangemessenen Anfragen geht. Auch wenn hier grosse Vorsicht herrscht, kann aktuell noch davon ausgegangen werden, dass das System nicht alle schädlichen Inhalte erkennen kann und bestimmte Dinge durchrutschen. Nutzer:innen Feedback wird hier in Zukunft sicherlich hilfreich sein.

Ausblick

ChatGPT ist ein weiterer Schritt in der Nutzung von KI-Systemen. Für uns stellt sich immer wieder die Frage, ob ein solches System schlussendlich wirklich den Menschen ersetzen kann. In bestimmten Bereichen können solche Modelle durchaus unterstützen, doch gibt es unserer Meinung andere Bereich, wo der Mensch durchaus noch authentischer wirken kann.

Quelle: Openai.com

< Älterer Beitrag

Neuerer Beitrag >

ChatGPT - Was es ist und wie es funktioniert

Die Entstehung des Modells

Welche Grenzen gibt es aktuell?

Ausblick

Über die Autorin

Lisa-Marie Unger