Top-Fragen
Zeitleiste
Chat
Kontext
Generativer vortrainierter Transformer
Framework für generative künstliche Intelligenz Aus Wikipedia, der freien Enzyklopädie
Remove ads
In der Künstlichen Intelligenz (KI) ist ein generativer vortrainierter Transformer (englisch Generative pre-trained transformers, GPT) ein großes Sprachmodell (englisch Large Language Model, LLM). GPT-Modelle basieren auf künstlichen neuronalen Netzwerken unter Anwendung generativer Modelle und von Transformer-Architektur, die auf großen Datensätzen unmarkierter Texte vorab trainiert werden und in der Lage sind, neue Inhalte zu generieren; sie werden oft allgemein als GPTs bezeichnet. Der erste GPT wurde 2018 vom amerikanischen Unternehmen OpenAI vorgestellt.

Remove ads
Hintergrund
Zusammenfassung
Kontext
Generatives Vortraining (GP) war ein etabliertes Konzept in der Anwendung von maschinellem Lernen,[1][2] die Transformer-Architektur wurde jedoch erst im Dezember 2017 präsentiert, als acht Google-Mitarbeiter bei einem Kongress ihren bahnbrechenden Artikel Attention is all you need vorstellten, der das Konzept von Aufmerksamkeit (Attention) einführte.[3][4] Diese Entwicklung führte zur Entstehung großer Sprachmodelle wie BERT im Jahr 2018[5] und XLNet im Jahr 2019,[6] die vorab trainierte Transformer (PT) waren, aber nicht generativ konzipiert wurden (sie waren nur Encoder).[7] Im Jahr 2018 veröffentlichte OpenAI dann den Artikel Improving Language Understanding by Generative Pre-Training, in dem es das erste generative vorab trainierte Transformer(GPT)-System vorstellte.[8][9][10][11][12]
Vor den auf Transformer-Architekturen basierenden Modellen verwendeten die leistungsstärksten neuronalen NLP (Natural Language Processing)-Modelle häufig überwachtes Lernen aus großen Mengen manuell beschrifteter Daten. Die Abhängigkeit vom überwachten Lernen beschränkte ihren Einsatz auf Datensätze, die nicht gut annotiert waren, und machte es auch zu teuer und zeitaufwendig, extrem große Sprachmodelle zu trainieren.[8]
Das erste groß angelegte generative System, das mit einem Transformer-Modell gemacht wurde, stammte dann von OpenAI. Der dort verwendete halbüberwachte Ansatz umfasste zwei Phasen: eine unbeaufsichtigte, generative Vortrainings-Phase sowie eine überwachte, diskriminative Feinabstimmungs-Phase. Bei der ersten Phase wurden die anfänglichen Parameter anhand eines Sprachmodellierungsziels festgelegt. Bei der zweiten Phase wurden diese Parameter an eine Ziel-Aufgabe angepasst.[8]
Remove ads
Grundlagenmodell
Zusammenfassung
Kontext
Ein Grundlagenmodell ist ein KI-Modell, das auf umfangreichen Daten in großem Maßstab trainiert wird, so dass es an eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann (englisch: Fine Tuning).[13]
Die von OpenAI veröffentlichten GPT-Grundmodelle wurden fortlaufend nummeriert und bilden die GPT-n-Serie. Jedes dieser Modelle war signifikant leistungsfähiger als das vorherige, aufgrund zunehmender Größe (Anzahl der trainierbaren Parameter) und besseren Trainings. Das jüngste dieser Modelle, GPT-4o, wurde im Mai 2024 veröffentlicht.[14]
Solche Modelle bilden die Grundlage für ihre spezifischeren GPT-Systeme, einschließlich Modellen, die für die Anweisungsbefolgung optimiert wurden und wiederum den ChatGPT-Service als Chatbot antreiben.[9] Open AI hat zu GPT-4o und auch zuvor zu GPT-4 keine Daten zur Größe oder Details zum Training veröffentlicht (unter Berufung auf den Wettbewerbsdruck und die Sicherheitsauswirkungen von Modellen im großen Maßstab).[15]
Andere solche Modelle umfassen Googles PaLM, ein breites Grundlagenmodell, das mit GPT-3 verglichen wurde,[22][23] sowie Togethers GPT-JT, das als die engste Open-Source-Alternative zu GPT-3 gilt (und von früheren Open-Source-GPTs abgeleitet ist).[24] Meta AI (ehemals Facebook) hat ebenfalls ein generatives, transformerbasiertes grundlegendes Sprachmodell namens LLaMA.[25]
Grundlegende GPTs können auch Modalitäten neben Text für die Eingabe und/oder Ausgabe verwenden. GPT-4 ist ein multimodales LLM, das in der Lage ist, Text- und Bilddaten zu verarbeiten (wobei die Ausgabe auf Text beschränkt ist).[26] Bezüglich multimodaler Ausgabe werden generative, transformerbasierte Modelle für Text-zu-Bild-Technologien wie Diffusion[27] und parallele Dekodierung[28] eingesetzt. Solche Modelle können als visuelle Grundlagenmodelle (VFMs) dienen, um nachgelagerte Systeme zu entwickeln, die mit Bildern arbeiten können.[29]
Remove ads
Aufgabenorientierte Modelle
Zusammenfassung
Kontext
Ein grundlegendes GPT-Modell kann weiter angepasst werden, um gezieltere Systeme für spezifische Aufgaben und/oder Fachbereiche zu erstellen. Methoden für solche Anpassungen können zusätzliche Feinabstimmung (über das für das Grundlagenmodell durchgeführte hinaus) sowie bestimmte Formen der Anweisungsgestaltung umfassen.[30]
Ein wichtiges Beispiel dafür ist die Feinabstimmung von Modellen, um Anweisungen zu befolgen, was natürlich eine recht breite Aufgabe, aber zielgerichteter als ein Grundlagenmodell ist. Im Januar 2022 führte OpenAI InstructGPT ein, eine Serie von Modellen, die mit Hilfe einer Kombination aus überwachtem Training und bestärkendem Lernen durch menschliche Rückkopplung (RLHF) auf der Basis von GPT-3-Sprachmodellen darauf trainiert wurden, Anweisungen zu befolgen.[31][32] Die Vorteile gegenüber den reinen Grundlagenmodellen umfassten eine höhere Genauigkeit, weniger negative/toxische Stimmung und eine allgemein bessere Übereinstimmung mit den Benutzerbedürfnissen. Daher begann OpenAI, dies als Grundlage für seine API-Serviceangebote zu nutzen.[33] Auch andere an Anweisungen angepasste Modelle wurden von anderen veröffentlicht, einschließlich einer vollständig offenen Version.[34][35]
Eine andere (verwandte) Art von aufgabenorientierten Modellen sind Chatbots, die menschenähnliche Unterhaltungen führen. Im November 2022 startete OpenAI ChatGPT, eine Online-Chat-Schnittstelle, die von einem aufgabenangepassten Sprachmodell betrieben wird, das ähnlich wie InstructGPT trainiert wurde.[36] Dieses Modell wurde mit RLHF trainiert, wobei menschliche KI-Trainer Gespräche führten, in denen sie sowohl den Benutzer als auch die KI spielten, und dieser neue Dialogdatensatz mit dem InstructGPT-Datensatz für ein Unterhaltungsformat kombiniert wurde, das für einen Chatbot geeignet ist. Zu den weiteren bedeutenden Chatbots gehören derzeit Microsofts Copilot, der OpenAIs GPT-4 verwendet (als Teil einer engeren Zusammenarbeit zwischen OpenAI und Microsoft),[37] und Googles konkurrierender Chatbot Bard (ursprünglich basierend auf ihrer LaMDA-Familie von auf Konversation trainierten Sprachmodellen, mit Plänen, zu PaLM zu wechseln).[38]
Eine weitere Art von Aufgabe, für die ein GPT verwendet werden kann, ist die Meta-Aufgabe, seine eigenen Anweisungen zu generieren, indem es eine Reihe von Vorgaben für sich selbst entwickelt, um ein allgemeineres Ziel, das von einem menschlichen Benutzer gegeben wurde, zu erreichen.[39] Dies wird als KI-Agent bezeichnet, genauer gesagt als ein rekursiver Agent, da er Ergebnisse aus seinen vorherigen Selbstanweisungen verwendet, um ihm bei der Bildung seiner nachfolgenden Vorgaben zu helfen. Das erste bedeutende Beispiel dafür war Auto-GPT (das OpenAIʼs GPT-Modelle verwendet), und seitdem wurden auch andere entwickelt.[40]
Multimodalität
Generative, transformerbasierte Systeme können auch auf Aufgaben ausgerichtet sein, die Modalitäten jenseits von Text umfassen. Microsofts Visual ChatGPT zum Beispiel kombiniert ChatGPT mit visuellen Grundlagenmodellen (VFMs), um sowohl Bilder als auch Text als Eingabe oder Ausgabe zu ermöglichen.[41] Darüber hinaus bieten Fortschritte in der Text-to-Speech-Technologie leistungsstarke Werkzeuge für die Erstellung von Audioinhalten, wenn sie in Verbindung mit grundlegenden GPT-Sprachmodellen verwendet werden.[42]
Domänen-Spezifität
GPT-Systeme können auf bestimmte Bereiche oder Domänen ausgerichtet werden. Einige gemeldete Beispiele für solche Modelle und Apps sind wie folgt:
- EinsteinGPT für die Bereiche Vertrieb und Marketing, um bei der Kundenbeziehungspflege zu helfen (verwendet GPT-3.5).[43]
- BloombergGPT für den Finanzbereich, um bei Finanznachrichten und -informationen zu helfen (verwendet frei verfügbare KI-Methoden in Kombination mit ihren proprietären Daten).[44]
- Khanmigo eine Version von GPT für Nachhilfezwecke im Bildungsbereich, unterstützt Schüler bei der Nutzung von Khan Academy, indem es sie durch ihr Lernen führt, ohne direkte Antworten zu geben (betrieben von GPT-4).[45][46]
- SlackGPT für den Instant-Messaging-Dienst Slack, um bei der Navigation und Zusammenfassung von Diskussionen zu helfen (verwendet OpenAI's API).[47]
- BioGPT für den biomedizinischen Bereich, um bei der Generierung und Auswertung von biomedizinischen Literaturtexten zu helfen (verwendet GPT-2).[48]
Manchmal wird die Domänenspezifität durch Software-Plug-Ins oder Erweiterungen erreicht. Zum Beispiel haben verschiedene Unternehmen spezielle Plug-Ins entwickelt, die direkt mit der ChatGPT-Schnittstelle von OpenAI interagieren[49][50], und Google Workspace bietet Erweiterungen wie GPT für Sheets und Docs an, die angeblich die Nutzung von Tabellenkalkulationsfunktionen in Google Sheets erleichtern sollen.[51][52]
Remove ads
Begriff GPT und Markenrechte
Zusammenfassung
Kontext
Der Begriff GPT wird auch in den Namen und Beschreibungen von Modellen verwendet, die nicht von OpenAI entwickelt wurden. Verschiedene Forschungseinrichtungen und Unternehmen entwickelten ebenfalls GPT genannte Sprachmodelle – dies auch bereits vor dem Durchbruch von ChatGPT3.5. Beispielhaft seien EleutherAI oder Cerebras genannt.[53][54] Auch Unternehmen in verschiedenen Branchen brachten auf ihren jeweiligen Gebieten aufgabenorientierte GPTs heraus wie z. B. EinsteinGPT von Salesforce (für CRM)[55] und BloombergGPT von Bloomberg (für Finanzen).[56]
OpenAI, das im Jahr 2018 den ersten generativen vorab trainierten Transformer (GPT) entwickelt hatte, verlangte im Mai 2023, dass GPT als Marke von OpenAI angesehen werden sollte.[57] Im April 2023 überarbeitete OpenAI die Markenrichtlinien in seinen Nutzungsbedingungen, um anzuzeigen, dass andere Unternehmen, die seine API nutzen, um ihre KI-Dienste auszuführen, GPT nicht mehr in ihren Namen oder ihre Marken aufnehmen sollten.[58] Im Mai 2023 beauftragte OpenAI einen Markenverwaltungsdienst, um seine API-Kunden über diese Richtlinie zu informieren, jedoch wurden in diesen Benachrichtigungen keine offensichtlichen rechtlichen Ansprüche erhoben (wie Markenrechtsverletzungen oder Aufforderungen zur Einstellung).[57]
Im Zusammenhang damit stellte OpenAI beim United States Patent and Trademark Office (USPTO) einen Antrag auf Inlandsregistrierung von GPT und ChatGPT als Marken im Bereich der KI. OpenAI versuchte die Bearbeitung seines Antrags zu beschleunigen, aber das USPTO lehnte diesen Antrag im Frühjahr 2023 ab.[59] Die Registrierungsfrage zog sich über das ganze Jahr, im Februar 2024 lehnte das USPTO dann die Registrierung erneut ab.[60] Das Patentamt begründete dies damit, dass sowohl die Abkürzung GPT als auch der Begriff Chat zu deskriptiv und allgemeingebräuchlich seien.[61]
Remove ads
Siehe auch
Einzelnachweise
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads