Top-Fragen
Zeitleiste
Chat
Kontext

Foundation Models

Computermodelle auf dem Gebiet der künstlichen Intelligenz Aus Wikipedia, der freien Enzyklopädie

Remove ads
Remove ads

Foundation Models (deutsch: Grundmodelle oder Basismodelle) sind Computermodelle auf dem Gebiet der künstlichen Intelligenz (KI). Ein Modell ist ein durch Maschinelles Lernen für eine bestimmte Anwendung trainiertes Computermodell. Oft handelt es sich dabei um ein Künstliches neuronales Netz. Ein Grundmodell ist ein maschinelles Lernmodell, das auf einer großen Menge von Daten derart trainiert wird (oft durch Selbstüberwachtes Lernen oder halbüberwachtes Lernen), dass es auf eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann. Grundmodelle haben dazu beigetragen, KI-Systeme neuartig zu konzipieren, wie z. B. durch die Bereitstellung von Chatbots und anderen nutzerorientierten KI-Anwendungen. Das Center for Research on Foundation Models (CRFM) des Stanford Institute for Human-Centered Artificial Intelligence’s (HAI) hat diesen Begriff populär gemacht. Im August 2021 definierte das CRFM den Begriff Grundmodell als Modell, das auf breiten Daten trainiert wird (in der Regel mit Selbstüberwachung im großen Maßstab) und das an eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann.[1][2]

Grundmodelle sind so konzipiert, dass sie an verschiedene nachgelagerte kognitive Anwendungen angepasst werden können (z. B. durch Feinabstimmung). Zu den wesentlichen Merkmalen von Grundmodellen gehören Emergenz und Homogenisierung.[3]

Remove ads

Wahl des Begriffs

Den neuen Begriff Foundation Models führte das CRFM ein, weil bestehende überlappende Begriffe nicht ausreichend waren. Es argumentiert, dass das Large Language Model (LLM) zu eng war, da der Fokus nicht nur auf Sprache liegt, selbstüberwachtes Modell zu spezifisch für das Trainingsziel ist und vortrainiertes Modell suggerierte, dass die Aktion erst nach dem Vortraining stattfindet. Da der Umfang, in dem sich das Gebiet in den letzten Jahren entwickelt habe und das zunehmende Potenzial für jedes gegebene Modell für verschiedene Zwecke verwendet zu werden, groß sei, sei ein neuer Begriff gerechtfertigt.[4][5]

Remove ads

Beispiele

Frühe Beispiele für Grundmodelle waren vortrainierte Sprachmodelle, wie z. B. Googles BERT[6] und verschiedene frühe GPT (Generative Pretrained Transformer)-Grundmodelle, zu denen auch OpenAIs GPT-n-Serie gehört. Diese Art von Grundmodellen ist bekannt als LLM. Solche breiten Modelle können wiederum für aufgaben- und/oder domänenspezifische Modelle verwendet werden, die auf gezielten Datensätzen verschiedener Art basieren, wie z. B. medizinischen Codes.[7] Neben Text wurden auch mehrere visuelle und multimodale Grundmodelle geschaffen wie DALL-E, Flamingo[8], Florence[9] und NOOR[10]. Visuelle Grundmodelle wurden mit textbasierten LLMs kombiniert, um anspruchsvolle aufgabenspezifische Modelle zu entwickeln.[11] Es gibt auch Segment Anything von Meta AI für die allgemeine Bildsegmentierung.[12] Diffusion Models unterscheiden sich bezüglich Struktur und verwendeter Algorithmen von LLMs. Ihr Einsatz wurde z. B. für die Robotik vorgeschlagen.[13] Für Bestärkungslernagenten gibt es Gato von Google DeepMind.[14]

Remove ads

Einzelnachweise

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads