Foundation Models

Foundation Models (deutsch: Grundmodelle oder Basismodelle) sind Computermodelle auf dem Gebiet der künstlichen Intelligenz (KI). Ein Modell ist ein durch Maschinelles Lernen für eine bestimmte Anwendung trainiertes Computermodell. Oft handelt es sich dabei um ein Künstliches neuronales Netz. Ein Grundmodell ist ein maschinelles Lernmodell, das auf einer großen Menge von Daten derart trainiert wird (oft durch Selbstüberwachtes Lernen oder halbüberwachtes Lernen), dass es auf eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann. Grundmodelle haben dazu beigetragen, KI-Systeme neuartig zu konzipieren, wie z. B. durch die Bereitstellung von Chatbots und anderen nutzerorientierten KI-Anwendungen. Das Center for Research on Foundation Models (CRFM) des Stanford Institute for Human-Centered Artificial Intelligence’s (HAI) hat diesen Begriff populär gemacht. Im August 2021 definierte das CRFM den Begriff Grundmodell als Modell, das auf breiten Daten trainiert wird (in der Regel mit Selbstüberwachung im großen Maßstab) und das an eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann.^[1]^[2]

Grundmodelle sind so konzipiert, dass sie an verschiedene nachgelagerte kognitive Anwendungen angepasst werden können (z. B. durch Feinabstimmung). Zu den wesentlichen Merkmalen von Grundmodellen gehören Emergenz und Homogenisierung.^[3]

Wahl des Begriffs

Den neuen Begriff Foundation Models führte das CRFM ein, weil bestehende überlappende Begriffe nicht ausreichend waren. Es argumentiert, dass das Large Language Model (LLM) zu eng war, da der Fokus nicht nur auf Sprache liegt, selbstüberwachtes Modell zu spezifisch für das Trainingsziel ist und vortrainiertes Modell suggerierte, dass die Aktion erst nach dem Vortraining stattfindet. Da der Umfang, in dem sich das Gebiet in den letzten Jahren entwickelt habe und das zunehmende Potenzial für jedes gegebene Modell für verschiedene Zwecke verwendet zu werden, groß sei, sei ein neuer Begriff gerechtfertigt.^[4]^[5]

Remove ads

Beispiele

Frühe Beispiele für Grundmodelle waren vortrainierte Sprachmodelle, wie z. B. Googles BERT^[6] und verschiedene frühe GPT (Generative Pretrained Transformer)-Grundmodelle, zu denen auch OpenAIs GPT-n-Serie gehört. Diese Art von Grundmodellen ist bekannt als LLM. Solche breiten Modelle können wiederum für aufgaben- und/oder domänenspezifische Modelle verwendet werden, die auf gezielten Datensätzen verschiedener Art basieren, wie z. B. medizinischen Codes.^[7] Neben Text wurden auch mehrere visuelle und multimodale Grundmodelle geschaffen wie DALL-E, Flamingo^[8], Florence^[9] und NOOR^[10]. Visuelle Grundmodelle wurden mit textbasierten LLMs kombiniert, um anspruchsvolle aufgabenspezifische Modelle zu entwickeln.^[11] Es gibt auch Segment Anything von Meta AI für die allgemeine Bildsegmentierung.^[12] Diffusion Models unterscheiden sich bezüglich Struktur und verwendeter Algorithmen von LLMs. Ihr Einsatz wurde z. B. für die Robotik vorgeschlagen.^[13] Für Bestärkungslernagenten gibt es Gato von Google DeepMind.^[14]

Remove ads

Weblinks

Mike Murphy: What are foundation models? IBM Research, 2022-05-09. Abgerufen am 2023-11-02
Kate Soule: Foundation Models. IBM Research, YouTube, 8:47 Min. Abgerufen am 2023-11-02
Kevin Roose: Maybe We Will Finally Learn More About How A.I. Works. In: New York Times, 2023-10-19. Stanford researchers have ranked 10 major A.I. models on how openly they operate.
The Foundation Model Transparency Index. Center for Research on Foundation Models, Stanford University. Abgerufen am 2023-11-02
Elliot Jones: Explainer: What is a foundation model? Ada Lovelace Institute, 2023-07-17. Abgerufen am 2023-11-02
Huge “foundation models” are turbo-charging AI progress. In: Economist, 2022-06-11. Abgerufen am 2023-11-02

Foundation Models

Wahl des Begriffs

Beispiele

Weblinks

Einzelnachweise

Wikiwand - on