상위 질문
타임라인
채팅
관점

파운데이션 모델

위키백과, 무료 백과사전

Remove ads

파운데이션 모델(foundation model)은 광범위한 사용 사례에 적용할 수 있도록 광범위한 데이터에 대해 훈련된 기계 학습 또는 딥 러닝 모델이다. 챗GPT 등의 대형 언어 모델과 같은 생성형 인공지능이 대표적인 파운데이션 모델이다.[1] 스탠포드 인간 중심 인공 지능 연구소(HAI)의 파운데이션 모델 연구 센터(CRFM)가 이 용어를 만들고 대중화했다.[2]

파운데이션 모델은 다양한 사용 사례를 지원할 수 있는 범용 기술이다. 파운데이션 모델을 구축하는 것은 리소스 집약적인 경우가 많으며, 가장 비싼 모델의 경우 기본 데이터 및 필요한 컴퓨팅 비용을 지불하는 데 수억 달러가 소요된다.[3] 대조적으로, 특정 사용 사례에 맞게 기존 기반 모델을 조정하거나 직접 사용하는 것은 비용이 훨씬 저렴하다.

파운데이션 모델의 초기 예는 구글BERT[4]오픈AI의 "GPT-n" 시리즈와 같은 언어 모델(LM)이었다. 텍스트 외에도 이미지용 DALL-E 및 플라밍고,[5] 음악용 뮤직젠(MusicGen),[6] 로봇 제어용 RT-2[7] 등 다양한 양식에 걸쳐 기반 모델이 개발되었다. 파운데이션 모델은 AI 개발의 광범위한 변화를 구성한다. 파운데이션 모델은 천문학,[8] 방사선학,[9] 유전체학,[10] 음악,[11] 코딩,[12] 시계열 예측[13] 및 수학[14]을 위해 구축되고 있다.

Remove ads

정의

요약
관점

스탠퍼드 인간 중심 인공지능 연구소(HAI)의 파운데이션 모델 연구 센터(CRFM)는 2021년 8월[2]에 "파운데이션 모델"이라는 용어를 만들었는데, 이는 "광범위한 데이터(일반적으로 대규모 자기 지도 학습 사용)로 훈련되어 다양한 다운스트림 작업에 적용(예: 미세 조정)될 수 있는 모든 모델"을 의미한다.[15] 이는 기존 용어들이 중복되기는 했지만 적절하지 않다는 관찰에 기반한 것으로, 그들은 "'(대형) 언어 모델'은 초점이 언어에만 있지 않기 때문에 너무 좁고, '자기 지도 모델'은 훈련 목표에 너무 구체적이며, '사전 훈련 모델'은 모든 주목할 만한 행동이 '사전 훈련' 후에 일어났음을 암시했다"고 밝혔다.[16] "기초적인"이라는 단어가 모델이 근본적인 원리를 제공한다는 의미를 내포하고 있는 반면 "파운데이션"은 그렇지 않으므로,[17] "foundational model" 대신 "foundation model"이라는 용어가 선택되었다.[18] 비전-언어 모델(VLM)이라는 용어도 거의 동의어로 사용된다.

정부가 파운데이션 모델을 규제함에 따라 새로운 법적 정의가 등장했다.

  • 미국에서는 인공지능의 안전하고, 보안적이며, 신뢰할 수 있는 개발 및 사용에 관한 행정 명령에서 파운데이션 모델을 "광범위한 데이터로 훈련되고, 일반적으로 자기 지도 학습을 사용하며, 최소 수십억 개의 매개변수를 포함하고, 광범위한 맥락에 적용 가능한 AI 모델"로 정의한다.[19]
  • 미국에서는 돈 바이어 (D, VA) 하원 의원과 애나 에슈 (D, CA) 하원 의원이 제안한 2023년 AI 파운데이션 모델 투명성 법안[20]에서 파운데이션 모델을 "광범위한 데이터로 훈련되고, 일반적으로 자기 지도 학습을 사용하며, 일반적으로 최소 10억 개 이상의 매개변수를 포함하고, 광범위한 맥락에 적용 가능하며, 안보, 국가 경제 안보, 국가 공중 보건 또는 안전, 또는 이들 사항의 조합에 심각한 위험을 초래할 수 있는 작업에서 높은 수준의 성능을 나타내거나 쉽게 수정될 수 있는 인공지능 모델"로 정의한다.
  • 유럽 연합에서는 유럽 의회EU AI Act에 대한 협상 입장에서 파운데이션 모델을 "대규모 광범위한 데이터로 훈련되고, 출력의 일반성을 위해 설계되었으며, 광범위한 고유한 작업에 적용될 수 있는 AI 모델"로 정의한다.
  • 영국에서는 경쟁시장청의 AI 파운데이션 모델: 초기 보고서[1]에서 파운데이션 모델을 "막대한 양의 데이터로 훈련되어 다양한 작업 및 운영에 적용될 수 있는 인공지능 기술 유형"으로 정의한다.

미국의 정의만이 파운데이션 모델의 크기를 언급하며, 그 규모는 다르다. 바이어와 에슈의 정의는 또한 파운데이션 모델이 잠재적인 위험이 될 수 있을 정도의 성능 수준을 달성해야 한다고 명시한다. 대조적으로, EU의 정의는 모델이 출력의 일반성을 위해 설계되어야 한다고 요구한다. 모든 정의는 파운데이션 모델이 광범위한 데이터로 훈련되어야 하며 여러 영역에서 잠재적인 응용 프로그램을 가질 수 있다는 점에 동의한다.

Remove ads

역사

기술적으로 파운데이션 모델은 심층 신경망, 전이학습, 자기 지도 학습과 같은 확립된 기계 학습 기술을 사용하여 구축된다. 파운데이션 모델은 기존의 맞춤형 및 일회성 작업별 모델 대신 재사용 가능한 인프라 역할을 하는 범용 모델이라는 점에서 이전 기술과 다르다.

컴퓨터 병렬 처리(예: CUDA GPU)의 발전과 신경망 아키텍처의 새로운 개발(예: 트랜스포머), 그리고 최소한의 감독으로 훈련 데이터 사용이 증가한 것이 모두 파운데이션 모델의 부상에 기여했다. 파운데이션 모델은 2010년대 후반에 딥 러닝 모델의 최신 물결로 나타나기 시작했다.[21] 딥 러닝에 대한 대부분의 이전 작업과 비교할 때, 이들 언어 모델은 자기 지도 목표(예: 대규모 텍스트 코퍼스에서 다음 단어 예측)를 사용하여 훨씬 더 큰 웹 소스 데이터셋으로 훈련할 수 있는 잠재력을 보여주었다. Word2vecGloVe와 같은 이전 작업에서 파생된 이 접근 방식은 주석이 달린 데이터(예: 크라우드 소싱 레이블)를 요구하는 이전의 지도 학습 접근 방식과는 달랐다.

2022년 스테이블 디퓨전챗GPT(초기 GPT-3.5 모델 기반)의 출시는 파운데이션 모델과 생성형 인공지능이 대중 담론에 널리 퍼지게 만들었다. 더욱이 2023년 LLaMA, Llama 2, 미스트랄의 출시는 오픈 파운데이션 모델이 많은 지지[22]와 면밀한 검토[23]를 얻으면서 파운데이션 모델이 어떻게 출시되는지에 대한 더 큰 강조로 이어졌다.

Remove ads

관련 개념

요약
관점

프론티어 모델

일부 고도로 발전된 파운데이션 모델은 "프론티어 모델"이라고 불리는데, 이는 "공공 안전에 심각한 위험을 초래할 만큼 위험한 능력을 가질 수 있다"는 잠재력을 가지고 있다.[24] 이러한 "위험한 능력"은 모델의 우발적 또는 의도적 오용에서 비롯되며, 강력한 특성과 결합되어 심각한 피해를 초래할 수 있다. 파운데이션 모델이 계속 발전함에 따라 일부 AI 연구자들은 거의 모든 차세대 파운데이션 모델이 프론티어 모델로 간주될 것이라고 추측한다.

위험한 능력의 개념은 본질적으로 주관적이기 때문에, 어떤 파운데이션 모델이 프론티어 모델로 분류되는지에 대한 엄격한 기준은 없다. 그러나 충분히 위험한 능력에 대한 일반적으로 받아들여지는 아이디어는 다음과 같다.

  • 새로운 생물학적 또는 화학적 무기 설계 및 합성[25]
  • 사용자 지침을 최소화하여 설득력 있고 맞춤형 허위 정보 생산 및 전파[26]
  • 전례 없는 공격적인 사이버 능력 활용[27]
  • 기만적인 수단을 통해 인간 통제 회피[28]

프론티어 모델의 독특한 능력 때문에 개발 및 배포를 효과적으로 규제하기 어렵다. 프론티어 모델은 발생적 특성 때문에 개발 단계와 배포 후에 새로운 위험한 능력이 자체적으로 나타날 수 있다.[24] 또한 프론티어 모델은 배포 후에도 계속 적응하므로, 이미 배포된 모델에서 발생하는 모든 피해를 완화하기는 여전히 어렵다. 프론티어 모델이 오픈 소스이거나 온라인으로 출시되는 경우, 모델이 빠르게 확산될 수 있어 규제 당국이 책임감을 잃게 만들 수 있다.

범용 인공지능

다양한 사용 사례에 대한 적응성 때문에 파운데이션 모델은 때때로 범용 AI의 예로 간주된다. EU AI Act를 설계할 때 유럽 의회는 새로운 범용 AI 기술이 전체 AI 생태계를 형성한다고 밝혔다.[29] 전체 생태계의 구조는 특정 범용 AI 시스템의 속성 외에도 AI 정책 및 연구 설계에 영향을 미친다.[30] 범용 AI 시스템은 챗GPT 또는 DALL-E와 같은 응용 프로그램 및 도구를 통해 사람들의 일상생활에도 자주 나타난다.

EU 의회와 같은 정부 기관은 파운데이션 모델과 같은 범용 AI의 규제를 최우선 과제로 식별했다. 범용 AI 시스템은 종종 큰 규모, 불투명성, 그리고 예상치 못한 피해를 초래할 수 있는 발생 가능성이라는 특징을 가지며, 이 모든 것이 의도하지 않은 피해를 초래할 수 있다. 이러한 시스템은 또한 다운스트림 응용 프로그램에 큰 영향을 미치므로 규제의 필요성을 더욱 가중시킨다. 저명한 법안과 관련하여 많은 이해관계자들이 EU AI Act에 범용 AI 시스템에 대한 제한을 포함하도록 추진했으며, 이 모든 제한은 파운데이션 모델에도 적용될 것이다.

월드 모델

2018년, 연구자 데이비드 하와 위르겐 슈미트후버강화 학습 맥락에서 월드 모델을 정의했다. 이 모델은 시각적 관찰을 나타내는 변분 오토인코더 모델 V, 기억을 나타내는 순환 신경망 모델 M, 그리고 결정을 내리는 선형 모델 C를 가진 지능형 에이전트이다. 그들은 현실을 시뮬레이션하는 환경에서 월드 모델로 훈련된 에이전트가 실제 환경에 적용될 수 있다고 제안했다.[31]

2022년, 얀 르쿤은 월드 모델(그는 이를 관련 있다고 여겨지는 세계의 측면에 대한 정신 모델 역할을 하는 인공 신경망으로 정의했다)을 더 큰 인지적 구조 시스템의 일부로 보았다. 이 시스템은 의 다른 영역과 유사한 다른 신경망들을 포함한다. 그의 관점에서 이 프레임워크는 상식적 추론으로 이어질 수 있었다.[32][33]

비즈니스 인사이더는 월드 모델이 제이 라이트 포레스터의 1971년 논문에서 비롯되었다고 추적했다. 월드 모델은 체화된 에이전트, 다중 에이전트 시스템, 뇌의 신경과학 모델과 함께 일반 인공지능을 달성하기 위한 대형 언어 모델의 대안으로 여겨진다.[34] 콴타매거진은 월드 모델을 케네스 크레이크의 정신 모델에 대한 1943년 출판물과 1960년대 SHRDLU블록 세계로 더 거슬러 올라간다.[35]

월드 모델은 텍스트, 이미지, 오디오 및 비디오를 포함한 다양한 데이터 양식으로 훈련되며, 비디오 생성에 적용되었다.[36]

테크크런치는 월드 모델이 대형 언어 모델보다 더 많은 데이터를 사용할 수 있고, 훨씬 더 많은 연산 능력(훈련 및 추론을 위해 수천 개의 GPU 사용 포함)을 필요로 할 것이라고 언급했다.[33][36] 또한 환각, 범위 편향, 알고리즘 편향의 위험도 언급했다.[36] 마찬가지로 파이낸셜 타임스는 세계를 시뮬레이션하고 해당 데이터를 사용하도록 모델을 훈련하기 위한 데이터 수집의 어려움과 비용을 언급했다.[37]

테크크런치는 소라를 월드 모델의 예로 보았고,[36] 2025년 1월 엔비디아는 자체 월드 모델 세트를 출시했다.[38][39] 사우스 차이나 모닝 포스트Manycore Tech가 월드 모델을 구축하려는 또 다른 회사의 예이며, 그들의 작업을 공간 지능의 예로 보았다.[40] 2025년 5월, 무함마드 빈 자이드 인공지능 대학AI 에이전트를 테스트하기 위한 시뮬레이션을 구축하기 위한 월드 모델을 출시했다.[41]

구글 딥마인드는 또한 비디오 데이터로 훈련된 2차원3차원 월드 모델을 각각 출시했으며, 구글은 후자가 AI 에이전트의 훈련 환경이 될 수 있다고 주장했다.[42][43] 메타는 2025년 6월에 월드 모델을 출시했고,[44] 텐센트는 2025년 7월에 오픈 소스 월드 모델을 출시했으며,[45] 나이앤틱포켓몬 GO의 익명 데이터를 사용하여 월드 모델을 개발했다.[46] 2025년 현재 월드 모델을 구축할 계획인 다른 회사로는 바이트댄스[45]xAI[37]가 있다.

페이페이 리는 월드 모델이 로봇공학창작물에 적용된다고 본다. 이 모델들의 복잡성 때문에 그녀는 데이터 획득, 데이터 엔지니어링, 데이터 처리, 데이터 합성에서 더 복잡한 전략을 지지한다.[47] 그녀는 월드 모델 구축을 위한 스타트업을 공동 설립했으며, 2024년 현재 3단계로 진행할 계획이다. 첫째, 시간에 따른 3차원 공간 이해를 통합하는 것; 둘째, 증강 현실 지원; 셋째, 로봇공학 지원이다.[48]

월드 모델은 인터랙티브 미디어 및 환경 시뮬레이션에 사용될 예정이다. 창작 전문가들은 월드 모델이 자신들의 산업에서 일자리를 붕괴시킬 수 있다고 우려를 표명했다.[49] 와이어드는 월드 모델을 메타버스와 비교했고,[48] 비즈니스 인사이더는 가능한 군사적 응용을 언급했다.[47]

2025년에는 월드 모델이 드론전, 로봇공학, 자율주행차에 적용되고 있다. 월스트리트 저널은 월드 모델이 인공지능 모델의 공간 추론을 개선하고 블루 칼라화이트칼라 직업을 성공적으로 자동화할 수 있다고 추측했다.[50] 2025년 10월 현재, 연구는 텍스트-비디오 모델(특히 Veo 3)의 공간 추론 능력에 대해 엇갈린 결과를 보여주었다.[51]

Remove ads

기술적 세부사항

요약
관점

모델링

파운데이션 모델이 효과적으로 일반화되려면 훈련 데이터의 풍부한 표현을 습득해야 한다. 결과적으로, 대규모 데이터를 효율적으로 처리하는 표현력이 풍부한 모델 아키텍처가 파운데이션 모델 구축에 자주 선호된다.[15] 현재 트랜스포머 아키텍처는 다양한 양식에 걸쳐 파운데이션 모델을 구축하기 위한 사실상의 선택이다.[52]

훈련

파운데이션 모델은 훈련 목표를 최적화하여 구축된다. 훈련 목표는 훈련 데이터에 대한 모델 예측을 기반으로 모델 매개변수가 어떻게 업데이트되는지 결정하는 수학적 함수이다.[53] 언어 모델은 종종 시퀀스에서 다음 토큰을 예측하는 모델의 능력을 나타내는 다음 토큰 예측 목표로 훈련된다. 이미지 모델은 일반적으로 대조 학습 또는 확산 훈련 목표로 훈련된다. 대조 학습의 경우, 이미지는 무작위로 증강된 후 모델 표현의 결과 유사성을 평가한다. 확산 모델의 경우, 이미지는 노이즈가 추가되고 모델은 목표를 통해 점차적으로 노이즈를 제거하는 방법을 학습한다. 멀티모달 훈련 목표도 존재하며, 일부는 훈련 중에 이미지와 텍스트를 분리하고, 다른 일부는 동시에 검사한다.[54] 일반적으로 파운데이션 모델의 훈련 목표는 데이터의 광범위하게 유용한 표현 학습을 촉진한다.

파운데이션 모델의 부상과 이를 구동하는 더 큰 데이터셋과 함께 훈련 목표는 인터넷 규모의 데이터를 파싱하여 의미 있는 데이터 포인트를 추출할 수 있어야 한다. 또한 파운데이션 모델은 다양한 범위의 작업을 해결하도록 설계되었으므로 훈련 목표는 주어진 도메인 내에서 광범위한 다운스트림 기능을 해결할 수 있는 도메인 완전성을 가져야 한다. 마지막으로, 파운데이션 모델 훈련 목표는 잘 확장되고 계산적으로 효율적이어야 한다. 모델 크기와 연산 능력 모두 관련 제약 조건이므로 훈련 목표는 이러한 병목 현상을 극복할 수 있어야 한다.

데이터

파운데이션 모델은 "데이터가 많을수록 좋다"는 원칙 아래 대량의 데이터로 훈련된다.[55] 성능 평가는 데이터가 많을수록 일반적으로 성능이 향상됨을 보여주지만, 데이터 양이 증가함에 따라 다른 문제들이 발생한다. 데이터셋 관리, 새로운 응용 프로그램 전반의 데이터 통합, 데이터 라이선스 준수 보장, 데이터 품질 유지와 같은 작업은 데이터 크기가 커질수록 더욱 어려워진다. 파운데이션 모델의 특정 요구사항은 이러한 문제들을 더욱 악화시켰는데, 대규모 파운데이션 모델이 공개 웹 스크랩 데이터를 사용하는 것이 여전히 일반적이기 때문이다. 파운데이션 모델에는 검색 엔진 데이터와 SEO 메타 태그 데이터도 포함된다. 공개 웹 데이터는 풍부한 자원이지만, 파운데이션 모델 개발자가 훈련 파이프라인에 성공적으로 통합하기 전에 엄격한 조정과 데이터 처리를 요구한다.[56]

파운데이션 모델 훈련은 사용자 개인 정보 침해 위험을 안고 있다. 개인 데이터가 노출, 수집 또는 명시된 범위를 넘어 사용될 수 있기 때문이다. 개인 데이터가 유출되지 않더라도 모델은 결과 파운데이션 모델에서 학습된 행동을 통해 의도치 않게 보안을 손상시킬 수 있다.[57] 데이터 품질도 또 다른 중요한 문제이다. 웹 스크랩 데이터는 종종 편향되거나 중복되거나 유해한 자료를 포함하고 있기 때문이다. 파운데이션 모델이 배포된 후에도 소규모 데이터 하위 집합에서 원치 않는 행동이 여전히 나타날 수 있으므로 고품질 데이터 확보는 여전히 문제이다.

시스템

파운데이션 모델의 크기는 실행되는 컴퓨터 시스템에도 문제를 야기한다. 평균적인 파운데이션 모델은 단일 가속기 메모리 내에서 실행하기에는 너무 크며, 초기 훈련 과정은 엄청난 양의 자원을 필요로 한다.[58] 이러한 문제는 파운데이션 모델이 새로운 수준으로 성장함에 따라 미래에 더욱 악화될 것으로 예상된다. 이러한 제약으로 인해 연구자들은 강력한 모델 추론을 통해 모델 크기를 압축하는 방법을 연구하기 시작했다.

GPU는 높은 메모리 저장 공간과 강력한 전력으로 인해 기계 학습을 위한 가장 일반적인 계산 하드웨어 선택이다. 일반적인 파운데이션 모델 훈련은 많은 GPU를 필요로 하며, 이 모든 GPU는 빠른 상호 연결로 병렬로 연결된다. 필요한 계산 효율성을 가진 충분한 양의 GPU를 확보하는 것은 많은 파운데이션 모델 개발자에게 어려운 과제이며, 이 분야에서 점점 더 큰 딜레마로 이어졌다. 더 큰 모델은 더 많은 계산 능력을 필요로 하지만, 종종 개선된 계산 효율성을 희생해야 한다. 훈련은 여전히 시간이 많이 걸리고 비용이 많이 들기 때문에, 계산 능력과 계산 효율성 사이의 절충은 소수의 선택된 회사만이 크고 최첨단 파운데이션 모델의 생산 비용을 감당할 수 있게 만들었다. 압축 및 증류와 같은 일부 기술은 추론을 더 저렴하게 만들 수 있지만, 이러한 약점을 완전히 보완하지는 못한다.

확장

파운데이션 모델의 정확성과 능력은 종종 모델의 크기와 훈련 데이터의 양에 따라 예측 가능하게 확장된다. 특히, 리소스(데이터, 모델 크기, 계산 사용량)를 모델 능력과 연결하는 데이터 기반의 경험적 경향인 스케일링 법칙이 발견되었다. 특히, 모델의 규모는 계산, 데이터셋 크기, 매개변수 수에 의해 정의되며, 이 모든 것은 최종 성능과 함께 거듭제곱 법칙 관계를 나타낸다.

그러나 이 관계가 하나의 지수에서 다른 (다른) 지수를 가진 거듭제곱 법칙으로 (파괴점) 매끄럽게 전환되는 파괴된 신경 스케일링 법칙이 발견되었다. 파괴점 근처(또는 그 이후)의 점을 수집하지 않으면 정확한 외삽을 얻기 어려울 수 있다.

적응

파운데이션 모델은 본질적으로 다목적이다. 이 모델을 특정 사용 사례에 사용하려면 어떤 형태의 적응이 필요하다. 최소한 모델은 관심 작업을 수행하도록 적응되어야 하지만(작업 지정), 종종 관심 도메인에 더 광범위하게 적응함으로써 더 나은 성능을 얻을 수 있다(도메인 특화).

다양한 방법(예: 프롬프트, 인컨텍스트 학습, 파인 튜닝, LoRA)은 적응 비용과 모델이 특화되는 정도 사이에서 다양한 절충안을 제공한다. 파운데이션 모델을 적응할 때 고려해야 할 주요 측면은 계산 예산과 데이터 가용성이다. 파운데이션 모델은 수조 개의 매개변수에 달할 수 있는 매우 큰 크기일 수 있으므로, 파운데이션 모델 전체를 적응하는 것은 계산적으로 비용이 많이 들 수 있다. 따라서 개발자들은 시간과 공간을 절약하기 위해 마지막 신경 레이어 또는 편향 벡터만 적응하기도 한다.[59] 특히 틈새 시장 응용 프로그램의 경우, 파운데이션 모델을 충분히 적응할 수 있는 특정 데이터가 없을 수도 있다. 이러한 상황에서는 데이터를 수동으로 레이블링해야 하며, 이는 비용이 많이 들고 전문가 지식을 요구할 수 있다.

평가

평가는 파운데이션 모델 개발의 핵심 부분이다. 평가는 고성능 모델의 진행 상황을 추적할 뿐만 아니라 미래 모델 개발을 위한 벤치마크를 생성한다. 이해관계자들은 모델 동작을 이해하고 다양한 속성에 대한 통찰력을 얻기 위해 평가에 의존한다. 전통적으로 파운데이션 모델은 MMLU,[60] MMMU,[61] HumanEval,[62] 및 GSM8K와 같은 표준화된 작업 벤치마크를 통해 서로 비교하여 평가된다.[63] 파운데이션 모델이 다목적이라는 점을 고려할 때, 다양한 기본 벤치마크를 통합하는 메타 벤치마크가 점점 더 개발되고 있다. 예시로는 LM-Harness,[64] BIG-Bench,[65] HELM,[66] OpenLLM Leaderboard,[67] DecodingTrust,[68] 및 HEIM이 있다.[69]

파운데이션 모델의 유용성은 자체적인 일반적인 능력과 미세 조정된 응용 프로그램의 성능에 따라 달라지므로, 평가는 두 가지 측정 기준을 모두 다루어야 한다. 적절한 평가는 파운데이션 모델의 다운스트림 응용 프로그램을 집합적으로 검토하고 파운데이션 모델이 보유하는 직접적인 속성도 검토한다. 평가의 공정성을 더욱 보장하기 위해, 특정 기존 평가 프레임워크는 모든 적응 리소스를 고려하여 모든 이해관계자의 이익을 위해 더 정보에 입각한 분석을 가능하게 한다.[70]

Remove ads

공급망

요약
관점

파운데이션 모델의 일반적인 능력은 AI 생태계에서 고유한 역할을 수행하게 하며,[71] 이는 많은 업스트림 및 다운스트림 기술에 의해 촉진된다.[1] 파운데이션 모델을 훈련하는 데는 여러 자원(예: 데이터, 컴퓨팅, 노동력, 하드웨어, 코드)이 필요하며, 파운데이션 모델은 종종 엄청난 양의 데이터와 컴퓨팅(계산 능력이라고도 함)을 수반한다. 파운데이션 모델의 높은 개발 비용과 저렴한 적응 요구 사항으로 인해 AI 환경은 소수의 AI 회사들이 다운스트림 적응을 위한 파운데이션 모델을 만드는 방향으로 바뀌었다.[72] 따라서 대부분의 파운데이션 모델 회사들은 이 단계를 전문 데이터 제공업체(예: 스케일 AI,[73] 서지)[74] 및 컴퓨팅 제공업체(예: 아마존 웹 서비스, 구글 클라우드, 마이크로소프트 애저)에 아웃소싱한다.

Thumb
일부 AI 모델의 추정 훈련 비용 – 2024 AI 지수. 더 큰 AI 모델을 훈련하기 위한 컴퓨팅 능력 투자가 급격히 증가했다.[75]

그러면 파운데이션 모델 개발자는 데이터를 가져와 제공된 컴퓨팅을 사용하여 실제로 파운데이션 모델을 훈련한다. 파운데이션 모델이 완전히 구축되면 데이터 및 노동력 요구 사항이 대부분 사라진다. 이 개발 과정에서 하드웨어와 컴퓨팅이 가장 필수적이며 가장 독점적인 자원이다. 더 크고 복잡한 AI를 훈련하려면 충분한 양의 컴퓨팅이 핵심이다. 그러나 컴퓨팅은 소수의 특정 주체에 집중되어 있으며, 대부분의 파운데이션 모델 개발자는 이들에게 의존한다. 따라서 파운데이션 모델 파이프라인은 이러한 제공업체들을 중심으로 크게 집중되어 있다. 컴퓨팅은 또한 비용이 많이 든다. 2023년 AI 회사들은 총 자본의 80% 이상을 컴퓨팅 자원에 지출했다.[76]

파운데이션 모델은 그들의 능력을 강화하기 위해 많은 양의 일반 데이터가 필요하다. 초기 파운데이션 모델은 이러한 데이터 정보를 제공하기 위해 인터넷의 일부를 스크랩했다. 파운데이션 모델의 크기와 범위가 커짐에 따라 더 많은 양의 인터넷 스크랩이 필요해지며, 이는 편향되거나 유해한 데이터가 포함될 가능성을 높인다. 이러한 유해하거나 편향된 데이터는 소외된 집단에게 불균형적인 피해를 입히고 기존 편견을 악화시킬 수 있다.[77]

비지도 훈련에서 발생하는 저품질 데이터 문제를 해결하기 위해 일부 파운데이션 모델 개발자들은 수동 필터링으로 전환했다. 데이터 노동으로 알려진 이 관행은 자체적인 문제들을 동반한다.[78] 이러한 수동 데이터 해독 작업은 노동 비용을 줄이기 위해 종종 아웃소싱되며, 일부 작업자는 시간당 2달러 미만을 받기도 한다.[79]

파운데이션 모델은 개발자 또는 외부 기관을 통해 온라인으로 호스팅될 것이다. 일단 출시되면 다른 당사자들은 미세 조정을 통하거나 완전히 새로운 목적으로 파운데이션 모델을 기반으로 응용 프로그램을 만들 수 있다. 그러면 사람들은 다양한 목적을 위해 이러한 응용 프로그램에 액세스할 수 있게 되어, 하나의 파운데이션 모델이 광범위한 청중에게 힘을 실어주고 도달할 수 있게 된다.

Remove ads

출시 전략

파운데이션 모델이 구축된 후에는 여러 가지 방법으로 출시될 수 있다. 출시에는 자산 자체, 액세스 권한, 시간에 따른 액세스 변경, 사용 조건 등 여러 측면이 있다.[80] 이 모든 요소는 파운데이션 모델이 다운스트림 응용 프로그램에 어떻게 영향을 미칠지에 기여한다.[81] 특히 파운데이션 모델 출시의 가장 일반적인 두 가지 형태는 API를 통한 출시와 직접 모델 다운로드이다.

모델이 API를 통해 출시되면 사용자는 모델에 쿼리하고 응답을 받을 수 있지만, 모델 자체에 직접 액세스할 수는 없다. 비교적으로, 모델은 사용자가 액세스하고 수정할 수 있도록 직접 다운로드 가능할 수 있다. 두 가지 출시 전략 모두 종종 개방형 출시로 분류된다. 개방형 출시의 정확한 정의는 논란이 있지만, 널리 받아들여지는 요구사항은 오픈 소스 이니셔티브에서 제공된다.

일부 개방형 파운데이션 모델은 PaLM 2, Llama 2, Granite, 그리고 Mistral이다. 개방형 파운데이션 모델은 연구 개발을 더 쉽게 진행할 수 있지만, 오용에 더 취약하다. 개방형 파운데이션 모델은 누구나 다운로드할 수 있으며, 특히 강력한 모델은 의도적으로 또는 의도치 않게 해를 끼치도록 미세 조정될 수 있다.

폐쇄형 출시 중에는 파운데이션 모델이 대중에게 공개되지 않고 조직 내부에서만 사용된다. 이러한 출시는 더 안전하다고 간주되지만, 연구 커뮤니티나 일반 대중에게 추가적인 가치를 제공하지는 않는다.

구글 딥마인드의 Flamingo[82]와 같은 일부 파운데이션 모델은 완전히 폐쇄되어 모델 개발자만 사용할 수 있다. 오픈AIGPT-4와 같은 다른 모델은 접근이 제한되어 대중에게 공개되지만 블랙박스 형태로만 가능하다. 또 다른 모델인 메타의 Llama 2는 개방형으로, 광범위하게 사용 가능한 모델 가중치를 통해 다운스트림 수정 및 조사가 가능하다.

Remove ads

같이 보기

각주

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads