상위 질문
타임라인
채팅
관점

멀티모덜 학습

위키백과, 무료 백과사전

멀티모덜 학습
Remove ads

멀티모덜 학습( - 學習, 영어: multimodal learning)은 텍스트, 오디오, 이미지, 비디오와 같이 모덜리티라고 불리는 여러 유형의 데이터를 통합하고 처리하는 딥 러닝의 한 유형이다. 이러한 통합은 복잡한 데이터에 대한 더 총체적인 이해를 가능하게 하여 시각 질문 응답, 교차 모덜 검색,[1] 텍스트-이미지 생성,[2] 미적 순위 지정,[3] 이미지 캡셔닝[4]과 같은 작업에서 모델 성능을 향상시킨다.

구글 제미나이GPT-4o와 같은 대규모 멀티모덜 모델은 2023년 이후 점점 더 인기를 얻고 있으며, 다양한 활용성과 실제 현상에 대한 폭넓은 이해를 가능하게 한다.[5]

동기

데이터는 일반적으로 서로 다른 정보를 담고 있는 다양한 모덜리티와 함께 제공된다. 예를 들어, 이미지 자체에 표현되지 않은 정보를 전달하기 위해 이미지에 캡션을 추가하는 것은 매우 일반적이다. 마찬가지로, 텍스트로는 분명하지 않을 수 있는 정보를 설명하기 위해 이미지를 사용하는 것이 더 간단한 경우도 있다. 결과적으로, 유사한 이미지에 다른 단어가 나타나면 이 단어들은 같은 것을 묘사할 가능성이 높다. 반대로, 단어가 겉으로는 비슷하지 않은 이미지를 묘사하는 데 사용되면 이 이미지들은 같은 객체를 나타낼 수 있다. 따라서 다중 모덜 데이터를 다루는 경우, 모델이 다른 모덜리티의 결합된 정보를 포착할 수 있도록 정보를 공동으로 나타낼 수 있는 모델을 사용하는 것이 중요하다.

멀티모덜 트랜스포머

트랜스포머는 텍스트를 넘어선 모달리티(입력 또는 출력)에도 사용/적용될 수 있으며, 일반적으로 모달리티를 "토큰화"하는 방법을 찾는 방식으로 이루어진다.

멀티모달 모델은 처음부터 훈련되거나 미세 조정을 통해 훈련될 수 있다. 2022년 연구에서는 자연어만으로 사전 훈련된 트랜스포머를 매개변수의 0.03%만으로 미세 조정하여 다양한 논리 및 시각 작업에서 LSTM과 경쟁할 수 있음을 발견하여 전이학습을 입증했다.[6] LLaVA는 언어 모델(Vicuna-13B)[7]과 비전 모델(ViT-L/14)로 구성된 시각-언어 모델이며, 선형 계층으로 연결된다. 선형 계층만 미세 조정된다.[8]

비전 트랜스포머[9]는 입력 이미지를 일련의 패치로 분해하고, 이를 벡터로 변환하여 표준 트랜스포머의 토큰처럼 처리함으로써 트랜스포머를 컴퓨터 비전에 적용한다.

컨포머(Conformer)[10]와 이후의 Whisper[11]음성 인식에 대해 동일한 패턴을 따르며, 먼저 음성 신호를 스펙트로그램으로 변환한 다음, 이를 이미지처럼 처리한다. 즉, 일련의 패치로 분해하고 벡터로 변환하여 표준 트랜스포머의 토큰처럼 처리한다.

퍼시버[12][13]는 멀티모달리티를 위해 설계된 트랜스포머의 변형이다.

이미지 생성을 위한 주목할 만한 아키텍처로는 DALL-E 1 (2021), Parti (2022),[14] Phenaki (2023),[15] 및 Muse (2023)가 있다.[16] 이후 모델과 달리 DALL-E는 확산 모델이 아니다. 대신, 자기회귀적으로 텍스트를 생성한 다음 이미지의 토큰 표현으로 변환하고, 이를 변분 오토인코더로 이미지로 변환하는 디코더-온리 트랜스포머를 사용한다.[17] Parti는 인코더-디코더 트랜스포머로, 인코더는 텍스트 프롬프트를 처리하고 디코더는 이미지의 토큰 표현을 생성한다.[18] Muse는 마스킹되지 않은 이미지 토큰으로부터 마스킹된 이미지 토큰을 예측하도록 훈련된 인코더-온리 트랜스포머이다. 생성 중에 모든 입력 토큰은 마스킹되며, 가장 높은 신뢰도의 예측은 다음 반복에 포함되어 모든 토큰이 예측될 때까지 계속된다.[16] Phenaki는 텍스트-비디오 모델이다. 이는 사전 계산된 텍스트 토큰을 조건으로 하는 양방향 마스크드 트랜스포머이다. 생성된 토큰은 비디오로 디코딩된다.[15]


Remove ads

멀티모덜 딥 볼츠만 머신

볼츠만 머신은 1985년 제프리 힌턴테리 세즈노프스키가 발명한 확률적 신경망의 일종이다. 볼츠만 머신은 홉필드 네트워크확률적, 생성적 대응물로 볼 수 있다. 이들은 통계 역학의 볼츠만 분포의 이름을 따서 명명되었다. 볼츠만 머신의 단위는 가시 단위와 숨겨진 단위의 두 그룹으로 나뉜다. 각 단위는 활성화되었는지 여부를 나타내는 이진 출력을 가진 뉴런과 같다.[19] 일반 볼츠만 머신은 모든 단위 간의 연결을 허용한다. 그러나 일반 볼츠만 머신을 사용하여 학습하는 것은 머신의 크기에 비례하여 계산 시간이 기하급수적으로 증가하기 때문에 비실용적이다. 다음 섹션에서 설명할 더 효율적인 아키텍처는 제한된 볼츠만 머신이라고 불리며, 여기서는 숨겨진 단위와 가시 단위 사이에서만 연결이 허용된다.

멀티모덜 딥 볼츠만 머신은 이미지 및 텍스트와 같은 다양한 유형의 정보를 동시에 처리하고 학습할 수 있다. 이는 각 모덜리티(예: 이미지용 하나, 텍스트용 하나)에 대해 별도의 딥 볼츠만 머신을 추가 최상위 숨겨진 계층에서 연결함으로써 특히 가능하다.[20]

응용 분야

멀티모덜 기계 학습은 다양한 영역에서 수많은 응용 분야를 가지고 있다:

  • 교차 모덜 검색: 교차 모덜 검색은 사용자가 다른 모덜리티(예: 텍스트 설명을 기반으로 이미지 검색)에서 데이터를 검색할 수 있도록 하여 멀티미디어 검색 엔진 및 콘텐츠 추천 시스템을 개선한다. CLIP과 같은 모델은 데이터를 공유 공간에 임베딩하여 효율적이고 정확한 검색을 용이하게 하며, 제로샷 설정에서도 강력한 성능을 보여준다.[21]
  • 분류 및 누락 데이터 검색: 멀티모덜 딥 볼츠만 머신은 서포트 벡터 머신잠재 디리클레 할당과 같은 전통적인 모델보다 분류 작업에서 뛰어난 성능을 보이며, 이미지 및 텍스트와 같은 멀티모덜 데이터 세트에서 누락된 데이터를 예측할 수 있다.
  • 헬스케어 진단: 멀티모덜 모델은 의료 영상, 유전체 데이터 및 환자 기록을 통합하여 진단 정확도와 조기 질병 감지, 특히 암 검진을 개선한다.[22][23][24]
  • 콘텐츠 생성: DALL-E와 같은 모델은 텍스트 설명을 기반으로 이미지를 생성하여 창작 산업에 이점을 제공하며, 교차 모덜 검색은 동적 멀티미디어 검색을 가능하게 한다.[25]
  • 로봇공학 및 인간-컴퓨터 상호 작용: 멀티모덜 학습은 음성, 시각, 촉각과 같은 감각 입력을 통합하여 로봇공학과 AI의 상호 작용을 개선하고, 자율 시스템 및 인간-컴퓨터 상호 작용에 도움을 준다.
  • 감정 인식: 시각, 오디오, 텍스트 데이터를 결합하여 멀티모덜 시스템은 감정 분석감정 인식을 향상시키며, 고객 서비스, 소셜 미디어 및 마케팅에 적용된다.
Remove ads

같이 보기

각주

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads