멀티모달 학습

멀티모달 학습( - 學習, 영어: multimodal learning)은 텍스트, 오디오, 이미지, 비디오와 같이 모달리티라고 불리는 여러 유형의 데이터를 통합하고 처리하는 딥 러닝의 한 유형이다. 이러한 통합은 복잡한 데이터에 대한 더 총체적인 이해를 가능하게 하여 시각 질문 응답, 교차 모달 검색,^[1] 텍스트-이미지 생성,^[2] 미적 순위 지정,^[3] 이미지 캡셔닝^[4]과 같은 작업에서 모델 성능을 향상시킨다.

구글 제미나이 및 GPT-4o와 같은 대규모 멀티모달 모델은 2023년 이후 점점 더 인기를 얻고 있으며, 다양한 활용성과 실제 현상에 대한 폭넓은 이해를 가능하게 한다.^[5]

동기

데이터는 일반적으로 서로 다른 정보를 담고 있는 다양한 모달리티와 함께 제공된다. 예를 들어, 이미지 자체에 표현되지 않은 정보를 전달하기 위해 이미지에 캡션을 추가하는 것은 매우 일반적이다. 마찬가지로, 텍스트로는 분명하지 않을 수 있는 정보를 설명하기 위해 이미지를 사용하는 것이 더 간단한 경우도 있다. 결과적으로, 유사한 이미지에 다른 단어가 나타나면 이 단어들은 같은 것을 묘사할 가능성이 높다. 반대로, 단어가 겉으로는 비슷하지 않은 이미지를 묘사하는 데 사용되면 이 이미지들은 같은 객체를 나타낼 수 있다. 따라서 다중 모달 데이터를 다루는 경우, 모델이 다른 모달리티의 결합된 정보를 포착할 수 있도록 정보를 공동으로 나타낼 수 있는 모델을 사용하는 것이 중요하다.

멀티모달 트랜스포머

트랜스포머는 텍스트를 넘어선 모달리티(입력 또는 출력)에도 사용/적용될 수 있으며, 일반적으로 모달리티를 "토큰화"하는 방법을 찾는 방식으로 이루어진다.

멀티모달 모델은 처음부터 훈련되거나 미세 조정을 통해 훈련될 수 있다. 2022년 연구에서는 자연어만으로 사전 훈련된 트랜스포머를 매개변수의 0.03%만으로 미세 조정하여 다양한 논리 및 시각 작업에서 LSTM과 경쟁할 수 있음을 발견하여 전이학습을 입증했다.^[6] LLaVA는 언어 모델(Vicuna-13B)^[7]과 비전 모델(ViT-L/14)로 구성된 시각-언어 모델이며, 선형 계층으로 연결된다. 선형 계층만 미세 조정된다.^[8]

비전 트랜스포머^[9]는 입력 이미지를 일련의 패치로 분해하고, 이를 벡터로 변환하여 표준 트랜스포머의 토큰처럼 처리함으로써 트랜스포머를 컴퓨터 비전에 적용한다.

컨포머(Conformer)^[10]와 이후의 휘스퍼^[11]는 음성 인식에 대해 동일한 패턴을 따르며, 먼저 음성 신호를 스펙트로그램으로 변환한 다음, 이를 이미지처럼 처리한다. 즉, 일련의 패치로 분해하고 벡터로 변환하여 표준 트랜스포머의 토큰처럼 처리한다.

퍼시버^[12]^[13]는 멀티모달리티를 위해 설계된 트랜스포머의 변형이다.

이미지 생성을 위한 주목할 만한 아키텍처로는 DALL-E 1 (2021), Parti (2022),^[14] Phenaki (2023),^[15] 및 Muse (2023)가 있다.^[16] 이후 모델과 달리 DALL-E는 확산 모델이 아니다. 대신, 자기회귀적으로 텍스트를 생성한 다음 이미지의 토큰 표현으로 변환하고, 이를 변분 오토인코더로 이미지로 변환하는 디코더-온리 트랜스포머를 사용한다.^[17] Parti는 인코더-디코더 트랜스포머로, 인코더는 텍스트 프롬프트를 처리하고 디코더는 이미지의 토큰 표현을 생성한다.^[18] Muse는 마스킹되지 않은 이미지 토큰으로부터 마스킹된 이미지 토큰을 예측하도록 훈련된 인코더-온리 트랜스포머이다. 생성 중에 모든 입력 토큰은 마스킹되며, 가장 높은 신뢰도의 예측은 다음 반복에 포함되어 모든 토큰이 예측될 때까지 계속된다.^[16] Phenaki는 텍스트-비디오 모델이다. 이는 사전 계산된 텍스트 토큰을 조건으로 하는 양방향 마스크드 트랜스포머이다. 생성된 토큰은 비디오로 디코딩된다.^[15]

Remove ads

멀티모달 딥 볼츠만 머신

볼츠만 머신은 1985년 제프리 힌턴과 테리 세즈노프스키가 발명한 확률적 신경망의 일종이다. 볼츠만 머신은 홉필드 네트워크의 확률적, 생성적 대응물로 볼 수 있다. 이들은 통계 역학의 볼츠만 분포의 이름을 따서 명명되었다. 볼츠만 머신의 단위는 가시 단위와 숨겨진 단위의 두 그룹으로 나뉜다. 각 단위는 활성화되었는지 여부를 나타내는 이진 출력을 가진 뉴런과 같다.^[19] 일반 볼츠만 머신은 모든 단위 간의 연결을 허용한다. 그러나 일반 볼츠만 머신을 사용하여 학습하는 것은 머신의 크기에 비례하여 계산 시간이 기하급수적으로 증가하기 때문에 비실용적이다. 다음 섹션에서 설명할 더 효율적인 아키텍처는 제한된 볼츠만 머신이라고 불리며, 여기서는 숨겨진 단위와 가시 단위 사이에서만 연결이 허용된다.

멀티모달 딥 볼츠만 머신은 이미지 및 텍스트와 같은 다양한 유형의 정보를 동시에 처리하고 학습할 수 있다. 이는 각 모달리티(예: 이미지용 하나, 텍스트용 하나)에 대해 별도의 딥 볼츠만 머신을 추가 최상위 숨겨진 계층에서 연결함으로써 특히 가능하다.^[20]

응용 분야

멀티모달 기계 학습은 다양한 영역에서 수많은 응용 분야를 가지고 있다:

교차 모달 검색: 교차 모달 검색은 사용자가 다른 모달리티(예: 텍스트 설명을 기반으로 이미지 검색)에서 데이터를 검색할 수 있도록 하여 멀티미디어 검색 엔진 및 콘텐츠 추천 시스템을 개선한다. CLIP과 같은 모델은 데이터를 공유 공간에 임베딩하여 효율적이고 정확한 검색을 용이하게 하며, 제로샷 설정에서도 강력한 성능을 보여준다.^[21]
분류 및 누락 데이터 검색: 멀티모달 딥 볼츠만 머신은 서포트 벡터 머신 및 잠재 디리클레 할당과 같은 전통적인 모델보다 분류 작업에서 뛰어난 성능을 보이며, 이미지 및 텍스트와 같은 멀티모달 데이터 세트에서 누락된 데이터를 예측할 수 있다.
헬스케어 진단: 멀티모달 모델은 의료 영상, 유전체 데이터 및 환자 기록을 통합하여 진단 정확도와 조기 질병 감지, 특히 암 검진을 개선한다.^[22]^[23]^[24]
콘텐츠 생성: DALL-E와 같은 모델은 텍스트 설명을 기반으로 이미지를 생성하여 창작 산업에 이점을 제공하며, 교차 모달 검색은 동적 멀티미디어 검색을 가능하게 한다.^[25]
로봇공학 및 인간-컴퓨터 상호 작용: 멀티모달 학습은 음성, 시각, 촉각과 같은 감각 입력을 통합하여 로봇공학과 AI의 상호 작용을 개선하고, 자율 시스템 및 인간-컴퓨터 상호 작용에 도움을 준다.
감정 인식: 시각, 오디오, 텍스트 데이터를 결합하여 멀티모달 시스템은 감정 분석 및 감정 인식을 향상시키며, 고객 서비스, 소셜 미디어 및 마케팅에 적용된다.

Remove ads

같이 보기

각주

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads