상위 질문
타임라인
채팅
관점
드림부스
위키백과, 무료 백과사전
Remove ads
드림부스(DreamBooth)는 미세 조정을 통해 기존 텍스트-이미지 모델을 개인화하는 데 사용되는 딥 러닝 생성 모델이다. 2022년에 구글 리서치와 보스턴 대학교의 연구원들이 개발했다. 원래 구글의 자체 이마젠 텍스트-이미지 모델을 사용하여 개발되었지만, 드림부스 구현은 다른 텍스트-이미지 모델에 적용될 수 있으며, 이 모델은 주제의 3~5개 이미지로 훈련한 후 모델이 더 미세 조정되고 개인화된 출력을 생성할 수 있도록 한다.[1][2][3]

Remove ads
기술
사전 훈련된 텍스트-이미지 확산 모델은 종종 다양한 이미지 출력 유형을 제공할 수 있지만, 덜 알려진 주제의 이미지를 생성하는 데 필요한 특이성이 부족하고 알려진 주제를 다른 상황 및 맥락에서 렌더링하는 능력에 제한이 있다.[1] 드림부스 구현을 실행하는 데 사용되는 방법론은 특정 주제를 묘사하는 몇 장의 이미지(보통 3~5장)를 사용하여 확산 모델의 전체 UNet 구성 요소를 미세 조정하는 것을 포함한다. 이미지는 주제가 속한 클래스 이름과 고유 식별자를 포함하는 텍스트 프롬프트와 쌍을 이룬다. 예를 들어, `a photograph of a [Nissan R34 GTR] car`(여기서 `car`는 클래스)와 같이 사용되며, 클래스별 사전 보존 손실이 적용되어 모델이 원래 클래스에 대해 이미 훈련된 내용을 기반으로 주제의 다양한 인스턴스를 생성하도록 장려한다.[1] 입력 이미지 세트에서 가져온 저해상도 및 고해상도 이미지 쌍은 초해상도 구성 요소를 미세 조정하는 데 사용되어 주제의 미세한 세부 사항을 유지할 수 있게 한다.[1]
Remove ads
사용
드림부스는 스테이블 디퓨전과 같은 모델을 미세 조정하는 데 사용될 수 있으며, 이는 특정 개인의 이미지를 적절하게 생성할 수 없는 스테이블 디퓨전의 일반적인 단점을 완화할 수 있다.[4] 그러나 이러한 사용 사례는 VRAM 집약적이며, 따라서 취미 사용자에게는 비용이 많이 든다.[4] 특히 드림부스의 스테이블 디퓨전 적응은 2022년 루이즈 등이 발표한 원본 논문에 설명된 기술을 기반으로 자유 및 오픈 소스 프로젝트로 출시되었다.[5] 악의적인 행위자가 드림부스를 사용하여 악의적인 목적으로 오해의 소지가 있는 이미지를 생성할 수 있다는 우려가 제기되었으며, 그 오픈 소스 특성으로 인해 누구나 이 기술을 활용하거나 개선할 수 있다.[6] 또한 예술가들은 드림부스를 사용하여 인간 예술가와 관련된 특정 예술 스타일을 모방하는 것을 목표로 하는 모델 체크포인트를 훈련하는 윤리에 대한 우려를 표명했다. 그러한 비평가 중 한 명은 디즈니와 펭귄 랜덤 하우스의 일러스트레이터인 홀리 멩거트로, 그녀의 동의 없이 그녀의 예술 스타일이 드림부스를 통해 체크포인트 모델로 훈련되어 온라인에 공유되었다.[7][8]
Remove ads
각주
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads
