상위 질문
타임라인
채팅
관점

드림부스

위키백과, 무료 백과사전

드림부스
Remove ads

드림부스(DreamBooth)는 미세 조정을 통해 기존 텍스트-이미지 모델개인화하는 데 사용되는 딥 러닝 생성 모델이다. 2022년에 구글 리서치와 보스턴 대학교의 연구원들이 개발했다. 원래 구글의 자체 이마젠 텍스트-이미지 모델을 사용하여 개발되었지만, 드림부스 구현은 다른 텍스트-이미지 모델에 적용될 수 있으며, 이 모델은 주제의 3~5개 이미지로 훈련한 후 모델이 더 미세 조정되고 개인화된 출력을 생성할 수 있도록 한다.[1][2][3]

Thumb
위키미디어 공용지미 웨일스 카테고리에서 얻은 학습 데이터를 사용하여 스테이블 디퓨전 v1.5 확산 모델을 미세 조정하기 위해 드림부스를 사용하는 시연. 여기에는 위키백과의 공동 창립자인 지미 웨일스가 피트니스 체육관에서 벤치 프레스 운동을 하는 모습이 알고리즘으로 생성된 이미지로 묘사되어 있다.
Remove ads

기술

사전 훈련된 텍스트-이미지 확산 모델은 종종 다양한 이미지 출력 유형을 제공할 수 있지만, 덜 알려진 주제의 이미지를 생성하는 데 필요한 특이성이 부족하고 알려진 주제를 다른 상황 및 맥락에서 렌더링하는 능력에 제한이 있다.[1] 드림부스 구현을 실행하는 데 사용되는 방법론은 특정 주제를 묘사하는 몇 장의 이미지(보통 3~5장)를 사용하여 확산 모델의 전체 UNet 구성 요소를 미세 조정하는 것을 포함한다. 이미지는 주제가 속한 클래스 이름과 고유 식별자를 포함하는 텍스트 프롬프트와 쌍을 이룬다. 예를 들어, `a photograph of a [Nissan R34 GTR] car`(여기서 `car`는 클래스)와 같이 사용되며, 클래스별 사전 보존 손실이 적용되어 모델이 원래 클래스에 대해 이미 훈련된 내용을 기반으로 주제의 다양한 인스턴스를 생성하도록 장려한다.[1] 입력 이미지 세트에서 가져온 저해상도 및 고해상도 이미지 쌍은 초해상도 구성 요소를 미세 조정하는 데 사용되어 주제의 미세한 세부 사항을 유지할 수 있게 한다.[1]

Remove ads

사용

드림부스는 스테이블 디퓨전과 같은 모델을 미세 조정하는 데 사용될 수 있으며, 이는 특정 개인의 이미지를 적절하게 생성할 수 없는 스테이블 디퓨전의 일반적인 단점을 완화할 수 있다.[4] 그러나 이러한 사용 사례는 VRAM 집약적이며, 따라서 취미 사용자에게는 비용이 많이 든다.[4] 특히 드림부스의 스테이블 디퓨전 적응은 2022년 루이즈 등이 발표한 원본 논문에 설명된 기술을 기반으로 자유 및 오픈 소스 프로젝트로 출시되었다.[5] 악의적인 행위자가 드림부스를 사용하여 악의적인 목적으로 오해의 소지가 있는 이미지를 생성할 수 있다는 우려가 제기되었으며, 그 오픈 소스 특성으로 인해 누구나 이 기술을 활용하거나 개선할 수 있다.[6] 또한 예술가들은 드림부스를 사용하여 인간 예술가와 관련된 특정 예술 스타일을 모방하는 것을 목표로 하는 모델 체크포인트를 훈련하는 윤리에 대한 우려를 표명했다. 그러한 비평가 중 한 명은 디즈니펭귄 랜덤 하우스의 일러스트레이터인 홀리 멩거트로, 그녀의 동의 없이 그녀의 예술 스타일이 드림부스를 통해 체크포인트 모델로 훈련되어 온라인에 공유되었다.[7][8]

Remove ads

각주

외부 링크

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads