상위 질문
타임라인
채팅
관점
이마젠
위키백과, 무료 백과사전
Remove ads
이마젠(Imagen)은 구글 딥마인드가 개발한 텍스트-이미지 모델 시리즈이다. 2023년 4월 딥마인드와 합병되기 전까지는 구글 브레인이 개발했다.[1] 이매진은 주로 Stability AI의 스테이블 디퓨전, 오픈AI의 DALL-E, 또는 Midjourney와 유사하게 텍스트 프롬프트에서 이미지를 생성하는 데 사용된다.
이 모델의 오리지널 버전은 2022년 5월 논문에서 처음 논의되었다.[2] 이 도구는 고품질 이미지를 생성하며 제미나이, ImageFX, Vertex AI를 포함한 서비스를 통해 구글 계정을 가진 모든 사용자가 이용할 수 있다.[3]
Remove ads
역사
이매진의 오리지널 버전은 2022년 5월에 출판된 논문에서 처음 소개되었다. 이 모델은 자연어에서 높은 충실도의 이미지를 생성하는 기능을 특징으로 했다.[2] 두 번째 버전인 이매진 2는 2023년 12월에 출시되었다.[4] 주요 특징은 텍스트 및 로고 생성 기능이었다.[5] 이매진 3는 2024년 8월에 출시되었다.[6] 구글은 최신 버전이 생성된 이미지에서 더 나은 디테일과 조명을 제공한다고 주장했다.[7] 2025년 5월 20일 구글 I/O 2025에서 회사는 개선된 모델인 이매진 4를 발표했다.[8]
기술
이매진은 두 가지 핵심 기술을 사용한다. 첫 번째는 텍스트를 이해하고 이미지 합성을 위해 텍스트를 인코딩하는 데 트랜스포머 기반 대형 언어 모델(T5가 대표적)을 사용하는 것이다. 두 번째는 높은 충실도의 이미지 생성을 제공하는 캐스케이드 디퓨전 모델을 사용하는 것이다. 이미지는 64x64 기본에서 시작하여 256x256 및 1024x1024로 업샘플링되는 세 단계를 거쳐 생성된다.[2]
기능
이매진은 텍스트 프롬프트에서 실사와 같은 이미지를 생성할 수 있다.[3] 또한 시네마틱, 35mm 필름, 일러스트레이션, 초현실주의 등 다양한 스타일을 만들 수 있다. 이 모델은 9:16, 3:4, 1:1, 4:3, 16:9의 다섯 가지 종횡비로 이미지를 생성할 수 있다. 이매진은 기존 텍스트 프롬프트를 편집하여 이미 생성된 이미지를 개선할 수도 있다.[7]
같이 보기
각주
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads