상위 질문
타임라인
채팅
관점

플럭스 (텍스트-이미지 모델)

위키백과, 무료 백과사전

플럭스 (텍스트-이미지 모델)
Remove ads

플럭스(Flux, FLUX.1으로도 알려짐)는 독일 프라이부르크임브라이스가우에 본사를 둔 Black Forest Labs (BFL)가 개발한 텍스트-이미지 모델이다. Black Forest Labs는 스태빌리티 AI의 전 직원들이 설립했다. 다른 텍스트-이미지 모델과 마찬가지로, 플럭스는 생성형 이미지프롬프트라고 불리는 자연어 설명에서 생성한다.

간략 정보 원저자, 개발자 ...
Remove ads

역사

요약
관점

Black Forest Labs (BFL)는 스태빌리티 AI의 전 직원인 로빈 롬바흐, 안드레아스 블라트만, 패트릭 에서가 2024년에 설립했다.[2][3] 세 명의 창립자 모두 이전에 뮌헨 대학교에서 비외른 옴머의 연구 조교로 인공지능 이미지 생성에 대한 연구를 수행했다.[4][5][6] 이들은 2022년에 이미지 생성에 대한 연구 결과를 발표했고, 이 연구는 스테이블 디퓨전을 탄생시켰다.[6][7] BFL의 투자자로는 벤처 캐피탈 회사인 앤드리슨 호로위츠, 브렌던 이리베, 마이클 오비츠, 개리 탄, 그리고 블라드렌 콜툰이 포함되었다.[8] 이 회사는 초기 투자금으로 US$31 만 달러를 받았다.[9][10]

2024년 8월, 플럭스는 xAI가 개발한 그록 챗봇에 통합되었고, X (이전 트위터)의 프리미엄 기능의 일부로 제공되었다.[11][12][13][14] 그록은 나중에 2024년 12월에 자체 텍스트-이미지 모델인 오로라로 전환했다.[15]

2024년 11월 18일, 미스트랄 AI는 Le Chat 챗봇에 플럭스 프로가 이미지 생성 모델로 통합되었다고 발표했다.[16][17]

2024년 11월 21일, BFL은 기존 플럭스 모델 위에 사용하도록 설계된 편집 도구 모음인 플럭스.1 도구를 출시한다고 발표했다. 이 도구는 inpainting 및 outpainting을 위한 플럭스.1 필(Flux.1 Fill), 입력 이미지 및 프롬프트의 추출된 깊이 지도를 기반으로 하는 제어를 위한 플럭스.1 뎁스(Flux.1 Depth), 입력 이미지 및 프롬프트의 추출된 캐니 윤곽선을 기반으로 하는 제어를 위한 플럭스.1 캐니(Flux.1 Canny), 기존 입력 이미지 및 프롬프트 혼합을 위한 플럭스.1 리덕스(Flux.1 Redux)로 구성된다. 각 도구는 프로(Pro) 및 개발(Dev) 모델 모두에서 사용할 수 있다.[18][19]

2025년 1월, BFL은 엔비디아블랙웰 마이크로아키텍처의 파운데이션 모델로 플럭스 모델을 포함하기 위한 엔비디아와의 파트너십을 발표했다.[20] 또한 이 회사는 플럭스 생성 이미지의 맞춤화 및 파인 튜닝을 위해 설계된 Flux Pro Finetuning API의 출시와 콘텐츠 제작의 일부로 플럭스 프로(Flux Pro)를 사용하기 위한 독일 미디어 회사 Hubert Burda Media와의 파트너십을 발표했다.[21]

2025년 5월 29일, BFL은 텍스트와 이미지 모두를 사용하여 프롬프트를 입력할 수 있도록 하여 문맥 내 이미지 생성 및 편집을 가능하게 하는 모델 모음인 플럭스.1 콘텍스트(Flux.1 Kontext)를 발표했다.[22][23] 이와 함께 플럭스 모델을 테스트하기 위한 인터페이스인 BFL 플레이그라운드(BFL Playground)도 출시되었다.[22][23]

2025년 7월 31일, BFL은 Krea AI와 협력하여 개발한 모델인 플럭스.1 크레아 개발(Flux.1 Krea Dev)을 발표했다. 이 모델은 기존 텍스트-이미지 모델에 비해 더 나은 성능, 더 다양한 미학, 더 나은 사실감을 달성하도록 훈련되었다.[24]

Remove ads

모델

Thumb
Thumb
플럭스.1 콘텍스트 프로(Flux.1 Kontext Pro)의 기존 이미지 수정 능력 시연
  • 왼쪽: AnimagineXL 4.0 (스테이블 디퓨전 XL 기반의 텍스트-이미지 모델)으로 생성되고 크리타로 후처리된 원본 이미지
  • 오른쪽: 플럭스.1 콘텍스트 프로로 수정된 이미지. 변경 사항: 여우 귀(kemonomimi) 추가, 왼팔 위치, 머리, 눈, 헤드폰, 재킷, 셔츠, 바지, 배경 색상

플럭스는 텍스트-이미지 모델 시리즈이다. 이 모델들은 120억 로 확장된 정류 흐름 트랜스포머 블록을 기반으로 한다.[8][25] 플럭스.1 모델은 다른 라이선스로 출시되었는데, Schnell(독일어로 빠르거나 신속하다는 뜻)은 아파치 라이선스 하의 오픈 소스 소프트웨어로, Dev는 비상업적 라이선스 하의 소스 입수 가능 소프트웨어로 (사용자는 BFL에서 Dev에 대한 자체 상업 라이선스를 얻을 수 있음), Pro는 사유 소프트웨어로 출시되었으며, 타사 사용자가 라이선스를 받을 수 있는 API로만 제공된다.[26][27] 사용자는 사용된 모델과 관계없이 생성된 출력물에 대한 소유권을 유지했다.[28][29]

이 모델들은 ComfyUI 및 Stable Diffusion WebUI Forge (Automatic1111 WebUI의 포크)와 같은 생성형 인공지능 사용자 인터페이스를 사용하여 온라인 또는 로컬에서 사용할 수 있다.[8][30]

향상된 주력 모델인 플럭스 1.1 프로(Flux 1.1 Pro)는 2024년 10월 2일에 출시되었다.[31][32] 11월 6일에는 두 가지 추가 모드가 추가되었는데, 제어 속도에 영향을 미치지 않으면서 4배 더 높은 해상도와 최대 4메가픽셀의 이미지를 생성할 수 있는 울트라(Ultra)와 스냅샷 스타일의 초현실적인 이미지를 생성할 수 있는 로(Raw) 모드이다.[33][34][35]

플럭스.1 콘텍스트는 문맥 내 이미지 생성 및 편집 기능을 갖춘 시리즈이다. 프로(Pro), 맥스(Max), 개발(Dev) 모델로 제공된다. 프로는 최고 품질 모델로, 프롬프트를 사용하여 기존 이미지를 반복적으로 수정할 수 있으며, 맥스는 생성 속도에 최적화되어 있다.[22] 개발은 플럭스.1 개발과 동일하게 비상업적 라이선스 하에 공개된 개방형 가중치 모델이다.[36]

플럭스와 관련된 텍스트-비디오 모델 SOTA는 2025년 June월 기준 개발 중이다.[8]

Remove ads

평가

아르스 테크니카가 수행한 테스트에 따르면, 플럭스.1 개발과 플럭스.1 프로에서 생성된 출력물은 프롬프트 충실도 측면에서 DALL-E 3와 비교할 만하며, 사진 현실성은 미드저니 6과 거의 일치했고, 스테이블 디퓨전 XL과 같은 이전 모델보다 사람 손을 더 일관성 있게 생성했다.[37]

플럭스는 매우 사실적인 이미지 생성으로 비판을 받았다. 언론 보도에 따르면, 도널드 트럼프가 총을 들고 포즈를 취한 이미지부터 충격적인 장면까지 묘사되었으며, 이는 플럭스 모델의 윤리적 함의에 대한 논의를 촉발했다.[4][13]

모델 출시 후, 소셜 미디어 플랫폼 X는 플럭스 생성 이미지로 넘쳐났다.[38][39] Black Forest Labs는 모델 훈련에 사용된 데이터에 대한 정확한 세부 정보를 제공하지 않았다.[33] 아르스 테크니카는 플럭스가 웹 스크래핑을 통해 무단으로 수집된 대량의 이미지 컬렉션을 기반으로 하며, 이는 잠재적인 법적 결과를 초래할 수 있는 논란의 여지가 있는 관행이라고 의심했다.[37][40]

일본 기술 뉴스 웹사이트 Gigazine이 플럭스.1 콘텍스트에 대해 수행한 테스트에 따르면, 이 모델 시리즈는 영어에 대한 이해도가 높고 사용자가 제공한 프롬프트에 따라 이미지를 사실적인 스타일에서 애니메이션 스타일로 쉽게 변환할 수 있지만, 일본어 이해 능력은 상당히 떨어진다.[41]

가용성

자사 웹사이트의 공식 BFL 플레이그라운드 외에도,[42] 플럭스 모델은 창의적 및 전문적 용도를 위해 다양한 타사 플랫폼을 통해서도 널리 사용할 수 있다. 여기에는 허깅 페이스[43] 및 Replicate와 같은 플랫폼의 저장소가 포함된다.[44]

각주

외부 링크

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads