텍스트-비디오 모델

텍스트-비디오 모델(text-to-video model)은 자연어 설명을 입력으로 사용하고 입력에서 비디오 또는 여러 비디오를 생성하는 기계 학습 모델이다.^[1]

OpenAI의 소러 텍스트-비디오 모델을 사용하여 생성된 동영상. 프롬프트는 다음과 같다:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

번역: 세련된 여성이 따스하게 빛나는 네온사인과 생동감 넘치는 도시 간판으로 가득한 도쿄 거리를 걷고 있다. 검은색 가죽 재킷, 긴 빨간 원피스, 검은색 부츠를 신고 검은색 핸드백을 든 그녀는 선글라스와 빨간 립스틱을 바른 채 자신감 넘치고 편안한 걸음걸이를 보인다. 거리는 습기가 많고 반사되어 마치 거울처럼 화려한 조명이 반사되는 듯한 효과를 낸다. 많은 보행자들이 거리를 활보한다.

안정적인 배경에서 객체를 사실적으로 만들기 위한 비디오 예측은 커넥터 합성곱 신경망이 있는 시퀀스-시퀀스(Sequence to Sequence) 모델에 대해 순환 신경망을 사용하여 각 프레임을 픽셀 단위로^[2] 인코딩 및 디코딩하고 딥 러닝을 사용하여 비디오를 생성함으로써 수행된다.^[3] 텍스트의 기존 정보에 대한 조건부 생성 모델의 자료 집합 테스트는 변분 오토인코더 및 생성적 적대 신경망(GAN)을 통해 수행할 수 있다.

[1]

[2]

[3]

텍스트-비디오 모델

같이 보기

각주

Wikiwand - on