(AI) 비디오 생성 AI, Google Dreamix 탐구하기, Video Diffusion Model

Chat GPT에 이어 Generative AI (생성 AI)에 대해 탐구 중이다. 내 직업 현장에서 이 내용을 직접 가르칠 일은 없겠지만 그래도 나와 같은 비전공자가 궁금해할 때 쉽게 설명해주고 싶다.

1. 생성 모델 엿보기

생성 모델에는 VAE, GAN, flow기반 모델이 있다. (나는 GAN만 들어봤었다.)

2. 확산 모델 (Diffusion Model)

생성 모델에 새로 등장한 것으로 성능이 뛰어나고 유용한 특성이 많다고 한다. 물리학에서 아이디어를 가져왔다고 하며 요즘 주목을 받고 있다고 한다. Google Dreamix에서도 확산 모델 원리를 사용했다고 설명하고 있다. Dreamix는 "비디오" 확산 모델이다.

1) 확산 모델은 일단, flow기반 모델과 비슷하다.

2) 이미지의 패턴을 무너트리는 diffusion process와 다시 복구하는 reverse process로 이루어진다. 즉, 원본 이미지에서 점점 노이즈를 주고 다시 그 노이즈를 다시 원본이미지로 복구를 하게 된다. 이때 복구하는 과정에서(t번째 이미지가 주어졌을 때 t-1번째 이미지의 분포를 구하는 것) 정확한 분포를 알 수 없기 때문에 근사하는 분포를 구해야 한다. 근사하는 분포를 학습하게 되는 것이라고 한다.

3) 위는 디퓨전 모델이 이미지 생성 분야에서 GAN을 이겼다!(Diffusion Models Beat GANS on Image Synthesis)라는 제목의 논문에 실린 사진이다. 왼쪽은 GAN, 가운데는 Diffusion 모델, 오른쪽은 훈련에 사용한 데이터 세트의 예시이다. GAN보다 Diffusion 모델이 더 다양한 이미지를 만드는 것을 볼 수 있다고 한다. GAN은 햄버거나 홍학 사진이 유난히 다양성이 떨어져 보인다!

4) 미드저니는 GAN기반, DALL-E, Stable Diffudion은 확산 모델 기반이라고 한다.

5) 확산 모델은 기존의 생성모델보다 정교하다. GAN보다 느리다는 단점이 있다고 한다.

3. 오늘의 흥미로운 탐구 대상 Google Dreamix,Video Diffusion Model

영상 설명에 따르면, Dreamix는 기존의 "Text to video"와 차별점이 있다.

예전에는 말 그대로 설명만으로 영상을 만들었다면, Dreamix는 강아지영상, 거북이 사진, 몇 장의 곰인형 사진 등을 넣고 설명을 넣는다. 그러면 그 강아지가, 그 거북이가, 그 곰인형이 등장하는 영상을 만들 수 있다.

영상을 생성 AI로 만든 후에 딥페이크 기술로 편집할 것도 없이 이제 그냥 배우 사진만 있으면 되는 것인가? 며칠 전 읽은 SF-NAL소설의 작가도 이 기술은 예상 못해서 가상 여자친구 영상을 구해서 딥페이크 기술로 아는 사람 얼굴로 바꾸는 어플을 연동했다는 내용이 등장했었다. 지금은 기술이 소설과 비슷하지만 더 빠르다. 비디오 생성 AI의 퀄리티도 몇 달마다 훅 달라지고 있다고 한다.

오리씨네(Orissine) 블로그

검색할 것이 있으신가요? (Search)