빠르고 고품질 이미지 생성 AI 모델 "Stable Cascade"를 Stability AI가 발표

이미지 생성 AI 「Stable Diffusion」의 개발원인 Stability AI가, 기존의 모델과 비교해 고품질의 화상을 고속으로 생성할 수 있는 화상 생성 모델 「Stable Cascade」를 발표했다. Stable Cascade는 가정용 기자재를 이용해 학습과 미세 조정이 가능한 것도 특징이다.

◆Stable Cascade의 구조
Stable Cascade는 학습 비용이 적게 들고 이미지 생성 시 VRAM 사용량이 적은 것을 특징으로 하는 이미지 생성 모델 "Würstchen"을 기반으로 개발된 모델.

Stable Cascade는 「스테이지 A」, 「스테이지 B」, 「스테이지 C」의 3 모델로 나누어져 있어, 이미지 생성 처리는 "텍스트를 레이텐트 제너레이터 페이즈(스테이지 C)에서 24×24의 잠재 공간으로 변환해, 레이텐트 디코더 페이즈(스테이지 A 및 스테이지 B)에서 고해상도의 화상을 생성한다"라고 하는 순서로 실행. 텍스트에 맞추어 화상을 생성하는 "스테이지 C"와 고해상도의 화상을 처리하는 "스테이지 A" 및 "스테이지 B"가 분리된 것으로, ControlNets나 LoRA등의 미세 조정을 스테이지 C만으로 완결시키는 것이 가능해져 있어, 기존의 모델과 비교해 미세 조정에 필요한 코스트가 감소. Stability AI는 "일반 소비자를 위한 하드웨어 교육과 미세 조정을 쉽게 할 수 있습니다"라고 말해, 학습 비용의 작음을 어필하고 있다.

스테이지 B에는 7억 파라미터 모델과 15억 파라미터 모델이 존재하며, 스테이지 C에는 10억 파라미터 모델과 36억 파라미터 모델이 존재. Stable Cascade에서 이미지 생성에 필요한 VRAM 용량은 20GB로, 모델 선택에 따라 VRAM 사용량을 줄일 수 있다. 다만, 적은 파라미터의 모델에서는 생성 화상의 품질이 저하하는 경우도 있다.

Stable Cascade의 모델과 트레이닝 코드, 추론 코드는 "준비가 되는 대로" 공개 예정이며, 비상용 라이선스가 적용된다고 한다.

◆이미지 생성 성능
Stable Cascade 소개 페이지에 공개되어 있는 이미지는 이런 느낌.

아래 그래프는 Stability AI가 Stable Cascade의 성능을 "생성 이미지와 프롬프트의 유사도"(상단), "생성 이미지의 미적 품질"(하단) 관점에서 평가한 결과를 보여주는데, Stable Cascade는 프롬프트와의 유사도와 품질의 양면에서 "Würstchen v2"나 "SDXL"과 같은 기존 모델의 스코어를 상회하고 있다.

이미지의 생성에 필요한 시간을 나타낸 그래프가 아래. Stable Cascade는 SDXL의 절반 이하의 시간으로 이미지를 생성할 수 있다.

덧붙여, Stable Cascade는 텍스트로부터 이미지를 생성하는 txt2img 뿐만이 아니라, 이미지로부터 이미지를 생성하는 img2img에도 대응하고 있다. 아래 이미지는 왼쪽 끝이 원본 이미지이고, 오른쪽에 나열된 4장의 이미지가 Stable Cascade에 의해 생성된 이미지.

◆ ControlNet과 LoRA 코드도 공개 예정
Stable Cascade가 출시됨에 따라 ControlNet 및 LoRA 코드도 출시될 예정. 릴리스 예정인 ControlNet의 일부가 다음과 같다.

. 임페인팅/아웃페인팅
일부분을 마스크한 화상을 텍스트와 함께 입력하는 것으로, "이미지의 일부분을 생성 화상으로 채운다"라고 하는 처리가 가능.