A Study of Style Transfer using T2I Models

📢 Project Overview: 2406~2409

Overview Schema & In-depth Results of Dreambooth (2023 CVPR)

overview

주요 기능

  • Diffusion Inversion-based (Image-to-Text) 방법 기반 Style Transfer 연구
  • 다양한 평가 지표(e.g., FID, CLIP-I, CLIP-T, Gram loss) 활용
  • 데이터셋 종류별로 스타일 전이 성능에 차이가 있음을 확인 (-> general 성능의 스타일 전이 모델 필요)

View Project & Code


🌟 Diffusion T2I 모델 리스트

  • Textual Inversion
  • Derambooth
  • Custom Diffusion

💫 성능 평가 지표 리스트

  • Fréchet Inception Distance (FID): 이미지 간의 유사성
  • CLIP Image Similarity Score (CLIP-T): 텍스트와 이미지 간의 의미적 일치도
  • CLIP Text Similarity Score (CLIP-T): 텍스트와 이미지 간의 의미적 일치도
  • Gram Loss (style loss, VGG19): 레퍼런스 이미지와의 스타일 유사성

📝 데이터셋

dataset


💻 실험 방법

1. 가상 환경 설정

conda create -n diffusion python=3.9
conda activate diffusion

pip install -r requirements.txt

Note: GPU 사용 가능 환경에서 실행 권장


2. 모델 학습

python train.py \
    --model "{모델명}" \
    --instance_dir "./data/peanuts" \ #'./data/wikiart'
    --output_dir "./save/model_ckpt/{모델명}"

모델명: textual_inversion, dreambooth, custom_diffusion


3. Stylized Images 생성

python inference.py \
    --model "{모델명}" \
    --model_dir "./save/model_ckpt/{모델명}" \
    --save_dir "./save_dir" \
    --prompt_dir "./prompt_dir"

모델명: textual_inversion, dreambooth, custom_diffusion


📄 논문 투고 및 게재 (2025 ICCE)

A Study of Style Transfer based on Text-to-Image Diffusion Models [paper]

(Sojeong Kim, A-Seong Moon, Mingi Kim, Jaesung Lee*)

figure3

table