Jun 03, 2024

A Study of Style Transfer using T2I Models

By Sojeong Kim

Study

📢 Project Overview: 2406~2409

Overview Schema & In-depth Results of Dreambooth (2023 CVPR)

overview

주요 기능

Diffusion Inversion-based (Image-to-Text) 방법 기반 Style Transfer 연구
다양한 평가 지표(e.g., FID, CLIP-I, CLIP-T, Gram loss) 활용
데이터셋 종류별로 스타일 전이 성능에 차이가 있음을 확인 (-> general 성능의 스타일 전이 모델 필요)

View Project & Code

🌟 Diffusion T2I 모델 리스트

Textual Inversion
Derambooth
Custom Diffusion

💫 성능 평가 지표 리스트

Fréchet Inception Distance (FID): 이미지 간의 유사성
CLIP Image Similarity Score (CLIP-T): 텍스트와 이미지 간의 의미적 일치도
CLIP Text Similarity Score (CLIP-T): 텍스트와 이미지 간의 의미적 일치도
Gram Loss (style loss, VGG19): 레퍼런스 이미지와의 스타일 유사성

📝 데이터셋

dataset

Wikiart dataset from github or kaggle
Peanuts (Snoopy & co.) from hugging face

💻 실험 방법

1. 가상 환경 설정

conda create -n diffusion python=3.9
conda activate diffusion

pip install -r requirements.txt

Note: GPU 사용 가능 환경에서 실행 권장

2. 모델 학습

python train.py \
    --model "{모델명}" \
    --instance_dir "./data/peanuts" \ #'./data/wikiart'
    --output_dir "./save/model_ckpt/{모델명}"

모델명: textual_inversion, dreambooth, custom_diffusion

3. Stylized Images 생성

python inference.py \
    --model "{모델명}" \
    --model_dir "./save/model_ckpt/{모델명}" \
    --save_dir "./save_dir" \
    --prompt_dir "./prompt_dir"

모델명: textual_inversion, dreambooth, custom_diffusion

📄 논문 투고 및 게재 (2025 ICCE)

A Study of Style Transfer based on Text-to-Image Diffusion Models [paper]

(Sojeong Kim, A-Seong Moon, Mingi Kim, Jaesung Lee*)

table

Share this article:

Comparision of CNN Models

📢 Project Overview: 2310~2311 주요 기능 대표적인 4가지 CNN 모델 (AlexNet, VGG, GoogLeNet, ResNet) 성능 비교 PyTorch를 활...

Style Transfer to Novel Views

## 📢 Project Overview: 2404~2406 ### 📄 프로젝트 개요 - 이미지의 시점(구도)을 변환한 후 사용자 취향에 맞춘 스타일 전이를 수행 - 스케치 ...