📢 Project Overview: 2406~2409
Overview Schema & In-depth Results of Dreambooth (2023 CVPR)
주요 기능
- Diffusion Inversion-based (Image-to-Text) 방법 기반 Style Transfer 연구
- 다양한 평가 지표(e.g., FID, CLIP-I, CLIP-T, Gram loss) 활용
- 데이터셋 종류별로 스타일 전이 성능에 차이가 있음을 확인 (-> general 성능의 스타일 전이 모델 필요)
View Project & Code
🌟 Diffusion T2I 모델 리스트
- Textual Inversion
- Derambooth
- Custom Diffusion
💫 성능 평가 지표 리스트
- Fréchet Inception Distance (FID): 이미지 간의 유사성
- CLIP Image Similarity Score (CLIP-T): 텍스트와 이미지 간의 의미적 일치도
- CLIP Text Similarity Score (CLIP-T): 텍스트와 이미지 간의 의미적 일치도
- Gram Loss (style loss, VGG19): 레퍼런스 이미지와의 스타일 유사성
📝 데이터셋
- Wikiart dataset from github or kaggle
- Peanuts (Snoopy & co.) from hugging face
💻 실험 방법
1. 가상 환경 설정
conda create -n diffusion python=3.9
conda activate diffusion
pip install -r requirements.txt
Note: GPU 사용 가능 환경에서 실행 권장
2. 모델 학습
python train.py \
--model "{모델명}" \
--instance_dir "./data/peanuts" \ #'./data/wikiart'
--output_dir "./save/model_ckpt/{모델명}"
모델명: textual_inversion, dreambooth, custom_diffusion
3. Stylized Images 생성
python inference.py \
--model "{모델명}" \
--model_dir "./save/model_ckpt/{모델명}" \
--save_dir "./save_dir" \
--prompt_dir "./prompt_dir"
모델명: textual_inversion, dreambooth, custom_diffusion
📄 논문 투고 및 게재 (2025 ICCE)
A Study of Style Transfer based on Text-to-Image Diffusion Models [paper]
(Sojeong Kim, A-Seong Moon, Mingi Kim, Jaesung Lee*)