4技術スタック — コピペ可能設定全文
AI-Toolkit config.yaml 完全版(RTX3090Ti推奨)
インストール手順(kohya_ss不要):[18] git clone https://github.com/ostris/ai-toolkit.git →
cd ai-toolkit →
git submodule update --init --recursive →
python -m venv venv →
venv\Scripts\activate →
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121 →
pip install -r requirements.txt。Windows Easy Installerあり(Start-AI-Toolkit.bat)。
# AI-Toolkit config.yaml — RTX3090Ti (24GB) Illustrious/SDXL キャラLoRA
# トリガーワードとdataset_pathを自環境に合わせて変更してください
job: extension
config:
name: "tsumugi_v1" # LoRAファイル名
process:
- type: 'sd_trainer'
training_folder: "output/tsumugi_v1"
device: "cuda:0"
trigger_word: "tsumugi_v1" # 必須: キャラ固有トリガーワード
network:
type: "lora"
linear: 16 # rank: 16で大抵のキャラは十分
linear_alpha: 8 # alpha = dim/2 が基本
conv: 8 # conv rankは小さめに
conv_alpha: 4
model:
name_or_path: "D:/models/waiIllustriousSDXL_v160.safetensors"
is_flux: false
quantize: false # SDXLはquantize不要
train:
batch_size: 2 # 24GBなら2が安全、4でOOMのケースあり
steps: 3000 # RTX3090Ti: 約2.5時間
gradient_accumulation_steps: 2
train_unet: true
train_text_encoder: false # Illustriousはfalse推奨
gradient_checkpointing: true
noise_scheduler: "ddpm"
optimizer: "adamw8bit"
lr: 0.00007 # 7e-5: Illustrious向け実績値
lr_scheduler: "cosine"
lr_warmup_steps: 100
dtype: "bf16"
save:
dtype: "float16"
save_every: 500 # 500stepごとに中間保存 → smoke testに使う
max_step_saves_to_keep: 5 # 古い中間ファイルは自動削除
datasets:
- folder_path: "D:/lora_datasets/tsumugi_v1/"
caption_ext: ".txt"
resolution: [1024, 1024]
center_crop: false
random_flip: false # 非対称キャラは必ずfalse!
shuffle_tokens: true
keep_tokens: 1 # 先頭1トークン(トリガーワード)は位置固定
kohya_ss 推奨設定 JSON全文(インストール済み環境向け)
{
// === ネットワーク設定 ===
"network_module": "networks.lora",
"network_dim": 16, // rank16: 30作品量産の標準
"network_alpha": 8, // alpha = dim/2 基本
"network_args": ["use_dora=True"], // DoRA有効: rank8でrank32相当の品質
// === 学習率 ===
"unet_lr": "1e-4",
"text_encoder_lr": "5e-5", // UNetの50%以下: プロンプト柔軟性を保つ
"lr_scheduler": "cosine",
"lr_warmup_steps": 150,
// === オプティマイザー ===
"optimizer_type": "AdamW8bit", // VRAM節約 + 安定
"train_batch_size": 2,
// === ステップ・エポック ===
"max_train_steps": 1600, // 20枚×10repeats×8epoch = 1600step
"save_every_n_steps": 400, // 400step毎に中間保存
// === データセット ===
"train_data_dir": "D:/lora_datasets/tsumugi_v1/",
"resolution": "1024,1024",
"enable_bucket": true,
"min_bucket_reso": 512,
"max_bucket_reso": 1024,
"flip_aug": false, // 非対称キャラは必ずfalse!
"shuffle_caption": true,
"keep_tokens": 1,
// === Illustrious推奨オプション ===
"noise_offset": 0.05, // 暗部・ハイライトの表現力向上
"min_snr_gamma": 5, // アーティファクト抑制
"multires_noise_iterations": 6, // Illustrious公式推奨
"clip_skip": 1, // SDXL/Illustriousはclip_skip=1
"mixed_precision": "bf16",
"debiased_estimation_loss": true
}
OneTrainer 推奨設定(RTX3090Ti)
# OneTrainer: 重要設定のみ抜粋
# GUI上での設定箇所: Training Settings → LoRA Settings
optimizer: Prodigy_Adv # 最重要: Prodigy_Advを選択
stochastic_rounding: True # 絶対に有効化! OFFで顔精度が大幅低下
rank: 32
alpha: 16
steps: 5000 # RTX3090Ti: 約2時間
resolution: 768, 1024 # マルチ解像度設定
int8_quantization: True # w8a8量子化: 1.4〜2倍速の鍵
torch_compile: True # 速度向上
lr: 1.0 # Prodigyは1.0固定 (内部で自動スケール)
train_text_encoder: False # Illustriousはtrain_text_encoder=Falseが安全
キャプション手順(WD14 Tagger・ComfyUI内完結)
Illustrious/SDXL向けキャプション戦略:[11][16] WD14 Tagger(Danbooru形式タグ)が最適。JoyCaptionは文章形式でFLUX向け。ComfyUI-CaptionThisノードでフォルダ内一括処理可能(約3分)。
# キャプション戦略の2択
## 戦略A: キャラ属性をLoRAに焼き込む(推奨)
# キャプションから髪色・目色を除外 → LoRAがそれを覚える
# Before: tsumugi_v1, silver_hair, blue_eyes, white_dress, standing
"tsumugi_v1, white_dress, standing, smile" # 髪色・目色を除外
## 戦略B: 冗長タグで属性を固定(より安全)
# キャプションに髪色・目色を毎回記載 → 汎化性能やや低下するが色崩れしにくい
"tsumugi_v1, (silver hair:1.3), (blue eyes:1.3), white_dress, standing"
# 共通: keep_tokens=1でtsumugi_v1を常に先頭固定
# shuffle_caption=Trueで残りのタグはシャッフル