Stable Diffusion (AUTOMATIC1111)のパラメータをいろいろ変えて実験してみた

Stable Diffusion (AUTOMATIC1111)のパラメータをいろいろ変えて実験してみた

CFG Scaleとは

以前、「【LoRA】少ないデータで、AIモデルをチューニングする」という記事で
AUTOMATIC1111 を使用しましたが、パラメータについてはあまり触れていませんでした。

そこで今回は、Stable Diffusion で重要なパラメータのひとつである CFG Scale について解説していきたいと思います。

本当は Nova Anime XL のような最近のモデルを使いたかったのですが、
RTX 2070(8GB)では VRAM 不足で、まともに動かすことができませんでした (T_T)

そのため、LoRA の記事でも使用した abyssorangemix33WhiteMildCat をモデルとして使っています。

なお、画像生成で使用したプロンプトは下記の通りです。

anime style, mature and graceful young woman with long brown hair, modern indoor kitchen at night, warm lamp light, cooking quietly, holding wooden spatula, casual home wear, calm expression, peaceful slice of life mood, cinematic lighting, high quality anime illustration

Negativeプロンプトも入れています。

low quality, blurry, bad anatomy, extra fingers

今回取り上げるパラメータは CFG Scale です。

CFG Scale(Classifier-Free Guidance Scale)は、Stable Diffusion などの画像生成 AI において、
「プロンプトにどれだけ忠実に画像を生成するか」 を調整する重要なパラメータです。

日本語では、よく

  • 「プロンプト忠実度」
  • 「指示の強さ」

などと説明されます。

  • 低い値 → 自由度が高い/ランダム寄り
  • 高い値 → プロンプト重視/指示に忠実

AI に

「この指示をどれくらい厳密に守れ」

と命令する 強さを調整するスライダー だと考えると分かりやすいです。


値による違い

🔹 低CFG(例:1〜4)

  • 雰囲気重視
  • 想定外の構図や表情が出やすい
  • アート・抽象・背景向き
  • プロンプトを無視することもある

向いている用途

  • 風景
  • 抽象画
  • ラフ案出し

🔸 中CFG(例:6〜9)【最も一般的】

  • プロンプトと自然さのバランスが良い
  • 人物・イラスト・実写で安定しやすい

向いている用途

  • キャラクター生成
  • 日常シーン
  • SNS 投稿用画像

👉 迷ったら 7 前後


🔺 高CFG(例:10〜15以上)

  • プロンプトを非常に厳密に守る
  • 構図が硬くなることがある
  • 破綻・ノイズ・不自然さが出る場合あり

向いている用途

  • 細かい服装指定
  • ポーズ厳守
  • 商品画像風

実践的おすすめ設定

用途 CFG Scale
人物イラスト 6.5〜8
アニメ調 7〜9
実写 5〜7
背景・風景 4〜6
厳密な再現 9〜11

まとめ

CFG Scale は単体で考えるのではなく、Sampling Steps と密接に関係しています。
良い画像を生成するためには、CFG Scale と Sampling Steps の値を 同時に調整することが重要 です。

機会があれば、Sampling Steps についても取り上げたいと思います。

……そろそろ、新しい GPU カードが欲しくなってきました。