[Python] 圖像處理 – Stable Diffusion 002 – Better Prompting

【前言】

在圖像生成中，最重要的莫過於詠唱的咒語。那究竟如何透過賦予提詞讓生成更加符合預期呢？

【重點整理】

提詞的先後順序會影響權重（強度）

【預計內容】

提詞的概念 — 正向與負向
提詞的權重 — 順序
題詞的權重 — 標記
提詞的組合 — AND 與 OR
提詞的時機 — 提詞切換點
提詞的時機 — 起始與結束幀

【主要內容】

1. 提詞的概念 — 正向與負向

在提詞中，分有正向與負向兩種，那正向就是所希望出現的內容，反之，負向為不想要的內容。那最常見的正向詞有 masterpiece, best quality, 4k, ray tracing 透過以上這些都能大幅度的提升精細的程度，而常見的負向詞莫過於 nsfw 來避免色圖。

而提詞的形式，可以混合多個單詞，或是句完整的敘述。

2. 提詞的權重 — 順序

權重簡單來說就是強度或占比，並且提詞的順序也會影響，因此越優先的題詞通常會放到越前面。那在下方我透過固定 seed（亂數的生成碼），來比對不同提詞的先後變化。那我所使用的基底為 v1.5 的 OrangeMixs 3 模型，更好的生成動漫風格。

ray tracing, masterpiece, best quality, **angry, tightened jaw, squinted eyes, and raised eyebrows,** (dark brown hair), brown ears, aqua shining eyes, anime girl with long hair holding a sword in front of a fire, [cyan:0.7 AND black:1] coat

ray tracing, masterpiece, best quality, (dark brown hair), brown ears, aqua shining eyes, anime girl with long hair holding a sword in front of a fire, [cyan:0.7 AND black:1] coat, **angry, tightened jaw, squinted eyes, and raised eyebrows,**

看完兩張圖，相信各位都覺得表情幾乎沒有差別，但可以看到，在右圖中更強調場景與人物的精緻度。所以透過各種嘗試，我們漸漸的能統整出那些細節其實能放在尾巴。

3. 題詞的權重 — 標記

但一定要把優先的題詞放到最前面嗎？每次都還要調整順序可麻煩了，或者，我希望提詞更加顯眼 / 減少出現。因此，標記的語法更為重要，透過調整詞彙的權重，順暢的打字又能刻劃更多的細節。

我個人統一使用 ( ) 進行標記，就不用記算比如 [] = 0.952 與 ((( ))) = 1.331 這類麻煩的數學 [2]。假設你想要強調就 x > 1，想要減少就 1 > x > 0，想要避免就 0 >= x，假設用法如 (masterpiece:1.2)，代表 * 1.2 的權重。那要注意那你沒有設定數值，( ) 預設為 * 1.1 的權重。但一般設限在 2 > x > -2 之間，越多的權重變化越容易造成變質，生成許多的噪點（noise）。