
Stable Diffusion XLの最適な画像サイズを一覧にしてみました。
SDXLは基本解像度が1024×1024になっているため、総ピクセル数(1048576px≒100万)に近い値になると良好な結果が出る傾向があります。またU-Netの特性上、64の倍数が推奨されている。これらの条件に合うサイズを計算してみました。
ちなみに私は昔アメリカでイラストレーションを勉強してた時期があり、アメリカではキャンバスに9 x 12や16 x 20、18 x 24(インチ)といったわかりやすいサイズ比が使われていました。各々のアスペクト比ごとに最適な構図を考えるため、アスペクト比にはこだわりたいのです。
64の倍数を優先
よく使われている推奨サイズ。64の倍数かつ総ピクセル数に合わせている。64の倍数とアスペクト比を両立するのは難しいので半端な数のアスペクト比になっている。
| サイズ(横長) | アスペクト比 | 総ピクセル数 |
| 1024×1024 | 1 x 1 | 1,048,576px (100%) |
| 1152×896 | 9 x 7 (4 x 3に近い) | 1,032,192px (98%) |
| 1216×832 | 19 x 13 (3 x 2に近い) | 1,011,712px (96%) |
| 1344×768 | 7 x 4 (16 x 9に近い) | 1,032,192px (98%) |
アスペクト比を優先
イラストや絵画で使われるアスペクト比。アスペクト比と64の倍数を優先しているため、総ピクセル数はズレがでています。
| アスペクト比 | サイズ | 総ピクセル数 |
| 1 x 1 | 1024×1024 | 1,048,576px (100%) |
| 3 x 2 | 1152×768 | 884,736px (84%) |
| 4 x 3 | 1280×960 1024×768 | 1,228,800px(117%) 786,432px (75%) |
| 16 x 9 | 1280×720 | 921,600px (87%) |
| 16 x 10 | 1280×800 | 1,024,000px (97%) |
あまり綺麗なサイズ比にはこだわらず、後処理でクリップする気持ちでいいかもしれないですね。ちなみに私は4 x 3に限りなく近い1200×896 = 1075200px (102%)が好みです。

