stable-diffusion-webui 介绍

了解项目的详细信息和使用方法

Stable Diffusion Web UI

Stable Diffusion Web UI是基于Gradio库的浏览器界面，用于Stable Diffusion。

特性

详细的特性展示和图片：

原始的txt2img和img2img模式
一键安装和运行脚本（但仍需要安装Python和Git）
外推
补全
彩色素描
提示矩阵
Stable Diffusion放大
注意力，指定模型应更加关注的文本部分
- 一个穿着((tuxedo))的男人-将更加关注礼服
- 一个穿着(tuxedo:1.21)的男人-另一种语法
- 选择文本并按下Ctrl+上箭头或Ctrl+下箭头（如果您使用的是MacOS，则为Command+上箭头或Command+下箭头）以自动调整对所选文本的关注（由匿名用户贡献的代码）
循环处理，多次运行img2img处理
X/Y/Z图，绘制具有不同参数的图像的三维图
文本反转
- 您可以拥有任意数量的嵌入，并为它们使用任何您喜欢的名称
- 使用具有不同每个令牌向量数的多个嵌入
- 使用半精度浮点数训练嵌入（也可以在6GB的设备上工作）
带有额外选项卡的Extras
- GFPGAN，修复人脸的神经网络
- CodeFormer，GFPGAN的替代方案
- RealESRGAN，神经网络放大器
- ESRGAN，带有许多第三方模型的神经网络放大器
- SwinIR和Swin2SR（点击这里）
- LDSR，潜在扩散超分辨率放大
调整纵横比选项
选择采样方法
- 调整采样器eta值（噪声乘数）
- 更高级的噪声设置选项
随时中断处理
支持4GB显卡（也有报告称2GB也可以工作）
批次中的正确种子
实时提示令牌长度验证
生成参数
- 使用生成图像的参数保存该图像
- 在PNG中以块的形式保存参数，在JPEG中以EXIF的形式保存参数
- 可以将图像拖到PNG信息选项卡中以恢复生成参数，并自动将其复制到UI中
- 可以在设置中禁用此功能
- 将图像/文本参数拖放到提示框中
读取生成参数按钮，将参数加载到UI中的提示框中
设置页面
从UI中运行任意Python代码（必须使用--allow-code运行以启用）
大多数UI元素的鼠标悬停提示
可以通过文本配置更改UI元素的默认/最小/最大/步长值
平铺支持，一个复选框，用于创建可以像纹理一样平铺的图像
进度条和实时图像生成预览
- 可以使用单独的神经网络生成几乎没有VRAM或计算要求的预览
负面提示，一个额外的文本字段，允许您列出您不想在生成的图像中看到的内容
样式，保存提示的一部分，并通过下拉菜单轻松应用它们
变体，生成相同的图像，但有微小的差异
种子调整，生成相同的图像，但分辨率稍有不同
CLIP询问器，一个按钮，试图从图像猜测提示
提示编辑，一种在生成过程中更改提示的方法，例如从西瓜开始，然后在一半时切换到动漫女孩
批处理处理，使用img2img处理一组文件
Img2img替代方案，交叉注意力控制的反向欧拉方法
Highres Fix，一个方便的选项，只需一键生成高分辨率图片，而无需常规失真
实时重新加载检查点
检查点合并器，一个选项卡，允许您将最多3个检查点合并为一个
社区自定义脚本的许多扩展
可组合扩散，一次使用多个提示的方法
- 使用大写字母AND分隔提示
- 还支持提示的权重：a cat :1.2 AND a dog AND a penguin :2.2
提示没有令牌限制（原始的stable diffusion允许使用多达75个令牌）
DeepDanbooru集成，为动漫提示创建danbooru风格的标签
xformers，为某些卡提供的主要速度提升：（在命令行参数中添加--xformers）
通过扩展：History选项卡：在UI中方便地查看、直接删除图像
永远生成选项
训练选项卡
- 超网络和嵌入选项
- 图像预处理：裁剪、镜像、使用BLIP或deepdanbooru进行自动标记（用于动漫）
Clip跳过
超网络
Loras（与超网络相同，但更漂亮）
一个单独的UI，您可以从中选择，通过预览，选择要添加到提示中的嵌入、超网络或Loras
可以选择加载不同的VAE
进度条中的预计完成时间
API
支持RunwayML的修复图像模型
通过扩展：美学梯度，通过使用clip图像嵌入生成具有特定美学的图像（实现自https://github.com/vicgalle/stable-diffusion-aesthetic-gradients）
Stable Diffusion 2.0支持-请参阅wiki以获取说明
Alt-Diffusion支持-请参阅wiki以获取说明
现在没有坏字母了！
以safetensors格式加载检查点
放宽分辨率限制：生成图像的尺寸必须是8的倍数，而不是64
现在有许可证了！
从设置屏幕重新排序UI元素

安装和运行

确保满足所需的依赖项，并按照NVidia（推荐）和AMD GPU的说明进行操作。

或者，使用在线服务（如Google Colab）：

在线服务列表

在Windows 10/11上使用发布包安装

从v1.0.0-pre下载sd.webui.zip并提取其内容。
运行update.bat。
运行run.bat。

更多详细信息请参阅Install-and-Run-on-NVidia-GPUs

在Windows上自动安装

安装Python 3.10.6（更新的Python版本不支持torch），勾选“Add Python to PATH”。
安装git。
下载stable-diffusion-webui仓库，例如运行git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git。
以普通的非管理员用户身份从Windows资源管理器中运行webui-user.bat。

在Linux上自动安装

安装依赖项：

bash
1# 基于Debian的系统：
2sudo apt install wget git python3 python3-venv
3# 基于Red Hat的系统：
4sudo dnf install wget git python3
5# 基于Arch的系统：
6sudo pacman -S wget git python3

进入您希望安装webui的目录，并执行以下命令：

bash
1bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)

运行webui.sh。
通过查看webui-user.sh了解选项。

在Apple Silicon上安装

请查看此处的说明。

贡献

以下是向该存储库添加代码的方式：Contributing

文档

文档已从此README中移至项目的wiki。

为了让Google和其他搜索引擎爬行wiki，这里有一个链接到（不适用于人类的）可爬行的wiki。

鸣谢

借用代码的许可证可以在设置->许可证屏幕和html/licenses.html文件中找到。

Stable Diffusion - https://github.com/CompVis/stable-diffusion, https://github.com/CompVis/taming-transformers
k-diffusion - https://github.com/crowsonkb/k-diffusion.git
GFPGAN - https://github.com/TencentARC/GFPGAN.git
CodeFormer - https://github.com/sczhou/CodeFormer
ESRGAN - https://github.com/xinntao/ESRGAN
SwinIR - https://github.com/JingyunLiang/SwinIR
Swin2SR - https://github.com/mv-lab/swin2sr
LDSR - https://github.com/Hafiidz/latent-diffusion
MiDaS - https://github.com/isl-org/MiDaS
优化思路 - https://github.com/basujindal/stable-diffusion
交叉注意力层优化 - Doggettx - https://github.com/Doggettx/stable-diffusion,用于提示编辑的原始思路
交叉注意力层优化 - InvokeAI, lstein - https://github.com/invoke-ai/InvokeAI（最初为http://github.com/lstein/stable-diffusion）
子二次交叉注意力层优化 - Alex Birch（https://github.com/Birch-san/diffusers/pull/1），Amin Rezaei（https://github.com/AminRezaei0x443/memory-efficient-attention）
文本反转 - Rinon Gal - https://github.com/rinongal/textual_inversion（我们没有使用他的代码，但我们使用了他的想法）。
SD放大的思路 - https://github.com/jquesnelle/txt2imghd
mk2的外推噪声生成 - https://github.com/parlance-zz/g-diffuser-bot
CLIP询问器的思路和借用一些代码 - https://github.com/pharmapsychotic/clip-interrogator
Composable Diffusion的思路 - https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
xformers - https://github.com/facebookresearch/xformers
DeepDanbooru - 用于动漫扩散器的询问器 https://github.com/KichangKim/DeepDanbooru
浮点32位精度采样器 - marunine提出的思路，Birch-san提供的Diffusers示例实现（https://github.com/Birch-san/diffusers-play/tree/92feee6）
Instruct pix2pix - Tim Brooks（star）、Aleksander Holynski（star）、Alexei A. Efros（no star）- https://github.com/timothybrooks/instruct-pix2pix
安全建议 - RyotaK
UniPC采样器 - Wenliang Zhao - https://github.com/wl-zhao/UniPC
TAESD - Ollin Boer Bohan - https://github.com/madebyollin/taesd
LyCORIS - KohakuBlueleaf
初始Gradio脚本 - 匿名用户在4chan上发布。感谢匿名用户。
（您）

特性

原始的txt2img和img2img模式

一键安装和运行脚本（但仍需要安装Python和Git）

外推

补全

彩色素描

提示矩阵

Stable Diffusion放大

注意力，指定模型应更加关注的文本部分

一个穿着((tuxedo))的男人-将更加关注礼服
一个穿着(tuxedo:1.21)的男人-另一种语法
选择文本并按下Ctrl+上箭头或Ctrl+下箭头（如果您使用的是MacOS，则为Command+上箭头或Command+下箭头）以自动调整对所选文本的关注（由匿名用户贡献的代码）

循环处理，多次运行img2img处理

X/Y/Z图，绘制具有不同参数的图像的三维图

文本反转

您可以拥有任意数量的嵌入，并为它们使用任何您喜欢的名称
使用具有不同每个令牌向量数的多个嵌入
使用半精度浮点数训练嵌入（也可以在6GB的设备上工作）

带有额外选项卡的Extras

GFPGAN，修复人脸的神经网络
CodeFormer，GFPGAN的替代方案
RealESRGAN，神经网络放大器
ESRGAN，带有许多第三方模型的神经网络放大器
SwinIR和Swin2SR（点击这里）
LDSR，潜在扩散超分辨率放大

调整纵横比选项

选择采样方法

调整采样器eta值（噪声乘数）
更高级的噪声设置选项

随时中断处理

支持4GB显卡（也有报告称2GB也可以工作）

批次中的正确种子

实时提示令牌长度验证

生成参数

使用生成图像的参数保存该图像
在PNG中以块的形式保存参数，在JPEG中以EXIF的形式保存参数
可以将图像拖到PNG信息选项卡中以恢复生成参数，并自动将其复制到UI中
可以在设置中禁用此功能
将图像/文本参数拖放到提示框中

读取生成参数按钮，将参数加载到UI中的提示框中

设置页面

从UI中运行任意Python代码（必须使用--allow-code运行以启用）

大多数UI元素的鼠标悬停提示

可以通过文本配置更改UI元素的默认/最小/最大/步长值

平铺支持，一个复选框，用于创建可以像纹理一样平铺的图像

进度条和实时图像生成预览

可以使用单独的神经网络生成几乎没有VRAM或计算要求的预览

负面提示，一个额外的文本字段，允许您列出您不想在生成的图像中看到的内容

样式，保存提示的一部分，并通过下拉菜单轻松应用它们

变体，生成相同的图像，但有微小的差异

种子调整，生成相同的图像，但分辨率稍有不同

CLIP询问器，一个按钮，试图从图像猜测提示

提示编辑，一种在生成过程中更改提示的方法，例如从西瓜开始，然后在一半时切换到动漫女孩

批处理处理，使用img2img处理一组文件

Img2img替代方案，交叉注意力控制的反向欧拉方法

Highres Fix，一个方便的选项，只需一键生成高分辨率图片，而无需常规失真

实时重新加载检查点

检查点合并器，一个选项卡，允许您将最多3个检查点合并为一个

社区自定义脚本的许多扩展

可组合扩散，一次使用多个提示的方法

使用大写字母AND分隔提示
还支持提示的权重：a cat :1.2 AND a dog AND a penguin :2.2

提示没有令牌限制（原始的stable diffusion允许使用多达75个令牌）

DeepDanbooru集成，为动漫提示创建danbooru风格的标签

xformers，为某些卡提供的主要速度提升：（在命令行参数中添加--xformers）

通过扩展：History选项卡：在UI中方便地查看、直接删除图像

永远生成选项

训练选项卡

超网络和嵌入选项
图像预处理：裁剪、镜像、使用BLIP或deepdanbooru进行自动标记（用于动漫）

Clip跳过

超网络

Loras（与超网络相同，但更漂亮）

一个单独的UI，您可以从中选择，通过预览，选择要添加到提示中的嵌入、超网络或Loras

可以选择加载不同的VAE

进度条中的预计完成时间

API

支持RunwayML的修复图像模型

通过扩展：美学梯度，通过使用clip图像嵌入生成具有特定美学的图像（实现自https://github.com/vicgalle/stable-diffusion-aesthetic-gradients）

Stable Diffusion 2.0支持-请参阅wiki以获取说明

Alt-Diffusion支持-请参阅wiki以获取说明

现在没有坏字母了！

以safetensors格式加载检查点

放宽分辨率限制：生成图像的尺寸必须是8的倍数，而不是64

现在有许可证了！

从设置屏幕重新排序UI元素

安装和运行

确保满足所需的依赖项，并按照NVidia（推荐）和AMD GPU的说明进行操作。

或者，使用在线服务（如Google Colab）：

在Windows 10/11上使用发布包安装

从v1.0.0-pre下载sd.webui.zip并提取其内容。

运行update.bat。

运行run.bat。

在Windows上自动安装

安装Python 3.10.6（更新的Python版本不支持torch），勾选“Add Python to PATH”。

安装git。

下载stable-diffusion-webui仓库，例如运行git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git。

以普通的非管理员用户身份从Windows资源管理器中运行webui-user.bat。

在Linux上自动安装

安装依赖项：

bash

# 基于Debian的系统：
sudo apt install wget git python3 python3-venv
# 基于Red Hat的系统：
sudo dnf install wget git python3
# 基于Arch的系统：
sudo pacman -S wget git python3

进入您希望安装webui的目录，并执行以下命令：

bash

bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)

运行webui.sh。

通过查看webui-user.sh了解选项。

在Apple Silicon上安装

请查看此处的说明。

stable-diffusion-webui