stable-diffusion-webui 介绍
了解项目的详细信息和使用方法
Stable Diffusion Web UI
Stable Diffusion Web UI是基于Gradio库的浏览器界面,用于Stable Diffusion。
特性
- 原始的txt2img和img2img模式
- 一键安装和运行脚本(但仍需要安装Python和Git)
- 外推
- 补全
- 彩色素描
- 提示矩阵
- Stable Diffusion放大
- 注意力,指定模型应更加关注的文本部分
- 一个穿着
((tuxedo))
的男人-将更加关注礼服 - 一个穿着
(tuxedo:1.21)
的男人-另一种语法 - 选择文本并按下
Ctrl+上箭头
或Ctrl+下箭头
(如果您使用的是MacOS,则为Command+上箭头
或Command+下箭头
)以自动调整对所选文本的关注(由匿名用户贡献的代码)
- 一个穿着
- 循环处理,多次运行img2img处理
- X/Y/Z图,绘制具有不同参数的图像的三维图
- 文本反转
- 您可以拥有任意数量的嵌入,并为它们使用任何您喜欢的名称
- 使用具有不同每个令牌向量数的多个嵌入
- 使用半精度浮点数训练嵌入(也可以在6GB的设备上工作)
- 带有额外选项卡的Extras
- GFPGAN,修复人脸的神经网络
- CodeFormer,GFPGAN的替代方案
- RealESRGAN,神经网络放大器
- ESRGAN,带有许多第三方模型的神经网络放大器
- SwinIR和Swin2SR(点击这里)
- LDSR,潜在扩散超分辨率放大
- 调整纵横比选项
- 选择采样方法
- 调整采样器eta值(噪声乘数)
- 更高级的噪声设置选项
- 随时中断处理
- 支持4GB显卡(也有报告称2GB也可以工作)
- 批次中的正确种子
- 实时提示令牌长度验证
- 生成参数
- 使用生成图像的参数保存该图像
- 在PNG中以块的形式保存参数,在JPEG中以EXIF的形式保存参数
- 可以将图像拖到PNG信息选项卡中以恢复生成参数,并自动将其复制到UI中
- 可以在设置中禁用此功能
- 将图像/文本参数拖放到提示框中
- 读取生成参数按钮,将参数加载到UI中的提示框中
- 设置页面
- 从UI中运行任意Python代码(必须使用
--allow-code
运行以启用) - 大多数UI元素的鼠标悬停提示
- 可以通过文本配置更改UI元素的默认/最小/最大/步长值
- 平铺支持,一个复选框,用于创建可以像纹理一样平铺的图像
- 进度条和实时图像生成预览
- 可以使用单独的神经网络生成几乎没有VRAM或计算要求的预览
- 负面提示,一个额外的文本字段,允许您列出您不想在生成的图像中看到的内容
- 样式,保存提示的一部分,并通过下拉菜单轻松应用它们
- 变体,生成相同的图像,但有微小的差异
- 种子调整,生成相同的图像,但分辨率稍有不同
- CLIP询问器,一个按钮,试图从图像猜测提示
- 提示编辑,一种在生成过程中更改提示的方法,例如从西瓜开始,然后在一半时切换到动漫女孩
- 批处理处理,使用img2img处理一组文件
- Img2img替代方案,交叉注意力控制的反向欧拉方法
- Highres Fix,一个方便的选项,只需一键生成高分辨率图片,而无需常规失真
- 实时重新加载检查点
- 检查点合并器,一个选项卡,允许您将最多3个检查点合并为一个
- 社区自定义脚本的许多扩展
- 可组合扩散,一次使用多个提示的方法
- 使用大写字母
AND
分隔提示 - 还支持提示的权重:
a cat :1.2 AND a dog AND a penguin :2.2
- 使用大写字母
- 提示没有令牌限制(原始的stable diffusion允许使用多达75个令牌)
- DeepDanbooru集成,为动漫提示创建danbooru风格的标签
- xformers,为某些卡提供的主要速度提升:(在命令行参数中添加
--xformers
) - 通过扩展:History选项卡:在UI中方便地查看、直接删除图像
- 永远生成选项
- 训练选项卡
- 超网络和嵌入选项
- 图像预处理:裁剪、镜像、使用BLIP或deepdanbooru进行自动标记(用于动漫)
- Clip跳过
- 超网络
- Loras(与超网络相同,但更漂亮)
- 一个单独的UI,您可以从中选择,通过预览,选择要添加到提示中的嵌入、超网络或Loras
- 可以选择加载不同的VAE
- 进度条中的预计完成时间
- API
- 支持RunwayML的修复图像模型
- 通过扩展:美学梯度,通过使用clip图像嵌入生成具有特定美学的图像(实现自https://github.com/vicgalle/stable-diffusion-aesthetic-gradients)
- Stable Diffusion 2.0支持-请参阅wiki以获取说明
- Alt-Diffusion支持-请参阅wiki以获取说明
- 现在没有坏字母了!
- 以safetensors格式加载检查点
- 放宽分辨率限制:生成图像的尺寸必须是8的倍数,而不是64
- 现在有许可证了!
- 从设置屏幕重新排序UI元素
安装和运行
确保满足所需的依赖项,并按照NVidia(推荐)和AMD GPU的说明进行操作。
或者,使用在线服务(如Google Colab):
在Windows 10/11上使用发布包安装
- 从v1.0.0-pre下载
sd.webui.zip
并提取其内容。 - 运行
update.bat
。 - 运行
run.bat
。
更多详细信息请参阅Install-and-Run-on-NVidia-GPUs
在Windows上自动安装
- 安装Python 3.10.6(更新的Python版本不支持torch),勾选“Add Python to PATH”。
- 安装git。
- 下载stable-diffusion-webui仓库,例如运行
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
。 - 以普通的非管理员用户身份从Windows资源管理器中运行
webui-user.bat
。
在Linux上自动安装
- 安装依赖项:
bash1# 基于Debian的系统: 2sudo apt install wget git python3 python3-venv 3# 基于Red Hat的系统: 4sudo dnf install wget git python3 5# 基于Arch的系统: 6sudo pacman -S wget git python3
- 进入您希望安装webui的目录,并执行以下命令:
bash1bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)
- 运行
webui.sh
。 - 通过查看
webui-user.sh
了解选项。
在Apple Silicon上安装
请查看此处的说明。
贡献
以下是向该存储库添加代码的方式:Contributing
文档
文档已从此README中移至项目的wiki。
为了让Google和其他搜索引擎爬行wiki,这里有一个链接到(不适用于人类的)可爬行的wiki。
鸣谢
借用代码的许可证可以在设置->许可证
屏幕和html/licenses.html
文件中找到。
- Stable Diffusion - https://github.com/CompVis/stable-diffusion, https://github.com/CompVis/taming-transformers
- k-diffusion - https://github.com/crowsonkb/k-diffusion.git
- GFPGAN - https://github.com/TencentARC/GFPGAN.git
- CodeFormer - https://github.com/sczhou/CodeFormer
- ESRGAN - https://github.com/xinntao/ESRGAN
- SwinIR - https://github.com/JingyunLiang/SwinIR
- Swin2SR - https://github.com/mv-lab/swin2sr
- LDSR - https://github.com/Hafiidz/latent-diffusion
- MiDaS - https://github.com/isl-org/MiDaS
- 优化思路 - https://github.com/basujindal/stable-diffusion
- 交叉注意力层优化 - Doggettx - https://github.com/Doggettx/stable-diffusion,用于提示编辑的原始思路
- 交叉注意力层优化 - InvokeAI, lstein - https://github.com/invoke-ai/InvokeAI(最初为http://github.com/lstein/stable-diffusion)
- 子二次交叉注意力层优化 - Alex Birch(https://github.com/Birch-san/diffusers/pull/1),Amin Rezaei(https://github.com/AminRezaei0x443/memory-efficient-attention)
- 文本反转 - Rinon Gal - https://github.com/rinongal/textual_inversion(我们没有使用他的代码,但我们使用了他的想法)。
- SD放大的思路 - https://github.com/jquesnelle/txt2imghd
- mk2的外推噪声生成 - https://github.com/parlance-zz/g-diffuser-bot
- CLIP询问器的思路和借用一些代码 - https://github.com/pharmapsychotic/clip-interrogator
- Composable Diffusion的思路 - https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
- xformers - https://github.com/facebookresearch/xformers
- DeepDanbooru - 用于动漫扩散器的询问器 https://github.com/KichangKim/DeepDanbooru
- 浮点32位精度采样器 - marunine提出的思路,Birch-san提供的Diffusers示例实现(https://github.com/Birch-san/diffusers-play/tree/92feee6)
- Instruct pix2pix - Tim Brooks(star)、Aleksander Holynski(star)、Alexei A. Efros(no star)- https://github.com/timothybrooks/instruct-pix2pix
- 安全建议 - RyotaK
- UniPC采样器 - Wenliang Zhao - https://github.com/wl-zhao/UniPC
- TAESD - Ollin Boer Bohan - https://github.com/madebyollin/taesd
- LyCORIS - KohakuBlueleaf
- 初始Gradio脚本 - 匿名用户在4chan上发布。感谢匿名用户。
- (您)