手册
GPU 服务

GPU 使用FAQ

-1. 解决问题第一步,查看运行日志

一定要查看GPU的运行日志一定要查看GPU的运行日志, 一定要查看GPU的运行日志, 在解决任何问题前,都需要运行日志, 所以一但你的GPU无法启动, 那么请将截图发送。注意观察运行日志中有包含 relaunch字样的内容(如下图)并截图给我们。 faq0-1

0. 如何才能快速获取我们支持?

  • 通过发邮件到 cloud@megaease.com 获得支持。

  • 通过加微信小助手 MegaEase2022 进入我司的支持微信群获得支持。

1. 如何使用你们的 GPU 服务?

这里有个视频,你可以通过这个视频了解GPU的基本操作: https://www.bilibili.com/video/BV1Ww41117Nx/ (opens in a new tab)

2. 怎么没有看见你们 GPU 服务?

你访问的是 https://cloud.megaease.com (opens in a new tab),请访问 https://cloud.megaease.cn (opens in a new tab) 服务。

3. GPU服务如何扣费?

平台中的GPU服务有两类计费项。第一类为用户启动的GPU实例。GPU实例只在运行时进行计费,启动过程不进行计费,停止后也不再进行计费。GPU实例按小时计费(价格以平台显示为准),每次预先扣除一小时的费用,如果用户提前停止,平台会对未使用的分钟数进行退费。第二类为用户创建的GPU存储。GPU存储会一直占用空间,所以在创建成功之后会持续进行计费(价格以平台显示为准),直到用户删除(删除后无法找回)。GPU存储按小时计费,每次预先扣除一小时的费用,如果用户提前删除,平台会对未使用的分钟数进行退费。

GPU服务使用租户余额进行扣费,如果租户余额不足,平台会将该租户使用的GPU资源进行释放。针对GPU实例,平台会自动将其停止,停止后不再计费。针对GPU存储,平台会先将其停用,此时存储会进入挂起状态,不再计费。停用后,用户还有机会对该存储进行恢复。如果用户选择恢复,平台会将该存储恢复成正常状态,然后开始正常计费,计费时会扣除停用期间产生的保管费用。如果存储停用较长时间一直未被恢复,平台将自动将其删除(无法再恢复),此情况不会产生费用。

4. GPU 停了就不计费了吗?

是的, GPU 停止了就不再计费。但是如果你选择了可持久化的应用时,因为存储正在占用空间,平台会继续对存储进行收费。 收费的标准按照每10G/小时1分钱人民币进行收取。而且存储不像 GPU 那样可以停止,存储只能删除,删除后,你所有的数据将会丢失!

5. 如何上传 Stable Diffusion 模型?

模型一般放在 /root/stable-diffusion-webui/models 目录下, 你可以根据具体的模型的要求放到指定位置。 模型你可以通过我们的存储的控制台进行直接上传,或通过百度/阿里云盘进行同步下载。 同步时, 远程是百度或阿里云盘的路径, 本地是存储路径。 如果是阿里云盘,不要把同步的东西放在备份盘中。备份盘无法同步。你也可以看这个视频,这个视频包含了GPU服务的最基础的操作(包括启动 GPU, 同步网盘到存储,以及上传模型等操作): https://www.bilibili.com/video/BV1Ww41117Nx/ (opens in a new tab)

6. 为什么我的 SD 出图报错(或很慢)?

你可以先从我们的 MegaEase Cloud GPU 的服务相关实例中查看到运行日志。然后你可以检查一下相关实例的显存使用情况(请注意刷新最近15分钟时间区间)。如果日志中出现了错误,可以先重启一下 WebUI。如果日志中出现了错误,重启了 WebUI,依旧报错,可以再重启一下 GPU 服务。

7. 我的SD服务很久没有启动起来?

是的,Stable Diffusion 启动会比较消耗时间,特别是第一次启动 SD 的时候。如果不是第一次也很慢,那多半和你安装的插件有很大的关系,如果你安装插件越多,那么服务启动就会越慢,但是在10分钟以内都是正常的。而且 GPU 启动时 Stable Diffusion 在启动起来的这段时间不计费的。

8. 我的SD启动起来后许多模型,这些模型是什么模型,可以不要吗?

是的, 你的SD启动起来后,我们会预置一些模型。这些模型首先并不占用你的存储空间,第二这些模型大部分都是C站的排名靠前的模型。包括有:AnythingV5,DreamShaper 等, 大部分的都可以通过模型的名称区分出来。 因此我们建议你不要删除, 因为删除了,再重启GPU后,这些模型依然会出现。 如果你真的想删除这些模型,你可以通过环境变量的功能不启用这些模型。具体设置如下: image1

通过将环境变量 ENABLE_PRELOAD_MODELS 设置成FALSE就能达到禁用默认的模型的功能。

9. 我在使用StableDiffusion的时候可以中途换GPU规格么?还是说选中了一个规格后就没法变了?

可以中途换GPU规格的, 如果你发现你使用的GPU规格不适合当前的场景,你可以停止当前的GPU,重新启动一个新的GPU即可。 只是在启动新GPU时,需要注意选中已有存储是你之前使用的Stable Diffusion模板对应的那个存储。

10. 云端存储只能额外扩容,不能缩容吗?

目前不能缩容,请大家根据需求选择存储大小。

11. 存储文件上传,可以设置批量上传吗?

可以压缩后上传,比如打个tar 包上传。上传后通过jupyter 的命令行进行解压。

12. ComfyUI 选择什么类型存储?

ComfyUI 必须是持久化应用,必须要带存储的,因为需要装模型,装插件。

13. 如何启用Stable Diffusion的API功能

Stable Diffusion的API功能已经默认启用了。

14. 如何恢复xformer的版本

xformer的版本错误会导致如下的错误 faq14-1

要修复这个问题,需要恢复xformer的版本, 方法如下 进入GPU实例的详情页, 选择Web终端 faq14-2

点击右边的常用命令,点击恢复webui xformer版本 faq14-3

然后出现如下的界面, 并按回车执行命令 faq

命令执行完毕后,重启GPU服务,即可恢复。

15. 如何安装insightface 包

ControlNet的instantid 会使用到 insightface 包 ,这个包并不会随着controlnet 的安装而自动安装, 需要用户自行安装 insightface。insightface的安装方式如下

进入GPU实例的详情页, 选择Web终端

faq

点击右边的常用命令, 如果你的GPU实例是webui, 那你就选择安装 webui 的insightface; 如果你是ComfyUI,就选择安装ComfyUI的insightface。

faq15-1

点击后敲回车等待安装完成

faq15-2 执行完毕后,重启GPU即可。

16. 对于安装了TemporalKit插件导致WebUI启动失败处理

Stable Diffusion WebUI的各个版本对TemporalKit的插件都不兼容, 很多安装了TemporalKit插件的用户会导致WebUI启动失败。会出现如下的报错: faq16-1

此时你需要切换到GPU详情的Web终端选项页, 拷贝如下的命令, 并Web终端中通过鼠标右键进行粘贴,并按回车执行命令:

/root/stable-diffusion-webui/venv/bin/python -m pip install tqdm==4.57.0

注意在Web终端里面不用键盘的Ctrl+V 进行粘帖, 请求用鼠标右键的的粘贴进行命令粘贴。

Web 终端只有在GPU启动的时候才能打开, 如果出现不能进入确保GPU实例已经启动,并稍等30秒后再试

按回车执行命令后, 如下图: faq16-2

命令执行完毕后, 再切换到运行日志,可以看到GPU又可以正常启动了。

17. 对于需要安装ml_dtypes 0.4.0 版本导致WebUI 启动失败的处理。

一些插件在更新后,会出现如下信息的错误:

JAX requires ml_dtypes version 0.4.0 or newer; installed version is 0.3.2.

faq17-1 具体是什么插件原因导致目前还不清楚。 但是这个错误,可以通过如下的方法进行修复

  1. 进入GPU实例的详情页,切换到Web 终端选项页。Web 终端只有在GPU启动的时候才能打开, 如果出现不能进入确保GPU实例已经启动,并稍等30秒后再试

  2. 拷贝如下的命令, 并Web终端中通过鼠标右键进行粘贴,并按回车执行命令。 注意在Web终端里面不用键盘的Ctrl+V 进行粘帖, 请求用鼠标右键的的粘贴进行命令粘贴。

/root/stable-diffusion-webui/venv/bin/python -m pip install -U jax ml-dtypes

如下图: faq17-2

安装完毕后,可以选择重启GPU服务,即可解决问题。

18. ComfyUI视频转绘出现断开链接的错误。

在ComfyUI的一些视频转绘工作流中, 会将转绘过程中生成的数据报错在内存中,这样会导致工作流在运行过程中因为内存不足而出现断开链接的错误。如下图: faq18-1

要解决这样的错误,可以通过如下的方法进行处理:

  1. 选择更高内存规格的GPU实例, 比如 4060-5xmedium-12-1 这个规格有60GB的内存。

faq18-2

  1. 一次不要处理原视频的全部帧,建议30GB的内存,处理720p的视频,根据我们的经验,只能处理接近3秒左右的视频。所以无论是什么规格,都不可能够你将一个非常长的视频一次性处理完毕。

19. 翻译提示词插件会出现出图卡死的问题解决

翻译提示词插件(如下图)大部分时间下都会时是好的, 但是在一些场景下,不知道具体什么场景下,会出现出图卡死的问题, 或者访问网页的时候直接卡死。甚至WebUI网页的内容也无法显示。 faq19-1

如果遇到这样的问题, 还想继续使用WebUI的文生图,就必须将这个插件禁用或删除。 由于此时WebUI已经无法访问或卡死, 所以禁用可能也执行不了。 那就只有删除该插件一个办法。删除的方法如下:

  1. 是打开存储控制台,

  2. 进入存储控制台下 /root/stable-diffusion-webui/extensions/ 目录:

  3. 选中sd-web-prompt-all-in-one 文件夹右键删除,或通过顶部的删除按钮删除。如下图

faq19-2

20. 新建存储后,如何复制已有的模型到新的存储中?

WebUI ComfyUI这些都是Python写的开源软件, 虽然他们提供插件的机制,但是这些插件都要运行在同一个Python运行环境下,很容易因为插件的冲突导致WebUI/ComfyUI无法启动。一但出现这样的情况, 一些简单的错误, 能通过前面FAQ中的一些简单方法修复。但是更多的情况是无法修复的,这时候就需要重新创建一个新的存储。然而新建存储后,你可能又要重新上传一遍模型,这样的做法又费时又费力。所以我们在存储控制台中提供存储间复制文件的功能,操作如下:

  1. 首先打开存储控制台 faq20-1

  2. 找到你要复制到其他存储的目录或文件,右键选择复制到其他存储 faq20-2

  3. 选择你要复制到的存储和该存储上的目录,点击确定进行复制。复制需要时间, 不要立马就删除掉存储, 却目标存储检查复制的文件是否成功,主要是要检查复制的文件大小是否一致,确保一致再删除不要的存储。 faq20-3

  4. 复制完毕,存储控制台界面会弹出如下的窗口 faq20-4

21. WebUI 中ControlNet 使用Reference 报错

在WebUI 中使用Reference, 会出现如下的错误:

ValueError: Incompatible shapes for attention inputs: query.shape: torch.Size([4, 2048, 10, 64]) key.shape : torch.Size([2, 4096, 10, 64]) value.shape: torch.Size([2, 4096, 10, 64]) HINT: We don't support broadcasting, please use `expand` yourself before calling `memory_efficient_attention` if you need to
...

这个是ControlNet WebUI的知名的bug,解决方法如下:设置里搜 Hypertile,然后把 Hypertile U-Net 这个 disable (禁用)掉,保存设置,重载 UI (或重启GPU, 停止GPU再重启)即可。但是一旦不勾选了这个选项,出图细节会差一些。大家按需设置吧。

faq21-1

22. 如何开具发票

  1. 开发票请添加客服微信:MegaEase2022,由客服人员处理开票事宜。
  2. 开票金额为消费金额,请告知客服人员“租户”信息,便于查询可开票金额。
  3. 请提供开票抬头以及开票类型(普票/专票),如需开具专票,需要提供企业一般纳税人证明。