From Zero to Hero (P21): Stable Diffusion sẽ nhanh và tốn ít tài nguyên hơn với những bản cập nhật mới này

Với sự phát triển nhanh chóng, AI nói chung và Stable Diffusion nói riêng không chỉ tốn nhiều giấy mực của các nhà báo mà còn tốn không ít tài nguyên của người sử dụng khi ngày càng đòi hỏi cấu hình cao.

Tuy nhiên với các bản cập nhật riêng biệt dưới đây, các ông lớn đưa ra thông điệp rằng Stable Diffusion sẽ nhanh, nhẹ và dễ tiếp cận đến mọi người hơn. Dưới đây là giới thiệu, cũng như ưu nhược điểm của 2 bản cập nhật tiềm năng nhất sẽ thay thế ho Stable Diffusion hiện tại.

:one: Stable Cascade

Là con đẻ của Stability Ai – nhà phát triển Stable Diffusion, tất nhiên là Stable Cascade nhận được rất nhiều quan tâm và kỳ vọng.

Mô hình này được xây dựng dựa trên kiến trúc Würstchen và điểm khác biệt chính so với các mô hình khác, chẳng hạn như Stable Diffusion, nằm ở việc nó hoạt động trên một không gian tiềm ẩn (latent space) nhỏ hơn nhiều. Không gian tiềm ẩn càng nhỏ, bạn càng có thể chạy chương trình một cách nhanh chóng hơn và việc đào tạo (training) cũng trở nên rẻ hơn. Stable Diffusion sử dụng hệ số nén là 8, dẫn đến việc một hình ảnh 1024x1024 được mã hóa thành kích thước 128x128. Stable Cascade đạt được hệ số nén là 42, tức là nó có thể mã hóa một hình ảnh 1024x1024 thành kích thước 24x24, trong khi vẫn duy trì khả năng tái tạo hình ảnh rõ nét. Mô hình điều kiện-văn bản (text-conditional) sau đó được đào tạo trong không gian tiềm ẩn đã được nén ở mức độ cao này. Những phiên bản kiến trúc trước đó đã giúp giảm thiểu 16 lần chi phí so với Stable Diffusion 1.5.

:100: :100: Ưu điểm: Mô hình này phù hợp khi ứng dụng để tối ưu hóa hiệu năng. Hơn nữa, với phương pháp này, bạn cũng có thể áp dụng tất cả những phần mở rộng – extension như finetuning (tinh chỉnh), LoRA, ControlNet, IP-Adapter, LCM, v.v.

Stable Cascade hoạt động tốt nhất về cả khả năng căn chỉnh prompt và chất lượng ảnh trong hầu hết các so sánh. Hình ảnh trên cho thấy kết quả từ một đánh giá của con người cho một tập hợp các prompt thuộc dạng parti-prompts (link) và các prompt mang tính thẩm mỹ. Cụ thể, Stable Cascade (30 steps) đã được so sánh với Playground v2 (50 steps), SDXL (50 steps), SDXL Turbo (1 steps) và Würstchen v2 (30 steps).

:boom: :boom:Nhược điểm: Ghi nhận của người sử dụng cho thấy một số lora, checkpoint không chạy được ở Cascade có thể do cách training khác nhau; một số extension cũng chưa hoạt động.

:two: Stable Diffusion Forge

Stable Diffusion WebUI Forge là một nền tảng được xây dựng trên Stable Diffusion WebUI (dựa trên Gradio) nhằm mục đích đơn giản hóa quá trình phát triển, tối ưu hóa quản lý tài nguyên và tăng tốc độ suy luận.

Cái tên “Forge” được lấy cảm hứng từ “Minecraft Forge”. Dự án này đặt mục tiêu trở thành công cụ “Forge” cho SD WebUI.

Đây là sản phẩm của team lllyasviel, người đã tạo ra phiên bản Foocus và Controlnet lừng danh

:100: :100: Ưu điểm:

Cấu hình GPU thông dụng: Nếu bạn sử dụng một GPU thông dụng với 8GB VRAM, bạn có thể nhận được tốc độ suy luận (it/s) tăng khoảng 30~45%, dung lượng bộ nhớ GPU cao nhất (trong Trình quản lý tác vụ) sẽ giảm khoảng 700MB đến 1.3GB, độ phân giải khuếch tán (diffusion) tối đa (không bị OOM) tăng khoảng 2 đến 3 lần, và kích thước hàng loạt khuếch tán tối đa (không bị OOM) tăng khoảng 4 đến 6 lần.

Cấu hình GPU ít mạnh hơn: Nếu bạn sử dụng GPU ít mạnh hơn như 6GB VRAM, bạn có thể nhận được tốc độ suy luận (it/s) tăng khoảng 60~75%, dung lượng bộ nhớ GPU cao nhất (trong Trình quản lý tác vụ) giảm khoảng 800MB đến 1.5GB, độ phân giải khuếch tán tối đa (không bị OOM) tăng khoảng 3 lần, kích thước lô khuếch tán tối đa (không bị OOM) tăng khoảng 4 lần.

Cấu hình GPU mạnh mẽ: Nếu sử dụng GPU mạnh như 4090 với 24GB VRAM, bạn có thể nhận được tốc độ suy luận (it/s) tăng khoảng 3~6%, bộ nhớ GPU cao nhất (trong Trình quản lý tác vụ) giảm khoảng 1GB đến 1.4GB, độ phân giải khuếch tán tối đa (không bị OOM) tăng khoảng 1.6 lần, kích thước lô khuếch tán tối đa (không bị OOM) tăng khoảng 2 lần.


Kết quả không đổi nhưng thời gian giảm từ 19.1s xuống 13.6; ram cũng sử dụng ít hơn

(Hiệu năng có hiệu suất cao nhất với cấu hình yếu)

nhiều tính năng mới trở nên khả thi và được hỗ trợ trong Forge, bao gồm SVD, Z123, masked Ip-adapter, masked controlnet, photomaker, … Không còn phải điều chỉnh trực tiếp mô hình UNet (monkey-patch) và gặp xung đột với các extension khác!

Nhược điểm: 1 số extension chưa chạy trên webui Forge như AnimateDiff. Forge cũng được cho là sẽ càng tiêu tốn nhiều VRAM khi chạy liên tục nhiều giờ

2 Lượt thích