Hướng dẫn sử dụng Stable Diffusion (SD) cơ bản

Ở bài trước, bọn mình đã cài đặt Stable Diffusion Web UI thành công.

Ở bài này, mình sẽ hướng dẫn các bạn một số khái niệm cơ bản của Stable Diffusion cũng như các thuật ngữ mà các bạn nên biết nha! Lý thuyết hơi chán nhưng sẽ giúp các bạn hiểu hơn khi thực hành đó!

Stable Diffusion là cái gì cơ?

Stable Diffusion (SD) là một mô hình trí tuệ nhân tạo tạo sinh (Generative AI - AI tạo sinh) có khả năng tạo ra ảnh từ văn bản và hình ảnh. SD có thể được dùng để tạo ảnh anime, ảnh chụp, design hoặc đủ thứ ảnh khác.

Model các bạn sẽ dùng trong suốt quá trình học là StableDiffusion v1.5 và các phiên bản fine-tune (tinh chỉnh) của nó.

Đây là phiên bản lâu đời nhất, chất lượng ổn định, đòi hỏi cấu hình nhẹ và hỗ trợ rất là nhiều thứ hay ho như Lora/ControlNet và nhiều plugin khác.

Một số phiên bản mới hơn như SDXL (sắp tới là SD3) đòi hỏi cấu hình cao hơn, các plugin/extension cũng chưa phổ biến bằng nên bọn mình sẽ không hướng dẫn.

Một số khái niệm liên quan

Stable Diffusion: Đây là model open-source được phát hành với Stability-AI. Bạn có thể hiểu nó giống như một cái máy in 3D có thể in đủ thứ.
Checkpoint models/Dreambooth models/Fine-tune model: Đây là các model được tuỳ chỉnh và train dựa theo model gốc của StableDiffusion. Có thể hiểu nó là máy in 3D đã được mod/nâng cấp để in ảnh 3D, in ảnh anime đẹp hơn v...v
Lora (Low-Rank Adaptation): Bạn có thể hiểu nôm na nó giống như filter/module phụ gắn vào máy in, giúp máy in in ảnh đẹp hơn, hoặc nạp thêm dữ liệu để in ra được nhân vật nào đó mà máy in chưa có
UI (Stable Diffuision WebUI, ComfyUI): SD là 1 cái máy in nhưng không có nút bấm hay màn hình gì cả. Các UI như SD WebUI/ComfyUI là giao diện gắn thêm cho máy in, giúp các bạn điều khiển, nhập prompt v...v

Các khái niệm khó hiểu sẽ được giải thích cụ thể hơn ở những bài sau nhé!

Stable Diffusion có thể làm gì?

1. Tạo hình ảnh từ văn bản

Cách sử dụng cơ bản nhất của Stable Diffusion là tạo hình từ văn bản (txt2img). Gõ nội dung bạn muốn tạo hình, bấm Generate và chờ AI tạo ra ảnh mới.

Dưới đây là một số ví dụ về hình ảnh bạn có thể tạo ra với Stable Diffusion. alt text

Prompt: realistic futuristic city-downtown, sunset

2. Tạo hình ảnh từ một hình ảnh khác

Tạo hình từ hình (img2img) giúp bạn tạo tạo ra một hình ảnh mới dựa trên một hình ảnh đầu vào và một prompt.

Ví dụ mình đưa ảnh con chó và nhờ nó vẽ thêm thành con cáo Prompt: cinematic film still cinematic photo 4k, 35mm photograph realistic, head focus realistic cute fox,a hat with goggles, forest magic, mystic mushrooms , magic shining mushrooms detailed,a bamboo stick in its hand and a hat on its head, spark shines, reflection detailed, ultra-quality, hyper-realistic, highly detailed, 4k, texture realistic ,natural fur imperfection, realistic fur ,moonlight, shadows realistic, visible dust suspended in a moonbeam crossing forest realistic, ambiant occlusion realistic ,transparency realistic, close eyes . shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, film grain, grainy

Negative Prompt: anime, cartoon, graphic, text, painting, crayon, graphite, abstract, glitch, deformed, mutated, ugly, disfigured, drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly, splash art, semi-realistic, draw, open eyes,river

Input	Output

3. Chỉnh sửa (inpaiting) và cải thiện hình ảnh

Sử dụng WebUI, bạn có thể xóa hoặc che vùng bạn muốn chỉnh sửa hoặc vẽ thêm. (Cái này dễ hơn Photoshop nhiều nha.)

Ví như trong trong ảnh, mình khoanh vùng con chó, sau đó gõ prompt để SD vẽ con thỏ nhét vào.

Input	Output

Còn một số tính năng khác như upscaling, train LORA, controlNet, bọn mình sẽ giải thích cụ thể hơn trong các bài sau nhé!

Ok, lý thuyết vậy cũng gần đủ rồi. Trước khi bắt đầu nghịch WebUI, các bạn hãy học hết bài sau để học cách viết prompt chuẩn chỉ để tạo ảnh cho đẹp nha!

Tóm tắt bài học

Stable Diffusion (SD) là một mô hình trí tuệ nhân tạo (AI) tạo sinh, cho phép người dùng tạo ra hình ảnh từ văn bản và hình ảnh khác.
Mô hình chính được sử dụng là StableDiffusion v1.5, nổi bật với chất lượng ổn định và yêu cầu cấu hình nhẹ. Các phiên bản mới hơn như SD3 và SDXL yêu cầu cấu hình cao hơn và chưa phổ biến.
Các khái niệm quan trọng bao gồm:
- Checkpoint models: Mô hình tùy chỉnh dựa trên StableDiffusion.
- Lora (Low-Rank Adaptation): Bộ lọc giúp cải thiện chất lượng hình ảnh.
- UI (Giao diện người dùng): Các giao diện như SD WebUI giúp điều khiển và nhập prompt.
SD có thể tạo hình ảnh từ văn bản (txt2img), hình ảnh khác (img2img), và cho phép chỉnh sửa (inpainting) hình ảnh một cách dễ dàng.

Câu hỏi ôn tập

Stable Diffusion khác gì so với các mô hình AI tạo ảnh khác và tại sao lại chọn phiên bản 1.5?

Stable Diffusion là mô hình AI tạo sinh mã nguồn mở, cho phép người dùng tự do chỉnh sửa và cải tiến. Phiên bản 1.5 được ưa chuộng vì có cấu hình nhẹ, chất lượng ổn định và hỗ trợ nhiều plugin như Lora/ControlNet. Các phiên bản mới hơn (SD2, SDXL) tuy có chất lượng cao hơn nhưng đòi hỏi cấu hình mạnh và chưa có nhiều plugin hỗ trợ.
Stable Diffusion có những chức năng chính nào trong việc xử lý hình ảnh?

Stable Diffusion có 3 chức năng chính:
1. Text-to-Image: tạo ảnh từ mô tả văn bản.
2. Image-to-Image: biến đổi ảnh dựa trên ảnh gốc và prompt.
3. Inpainting: chỉnh sửa/vẽ thêm một phần cụ thể trong ảnh.
4. Ngoài ra còn có các tính năng phụ như upscaling, train Lora, và ControlNet.
Tại sao cần có UI như WebUI hay ComfyUI trong việc sử dụng Stable Diffusion?

UI đóng vai trò như giao diện điều khiển cho Stable Diffusion, giúp người dùng dễ dàng tương tác với model thông qua các nút bấm, form nhập liệu. Nếu không có UI, việc sử dụng Stable Diffusion sẽ rất phức tạp vì phải tương tác trực tiếp với code.

Cảnh Báo!