Hướng dẫn sử dụng Stable Diffusion (SD) cơ bản

Ở bài trước, bọn mình đã cài đặt Stable Diffusion Web UI thành công.

Ở bài này, mình sẽ hướng dẫn các bạn một số khái niệm cơ bản của Stable Diffusion cũng như các thuật ngữ mà các bạn nên biết nha! Lý thuyết hơi chán nhưng sẽ giúp các bạn hiểu hơn khi thực hành đó!

Stable Diffusion là cái gì cơ?

Stable Diffusion (SD) là một mô hình trí tuệ nhân tạo tạo sinh (Generative AI - AI tạo sinh) có khả năng tạo ra ảnh từ văn bản và hình ảnh. SD có thể được dùng để tạo ảnh anime, ảnh chụp, design hoặc đủ thứ ảnh khác.

Model các bạn sẽ dùng trong suốt quá trình học là StableDiffusion v1.5 và các phiên bản fine-tune (tinh chỉnh) của nó.

Đây là phiên bản lâu đời nhất, chất lượng ổn định, đòi hỏi cấu hình nhẹ và hỗ trợ rất là nhiều thứ hay ho như Lora/ControlNet và nhiều plugin khác.

Một số phiên bản mới hơn như SD2, SDXL (sắp tới là SD3) đòi hỏi cấu hình cao hơn, các plugin/extension cũng chưa phổ biến bằng nên bọn mình sẽ không hướng dẫn.

Một số khái niệm liên quan

Stable Diffusion: Đây là model open-source được phát hành với Stability-AI. Bạn có thể hiểu nó giống như một cái máy in 3D có thể in đủ thứ.
Checkpoint models/Dreambooth models/Fine-tune model: Đây là các model được tuỳ chỉnh và train dựa theo model gốc của StableDiffusion. Có thể hiểu nó là máy in 3D đã được mod/nâng cấp để in ảnh 3D, in ảnh anime đẹp hơn v…v
Lora (Low-Rank Adaptation): Bạn có thể hiểu nôm na nó giống như filter/module phụ gắn vào máy in, giúp máy in in ảnh đẹp hơn, hoặc nạp thêm dữ liệu để in ra được nhân vật nào đó mà máy in chưa có
UI (Stable Diffuision WebUI, ComfyUI): SD là 1 cái máy in nhưng không có nút bấm hay màn hình gì cả. Các UI như SD WebUI/ComfyUI là giao diện gắn thêm cho máy in, giúp các bạn điều khiển, nhập prompt v…v

Các khái niệm khó hiểu sẽ được giải thích cụ thể hơn ở những bài sau nhé!

Stable Diffusion có thể làm gì?

1. Tạo hình ảnh từ văn bản

Cách sử dụng cơ bản nhất của Stable Diffusion là tạo hình từ văn bản (txt2img). Gõ nội dung bạn muốn tạo hình, bấm Generate và chờ AI tạo ra ảnh mới.

Dưới đây là một số ví dụ về hình ảnh bạn có thể tạo ra với Stable Diffusion. alt text

Prompt: realistic futuristic city-downtown, sunset

2. Tạo hình ảnh từ một hình ảnh khác

Tạo hình từ hình (img2img) giúp bạn tạo tạo ra một hình ảnh mới dựa trên một hình ảnh đầu vào và một prompt.

Ví dụ mình đưa ảnh con chó và nhờ nó vẽ thêm thành con cáo Prompt: cinematic film still cinematic photo 4k, 35mm photograph realistic, head focus realistic cute fox,a hat with goggles, forest magic, mystic mushrooms , magic shining mushrooms detailed,a bamboo stick in its hand and a hat on its head, spark shines, reflection detailed, ultra-quality, hyper-realistic, highly detailed, 4k, texture realistic ,natural fur imperfection, realistic fur ,moonlight, shadows realistic, visible dust suspended in a moonbeam crossing forest realistic, ambiant occlusion realistic ,transparency realistic, close eyes . shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, film grain, grainy

Negative Prompt: anime, cartoon, graphic, text, painting, crayon, graphite, abstract, glitch, deformed, mutated, ugly, disfigured, drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly, splash art, semi-realistic, draw, open eyes,river

Input	Output

3. Chỉnh sửa (inpaiting) và cải thiện hình ảnh

Sử dụng WebUI, bạn có thể xóa hoặc che vùng bạn muốn chỉnh sửa hoặc vẽ thêm. (Cái này dễ hơn Photoshop nhiều nha.)

Ví như trong trong ảnh, mình khoanh vùng con chó, sau đó gõ prompt để SD vẽ con thỏ nhét vào.

Input	Output

Còn một số tính năng khác như upscaling, train LORA, controlNet, bọn mình sẽ giải thích cụ thể hơn trong các bài sau nhé!

Ok, lý thuyết vậy cũng gần đủ rồi. Trước khi bắt đầu nghịch WebUI, các bạn hãy học hết bài sau để học cách viết prompt chuẩn chỉ để tạo ảnh cho đẹp nha!