Stable Diffusion 3 đã ra mắt, mời anh em ngắm hình tạo ra bằng AI mới nhất

Theo chia sẻ trên mạng xã hội Reddit cựu CEO Emad Mostaque của Stability AI, người vừa xin từ chức cách đây ít lâu, API của Stable Diffusion 3 đã được cung cấp cho các đơn vị và cá nhân làm nghiên cứu sau quá trình đăng ký sử dụng thử mô hình tạo ảnh bằng thuật toán AI này. Cũng theo anh Mostaque, API luôn luôn ra mắt trước, rồi sau đó từ 2 tuần đến 1 tháng, sẽ bắt đầu có những người huấn luyện API thành những mô hình dạng safetensor cho anh em đang dùng AUTOMATIC1111 hoặc ComfyUI chạy, tạo ra những hình ảnh từ những câu lệnh dạng văn bản.

Trước khi có những safetensor dựa trên API Stable Diffusion 3, những người đã và đang được tiếp cận SD3 đã và đang chiều lòng những anh em mê tạo hình bằng AI bằng cách, mọi người cứ gửi prompt, rồi những người đang nắm giữ API SD3 sẽ tạo hình theo yêu cầu.

Thảo luận trên này rất sôi nổi. Có người đã tổng hợp được những trải nghiệm tạo hình với Stable Diffusion 3, những ưu, nhược điểm và những điều mà những người tạo hình bằng AI cần thay đổi trong cách họ tương tác với mô hình AI:

  • So sánh với DALL-E 3, cách nhân vật con người tương tác với vật thể trong hình vẫn chưa so sánh được về mức độ chân thực.
  • Càng nhiều vật thể xung quanh nhân vật chính của tấm hình, thì phong cách định sẵn của tấm hình theo lệnh của người dùng lại càng không được AI tuân theo.
  • Vì cách vận hành mới, tạo hình bằng những cụm từ khóa rời rạc ngăn cách bằng dấu phẩy sẽ không hiệu quả bằng những câu lệnh dài, chi tiết và tự nhiên về mặt ngôn ngữ.
  • Kết hợp những concept hình ảnh lại với nhau thực sự rất khó.
  • Hình ảnh tạo ra bằng mô hình AI dễ dính artifact do phụ thuộc vào CogVLM trong quá trình đặt tên vật thể ở mỗi tấm hình trong dataset sử dụng để huấn luyện mô hình Stable Diffusion 3.
  • Nếu anh em tạo hình bằng SDXL gặp khó khăn trong việc tạo những khung cảnh hình ảnh phức tạp, thì SD3 cũng không ngoại lệ. SD3 hiểu và làm theo câu lệnh tốt hơn rất nhiều, lấy điều kiện câu lệnh ngắn hơn 77 token (từ hoặc chuỗi từ), dài hơn thì AI sẽ bị khó hiểu.
  • Nếu tạo hình mà có chữ trong hình thì hơi giống ai đó photoshop chữ vào giữa tấm hình chứ trông không tự nhiên.

Và dưới đây là vài ví dụ tạo hình cơ bản bằng Stable Diffusion 3 vừa được chia sẻ trên Reddit:

Prompt: a giant swamp demon crawling out, mist, detailed, intricate roots, horror, wide shot


Prompt: Scientists richard feynman and albert einstein arguing about quantum mechanics in front of a blackboard in princeton university


Prompt: A middle-aged gentleman walks along a sparsely lit avenue in a dense park. His stature is fragile. A cigarette glows in his left hand, his right hand holds the leash of his medium-sized dog. It is a cloudy day with light rain. The photo is a back shot with a slight defocus. Award-winning photo of the year.


Prompt: A tiny human riding a giant mechanical cat into battle – the cat has a cyberpunk themed futuristic cannon on top of it.


Prompt: a muscly brown bunny eating breakfast in the kitchen next to a chubby creamy unicorn, created in a photorealistic style


Prompt: Team Fortress 2 gameplay screenshot, Blue Soldier with a metal helmet holding a rocket launcher, standing on grass. A red Spy is behind the Blue Soldier and has a grin on his face and is raising up his knife. This is taken place in ctf_2fort which is a sandy place with concrete buildings and there is a bridge with a roof in the distance.


Prompt: 8k Houdini render of Swirling smoke, bursts of lightning and magical glowing luminosity


Prompt: An oil painting of a giant menacing spaceship firing laser cannons against a space whale


Prompt: ((high quality, masterpiece,masterwork)) [[low resolution, worst quality, blurry, mediocre, bad art, deformed, disfigured, elongated, disproportionate, anatomically incorrect, unrealistic proportions, mutant, mutated, melted, abstract, surrealism, sloppy, crooked, cropped]] oil painting, oil on board, John Berkey Howard Pyle Ashley Wood Alfons Mucha, poseidon, sitting on a barnacle encrusted throne in an underwater kingdom


Prompt: ((still life of a vase with flowers by a window)), 8k, 4k, detailed, attractive, beautiful, impressive, photorealistic, realistic, cinematic composition, volumetric lighting, high-resolution, vivid, detailed, stunning, professional, lifelike, crisp, flawless, DSLR, 4k, 8k, 16k, 1024, 2048, 4096, detailed, sharp, best quality, high quality, highres, absurdres

