ComfyUI Ep04 : IMG2IMG and LoRA Basics

การทำงาน Image-to-Image และ LoRA ใน ComfyUI

ในบทความนี้เราจะสำรวจวิธีการทำงานแบบ Image-to-Image และการใช้โมเดล LoRA ใน ComfyUI เพื่อเพิ่มประสิทธิภาพการสร้างภาพด้วย Stable Diffusion AI เรียนรู้การโหลดและประมวลผลภาพ รวมถึงการปรับค่าความเข้มของการลดเสียงรบกวนเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด.

สารบัญ

การทำงาน Image-to-Image (img2img)

การทำงานแบบ Image-to-Image หรือ img2img เป็นกระบวนการที่ช่วยให้คุณสามารถนำภาพที่มีอยู่มาใช้เป็นพื้นฐานในการสร้างภาพใหม่ได้ โดยการปรับแต่งและปรับเปลี่ยนรายละเอียดตามที่คุณต้องการ

การโหลดภาพ

เริ่มต้นด้วยการโหลดภาพที่คุณต้องการใช้ในกระบวนการนี้ คุณสามารถค้นหาน็อตที่เรียกว่า “load image” เพื่ออัพโหลดภาพที่คุณเลือก โดยระบบจะให้ความสามารถในการเลือกภาพจากคอมพิวเตอร์ของคุณ

การโหลดภาพ

การแปลงภาพเป็นรูปแบบที่ Stable Diffusion เข้าใจ

เมื่อคุณโหลดภาพแล้ว คุณต้องแปลงภาพให้เป็นรูปแบบที่ Stable Diffusion สามารถเข้าใจได้ ซึ่งในกรณีนี้คือการใช้ VAE encode node เพื่อแปลงภาพของคุณให้เป็น latent image ที่สามารถนำไปใช้ในกระบวนการถัดไปได้

การแปลงภาพเป็นรูปแบบที่ Stable Diffusion เข้าใจ

การปรับค่าความเข้มของการลดเสียงรบกวน

ค่าความเข้มของการลดเสียงรบกวน (denoise) เป็นสิ่งสำคัญที่ช่วยในการควบคุมว่าภาพที่สร้างขึ้นจะมีความแตกต่างจากภาพที่โหลดมาแค่ไหน โดยค่าที่ต่ำจะทำให้ภาพใหม่มีความคล้ายคลึงกับภาพเดิมมากขึ้น ในขณะที่ค่าที่สูงจะทำให้ภาพใหม่มีความแตกต่างอย่างชัดเจน

การปรับค่าความเข้มของการลดเสียงรบกวน

การปรับขนาดภาพก่อนการสร้าง

การปรับขนาดภาพก่อนที่จะทำการสร้างภาพใหม่เป็นสิ่งที่สำคัญ เพื่อให้แน่ใจว่าโมเดลสามารถทำงานได้อย่างมีประสิทธิภาพ คุณสามารถใช้ฟังก์ชัน “upscale image” เพื่อกำหนดขนาดที่เหมาะสมสำหรับภาพของคุณ

การปรับขนาดภาพก่อนการสร้าง

การคัดลอกและวางภาพที่สร้างขึ้น

หลังจากที่คุณได้สร้างภาพใหม่แล้ว คุณสามารถคัดลอกภาพที่สร้างขึ้นและนำไปใช้งานได้ทันที โดยไม่จำเป็นต้องบันทึกภาพลงเครื่องและโหลดใหม่อีกครั้ง เพียงแค่ใช้การคัดลอกภาพและวางลงในน็อตที่คุณต้องการ

การคัดลอกและวางภาพที่สร้างขึ้น

การทำความเข้าใจ LoRA

LoRA หรือ Low-Rank Adaptation เป็นวิธีการที่ใช้ในการปรับแต่งโมเดลประสาทที่ได้รับการฝึกฝนล่วงหน้า โดยจะทำการปรับแต่งเฉพาะบางส่วนที่มีเป้าหมายในโมเดลเท่านั้น ซึ่งทำให้กระบวนการนี้รวดเร็วและไม่ต้องใช้ทรัพยากรมากนัก เพื่อให้สามารถปรับโมเดลให้เข้ากับงานหรือข้อมูลใหม่ๆ ได้อย่างมีประสิทธิภาพ

LoRA คืออะไร

การดาวน์โหลด LoRA

คุณสามารถดาวน์โหลดโมเดล LoRA ได้จากเว็บไซต์ CIVID AI โดยไปที่แท็บโมเดลและเลือกประเภท LoRA จากตัวกรอง หลังจากนั้นเลือกโมเดลที่ต้องการและตรวจสอบให้แน่ใจว่าใช้โมเดลพื้นฐานที่ตรงกัน

การดาวน์โหลดโมเดล LoRA

การเพิ่ม LoRA ลงใน Workflow

เมื่อคุณดาวน์โหลดโมเดล LoRA เสร็จแล้ว ให้นำไปวางในโฟลเดอร์ models และ subfolder Loras ใน ComfyUI จากนั้นเปิด ComfyUI และกดปุ่ม refresh เพื่อให้ระบบเห็นโมเดลใหม่

การเพิ่ม LoRA ลงใน Workflow

การใช้ Trigger Words

การใช้คำกระตุ้น (Trigger Words) เป็นสิ่งสำคัญเมื่อใช้งาน LoRA คำเหล่านี้ช่วยให้โมเดลเข้าใจว่าคุณต้องการให้มันสร้างภาพอย่างไร โดยคุณจะต้องใช้คำเหล่านี้ใน prompt ที่คุณกำหนด

การใช้ Trigger Words

การสร้างภาพด้วย LoRA

เมื่อคุณได้ตั้งค่า LoRA และคำกระตุ้นแล้ว คุณสามารถเริ่มสร้างภาพได้โดยการกำหนด prompt ที่เหมาะสม เพื่อให้ได้ผลลัพธ์ที่ตรงตามที่คุณต้องการ โดยสามารถปรับค่า strength model เพื่อควบคุมความเข้มของการปรับแต่งได้

การสร้างภาพด้วย LoRA

การปรับค่า strength model ควรตั้งอยู่ระหว่าง 0.3 ถึง 1 เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด หากตั้งค่าสูงเกินไปอาจทำให้ภาพที่ได้ไม่ตรงตามที่คาดหวัง

การปรับค่า strength model

การเปลี่ยน Workflow เป็น img2img

การเปลี่ยน Workflow จากการสร้างภาพแบบพื้นฐานไปเป็น img2img จะช่วยให้คุณสามารถใช้ภาพที่มีอยู่เพื่อสร้างภาพใหม่ได้อย่างมีประสิทธิภาพมากขึ้น

เริ่มต้นด้วยการลบโหนด latent image ที่ว่างเปล่าออก และเพิ่มโหนด “load image” เพื่อโหลดภาพที่คุณต้องการใช้เป็นฐานในการสร้างภาพใหม่

การเพิ่มโหนด load image

การเข้ารหัสภาพด้วย VAE

หลังจากที่คุณโหลดภาพแล้ว คุณจะต้องใช้โหนด “VAE encode” เพื่อแปลงภาพให้เป็นรูปแบบที่ Stable Diffusion เข้าใจได้

การเชื่อมต่อระหว่างโหนด load image และ VAE encode เป็นสิ่งสำคัญ เพื่อให้แน่ใจว่าภาพถูกเข้ารหัสอย่างถูกต้อง

การเข้ารหัสภาพด้วย VAE

การปรับค่า Denoise

เมื่อคุณได้ภาพที่เข้ารหัสแล้ว การปรับค่าความเข้มของการลดเสียงรบกวน (denoise) จะช่วยให้คุณควบคุมความแตกต่างระหว่างภาพที่สร้างขึ้นและภาพต้นฉบับได้

การตั้งค่าที่เหมาะสมจะทำให้คุณได้ผลลัพธ์ที่ตรงตามที่ต้องการ โดยทั่วไปแล้วควรเริ่มต้นที่ประมาณ 0.5 และปรับค่าจนกว่าจะได้ผลลัพธ์ที่พอใจ

การปรับค่า Denoise

การเพิ่มคำกระตุ้นใน Prompt

อย่าลืมเพิ่มคำกระตุ้น (trigger words) ที่เหมาะสมใน prompt ของคุณ เพื่อให้โมเดลสามารถสร้างภาพตามที่คุณต้องการได้

ตัวอย่างเช่น หากคุณต้องการให้ภาพของกระต่ายมีลักษณะเป็นไฟ ให้ใช้คำว่า “fire that looks like” ตามด้วยรายละเอียดอื่นๆ

การเพิ่มคำกระตุ้นใน Prompt

การสร้างภาพใหม่

เมื่อคุณได้ตั้งค่าทุกอย่างเสร็จแล้ว คุณสามารถเริ่มสร้างภาพใหม่ได้ โดยการคลิกที่ปุ่ม cue เพื่อดูผลลัพธ์ที่ได้จากการประมวลผล

คุณสามารถปรับเปลี่ยนค่าและ prompt ตามที่ต้องการเพื่อให้ได้ภาพที่ดีที่สุด

การสร้างภาพใหม่

การสรุปขั้นตอนการทำงาน

เพื่อให้เข้าใจง่ายขึ้น เราจะสรุปขั้นตอนการทำงานของ img2img และ LoRA ดังนี้:

  1. โหลดภาพที่ต้องการใช้เป็นฐานในการสร้างภาพใหม่
  2. ใช้โหนด VAE encode เพื่อแปลงภาพให้เป็นรูปแบบที่ Stable Diffusion เข้าใจ
  3. ปรับค่าความเข้มของการลดเสียงรบกวนให้เหมาะสม
  4. เพิ่มคำกระตุ้นใน prompt ที่จะใช้ในการสร้างภาพ
  5. สร้างภาพใหม่และตรวจสอบผลลัพธ์

การสรุปขั้นตอนการทำงาน

คำถามที่พบบ่อย

1. ฉันสามารถใช้ภาพใดๆ ในกระบวนการ img2img ได้หรือไม่?

ใช่ คุณสามารถใช้ภาพใดๆ ที่ต้องการเป็นพื้นฐานในการสร้างภาพใหม่ แต่ควรเลือกภาพที่มีคุณภาพดีเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

2. ค่าความเข้มของการลดเสียงรบกวนควรตั้งอยู่ที่เท่าไหร่?

ค่าความเข้มของการลดเสียงรบกวนควรตั้งอยู่ระหว่าง 0.3 ถึง 1 โดยเริ่มต้นที่ประมาณ 0.5 และปรับตามผลลัพธ์ที่ต้องการ

3. การใช้คำกระตุ้นมีความสำคัญอย่างไร?

คำกระตุ้นช่วยให้โมเดลเข้าใจว่าคุณต้องการให้มันสร้างภาพอย่างไร ดังนั้นการเลือกคำกระตุ้นที่เหมาะสมจึงมีความสำคัญต่อผลลัพธ์ที่ได้

Free Stuff!

Check out this really cool thing

Click me

 

Leave a Comment