เปิด Riffusion พิมพ์พร้อมต์เช่น "lo-fi jazz with rain and distant trumpet" กด generate แล้วบางอย่างที่น่าสนใจจริงๆ ก็ออกมา เนื้อสัมผัสที่ชื้นและพร่าเลือน ฟังดูเหมือนถูกบันทึกในห้องน้ำคาเฟ่ปี 1973 คุณเล่นสองครั้ง พยักหน้า แล้วก็ตระหนักว่า: มันยาวแค่ 28 วินาที ไม่มีเวิร์สหรือคอรัส และคุณไม่แน่ใจว่าจะใส่ในโปรเจกต์เชิงพาณิชย์ได้หรือเปล่า นั่นคือประสบการณ์ Riffusion ในหนึ่งย่อหน้า
ไม่มีสิ่งใดในนั้นเป็นการวิจารณ์สิ่งที่โปรเจกต์นี้ตั้งใจทำ Riffusion เริ่มต้นเป็นการทดลองโอเพ่นซอร์ส — การสร้างเสียงโดยการรัน diffusion ผ่านภาพสเปกโตรแกรม ซึ่งถือว่าเสียงเป็นปัญหา visual latent space แนวคิดนั้นเป็นเรื่องใหม่จริงๆ แต่ "ใหม่จริงๆ" กับ "เครื่องมือที่ฉันสามารถใช้เพื่อทำเพลงให้เสร็จวันนี้" เป็นข้อกำหนดที่ต่างกัน ถ้าคุณต้องการแทร็กสี่นาทีที่มีโครงสร้างเหมาะสม เสียงร้องที่เข้าใจได้ และใบอนุญาตที่ชัดเจน Riffusion ไม่ใช่จุดเริ่มต้นที่เหมาะสม บทความนี้ครอบคลุมห้าทางเลือกที่เป็นแบบนั้น และอธิบายวิธีเลือกระหว่างพวกมัน
สิ่งที่ Riffusion เก่งจริงๆ
ก่อนจะพูดถึงทางเลือก ควรระบุอย่างชัดเจนว่า Riffusion ยังได้รับตำแหน่งในเวิร์กโฟลว์อยู่ที่ไหน
เนื้อสัมผัสและบรรยากาศเป็นเอาต์พุตที่แข็งแกร่งที่สุดของมัน ถ้าคุณต้องการเตียงแอมเบียนต์ โดรนอุตสาหกรรม หรือบางอย่างที่ฟังดูเหมือนสองแนวเพลงกำลังชนกันกลางเที่ยวบิน การสร้างตามสเปกโตรแกรมของ Riffusion สามารถผลิตผลลัพธ์ที่รู้สึกน้อยกว่า "ป็อป AI ที่เรียบร้อย" และมากกว่า "การบันทึกภาคสนามบวกการสังเคราะห์" นั่นเป็นตัวสร้างความแตกต่างที่แท้จริงสำหรับนักออกแบบเสียง บรรณาธิการตัวอย่าง และโปรดิวเซอร์การทดลอง
ลูปสั้นคือจุดที่มันเปล่งประกายในเชิงโครงสร้าง เมื่อคุณไม่ต้องการเพลง — คุณต้องการลูปแปดบาร์เพื่อวางใต้พากย์เสียง หรือเนื้อสัมผัสเพื่อวางชั้นหลังอินโทรพอดแคสต์ — ความยาวของเอาต์พุตจะหยุดเป็นข้อจำกัดและกลายเป็นฟีเจอร์ คลิปสั้นพอที่จะตรวจสอบอย่างรวดเร็วและปฏิเสธโดยไม่มีค่าใช้จ่ายมาก
การผสมแนวเพลงที่รู้สึกอึดอัดในตัวสร้างที่มีโครงสร้างมากกว่านั้นเป็นเรื่องปกติใน Riffusion "Bossa nova but through a broken cassette deck" ไม่ใช่พร้อมต์แปลกที่นั่น แนวทาง diffusion ของโมเดลผลิตการผสมที่ตัวสร้างที่ฝึกเสียงร้องมากกว่าบางครั้งทำให้ง่ายเกินไปเป็นป้ายแนวเพลงหนึ่งหรืออีกป้าย
ที่ Riffusion ขาดไป
ช่องว่างปรากฏขึ้นในทันทีที่คุณต้องการเพลงแทนที่จะเป็นเนื้อสัมผัส
โครงสร้างเพลงเต็มเป็นข้อจำกัดที่ชัดเจนที่สุด คลิป Riffusion ไม่ได้ทำตามสถาปัตยกรรมเวิร์ส-คอรัส-บริดจ์อย่างน่าเชื่อถือ คุณได้ส่วนของบรรยากาศ ไม่ใช่เพลงที่มีส่วนโค้งดราม่า การขยายคลิปโดยใช้ฟีเจอร์ลูปของเครื่องมือช่วยได้บ้าง แต่การเปลี่ยนผ่านระหว่างส่วนต่างๆ มักไม่ลงตัวด้วยการเปลี่ยนแปลงแบบไดนามิกที่ทำให้ผู้ฟังรู้สึกว่าเพลงเคลื่อนไหว
ความสอดคล้องของเสียงร้องเสื่อมโทรมอย่างรวดเร็ว Riffusion สามารถสร้างบางอย่างที่ฟังดูเหมือนการร้องเพลงโดยประมาณ แต่หน่วยเสียงมักเบลอหรือสมมติ คุณไม่สามารถควบคุมเส้นทำนอง ฮุคเนื้อเพลง หรือแม้แต่ว่าเสียงร้องจะอยู่ในคีย์ตลอดคลิป 90 วินาที สำหรับโปรเจกต์ใดก็ตามที่เนื้อเพลงสำคัญ — แร็พ ป็อป R&B นักร้องนักแต่งเพลง — นี่คือเหตุผลที่ไม่ผ่านการคัดเลือกด้วยตัวเอง
ความยาวมีเพดานที่แข็ง แพลตฟอร์มไม่สร้างแทร็กสี่นาทีโดยกำเนิด มีวิธีแก้ปัญหา แต่ต้องมีการเย็บด้วยมือและแนะนำรอยต่อที่ได้ยินซึ่งทำลายผลลัพธ์สุดท้าย
การควบคุมพร้อมต์นั้นหลวมโดยการออกแบบ แนวทาง spectrogram นั้นมีความซื่อสัตย์ต่อพร้อมต์น้อยกว่าโดยเนื้อแท้เมื่อเทียบกับโมเดลที่ฝึกโดยตรงบนเมทาดาต้าและโครงสร้างเพลง คุณสามารถโน้มน้าวทิศทางได้แต่ไม่ค่อยระบุได้ ทำให้การทำซ้ำช้า: คุณกำลังจำกัดพื้นที่ความน่าจะเป็นแทนที่จะปรับพารามิเตอร์
การส่งออกสเต็มไม่พร้อมใช้งาน คุณไม่สามารถดึงชั้นเสียงร้องออกจากบรรเลง ซึ่งสำคัญถ้าคุณต้องการรีมิกซ์ ปรับระดับเสียงใหม่ หรือแค่ใช้บีตเพียงอย่างเดียว
การออกใบอนุญาตการใช้งานเชิงพาณิชย์ไม่ชัดเจนในประวัติศาสตร์ ต้นกำเนิดโอเพ่นซอร์สและข้อกำหนดของผลิตภัณฑ์ที่โฮสต์ไม่ได้แก้ไขอย่างชัดเจนว่า "คุณสามารถสร้างรายได้จากสิ่งนี้" สำหรับการใช้งานมืออาชีพ ความคลุมเครือนั้นมีต้นทุนที่แท้จริง
ห้าทางเลือกที่จัดการงานเพลงเต็ม
Suno
Suno เป็นมาตรฐานสำหรับเพลงที่สร้างด้วย AI ที่มีโครงสร้างจริง มันผลิตแทร็กที่ทำตามรูปแบบเพลงป็อปและฮิปฮอปที่รู้จักกัน — อินโทร เวิร์ส คอรัส บริดจ์ เอาโทร — พร้อมเสียงร้องที่เรียงทำนองจริงๆ และอยู่ในคีย์โดยประมาณ การผสานเนื้อเพลงแข็งแกร่งที่สุดในหมวดนี้: สิ่งที่คุณเขียนในพร้อมต์ปรากฏในเสียงในรูปแบบที่รู้จักได้
จุดอ่อนของมันคือความสม่ำเสมอในระดับขนาด เอาต์พุตของ Suno มักฟังดูเหมือน Suno จังหวะเสียง โปรไฟล์ reverb วิธีที่คอรัสยกขึ้น — รูปแบบเหล่านี้ซ้ำข้ามพร้อมต์ สำหรับเพลงหนึ่งหรือสองเพลง คุณภาพสูง สำหรับแค็ตาล็อก รอยพิมพ์มือก็ชัดเจน โมเดลยังมีความอดทนจำกัดต่อคำขอที่แปลกหรือท้าทายแนวเพลงจริงๆ มักแก้ความคลุมเครือเป็นสไตล์การผลิตที่ฝึกมากที่สุด
ราคาขึ้นอยู่กับการใช้งานพร้อมระดับฟรีที่ให้แทร็กจำนวนหนึ่งก่อนถึงขีดจำกัด การออกใบอนุญาตเชิงพาณิชย์มีให้ในแผนที่ชำระเงิน สำหรับคนส่วนใหญ่ที่ต้องการเพลงเต็มอย่างรวดเร็วและยอมรับความไม่แน่นอนในเอาต์พุตได้ Suno คือเครื่องมือแรกที่ควรลอง โดยเฉพาะอย่างยิ่งสำหรับแนวเพลงที่เน้นเสียงร้อง
Udio
Udio เข้าหาปัญหาเพลงเต็มเดียวกันจากมุมที่แตกต่างเล็กน้อย ในขณะที่ Suno ให้ความสำคัญกับความสอดคล้องของทำนอง Udio บางครั้งผลิตเอาต์พุตที่รู้สึกว่ามีรายละเอียดดนตรีบรรเลงมากกว่า — การเขียนโปรแกรมกลอง การขับเคียวคอร์ด และการเรียบเรียงการผลิตมักมีความหลากหลายมากกว่าต่อแทร็ก
คุณภาพเสียงร้องแข่งขันได้กับ Suno ในเทคที่ดี แต่ความแปรปรวนสูงกว่า คุณจะได้เทคบางอย่างที่น่าประทับใจจริงๆ และบางอย่างที่มีความรู้สึก glazed กลางวลีที่ทำเครื่องหมายเสียงร้อง AI ที่ดิ้นรนกับการเรียงวลี ระบบพร้อมต์ให้รางวัลความเฉพาะเจาะจง: การบอก BPM คีย์ ทศวรรษของการผลิต และเครื่องดนตรีเฉพาะให้ผลลัพธ์ที่แน่นกว่าการอ้างอิงสไตล์แบบคลุมเครือ
Udio รองรับเอาต์พุตที่ยาวกว่า Riffusion และอนุญาตให้ปรับแต่งโครงสร้างบางอย่าง ควรทดสอบควบคู่กับ Suno ในโปรเจกต์ใดก็ตาม — พร้อมต์ต่างๆ ชอบเครื่องยนต์ต่างๆ และสิ่งที่ Udio เรนเดอร์สำหรับบัลลาดโซลอาจทำได้ดีกว่าเทคของ Suno ในบรีฟเดียวกัน
aisonggen
ฟีเจอร์ที่โดดเด่นของ aisonggen คือการสร้างแบบขนาน: ตัวสร้างดนตรีเรนเดอร์ห้าตัวเลือกจากพร้อมต์เดียวพร้อมกัน ดังนั้นคุณจึงเปรียบเทียบเทคแทนที่จะรอหนึ่ง ปฏิเสธ และเริ่มใหม่ สำหรับโปรเจกต์ที่ข้อจำกัดหลักคือลูปการทำซ้ำ — ไม่ใช่เพดานคุณภาพ — โครงสร้างนั้นสำคัญกว่าที่ฟังดู
การขับร้องเสียงในเทคดีที่สุดแต่ละเทคมีการแข่งขันแต่ไม่ได้นำหน้าเอาต์พุตที่ดีที่สุดของ Suno อย่างสม่ำเสมอ กรอบที่ซื่อสัตย์คือ: aisonggen ไม่ชนะในคุณภาพเสียงร้องสูงสุด แต่ลดจำนวนรอบการสร้างใหม่และรอที่คุณใช้เพื่อไปถึงเทคที่ยอมรับได้ เอาต์พุตห้าตัวพร้อมกันให้คุณเลือกที่มีการขับร้องคอรัสที่ดีที่สุดแม้ว่าสามตัวอื่นจะพลาด
นอกเหนือจากการสร้าง aisonggen มีพื้นผิว Lyric Studio แยกต่างหากที่คุณสามารถเขียนและแก้ไขเนื้อเพลงก่อนตัดสินใจเรนเดอร์ ซึ่งช่วยได้ถ้าคุณต้องการควบคุมสิ่งที่เสียงร้องพูดจริงๆ แทนที่จะให้โมเดลใช้การด้นสด นอกจากนี้ยังมีตัวสร้างคัฟเวอร์ที่เรนเดอร์แทร็กที่มีอยู่ใหม่ในสไตล์ที่แตกต่างกัน — มีประโยชน์ถ้าคุณมีเทคที่ชอบส่วนใหญ่แต่ต้องการฟังด้วยการผลิตที่แตกต่างกัน
ราคาเริ่มต้นที่ระดับฟรี หน้าราคาครอบคลุมขีดจำกัดแผนอย่างละเอียด ถ้าคุณประเมินควบคู่กับเครื่องมืออื่นๆ หน้าบทวิจารณ์มีการเปรียบเทียบโดยผู้ใช้กับ Suno และ Udio โดยเฉพาะ
Mureka
Mureka เป็นตัวเลือกที่ปรากฏน้อยกว่าซึ่งผลิตคุณภาพเอาต์พุตที่แข่งขันที่ด้านบนของหมวดในบางประเภทพร้อมต์ โดยเฉพาะสำหรับแทร็กที่มีความซับซ้อนการเรียบเรียงดนตรีบรรเลงจริง ในขณะที่ Suno และ Udio บางครั้งยุบการเรียบเรียงหลายเครื่องดนตรีเป็นการมิกซ์ที่เป็นเนื้อเดียว เอาต์พุตของ Mureka สามารถรักษาการแยกเชิงพื้นที่ของเครื่องดนตรีในลักษณะที่ยืนกรานบนหูฟัง
การแลกเปลี่ยนคือพื้นผิวผลิตภัณฑ์ที่ขัดเกลาน้อยกว่า อินเทอร์เฟซพร้อมต์อภัยอินพุตที่สบายๆ น้อยกว่า และความเร็วในการสร้างช้ากว่า Suno สำหรับการใช้งานมืออาชีพที่คุณภาพการเรียบเรียงมีน้ำหนักมากกว่าความเร็วในการทำซ้ำ นั่นเป็นการแลกเปลี่ยนที่สมเหตุสมผล สำหรับโปรเจกต์ไม่เป็นทางการที่คุณต้องการบางอย่างที่ฟังได้อย่างรวดเร็ว มันไม่ใช่เครื่องมือแรกที่จะหยิบ
ข้อกำหนดการออกใบอนุญาตเชิงพาณิชย์ของ Mureka ชัดเจนกว่าของ Riffusion ซึ่งสำคัญสำหรับดนตรีที่จะเข้าวิดีโอ โฆษณา หรือการจัดจำหน่าย ระดับฟรีมีจำกัดแต่ใช้งานได้สำหรับการประเมิน
Stable Audio
Stable Audio (จาก Stability AI) อยู่ตรงกลางระหว่างแนวทางเนื้อสัมผัสก่อนของ Riffusion และแนวทางเพลงก่อนของ Suno มันสร้างเสียงที่ความเที่ยงตรงสูงกว่า Riffusion และรองรับคลิปที่ยาวกว่า — สูงสุดสามนาทีในบางการกำหนดค่า — ในขณะที่ให้การควบคุมระยะเวลาและสไตล์ที่แม่นยำกว่าตัวสร้างส่วนใหญ่
เอาต์พุตเอียงไปทางดนตรีบรรเลง การสร้างเสียงร้องไม่ใช่จุดแข็งของ Stable Audio ดังนั้นจึงเหมาะกับแทร็กสนับสนุน การประพันธ์ดนตรีบรรเลง และการออกแบบเสียงมากกว่าเพลงที่เสร็จสมบูรณ์พร้อมเนื้อเพลงที่ร้อง สำหรับโปรดิวเซอร์ที่ต้องการการเรียบเรียงดนตรีบรรเลงที่เรนเดอร์แล้วเพื่อวางเสียงร้องของตัวเองทับ มันเป็นตัวเลือกที่แข็งแกร่ง สำหรับใครก็ตามที่ต้องการให้ AI จัดการเสียงร้องด้วย Suno หรือ Udio เหมาะสมกว่า
โมเดลนี้ได้รับประโยชน์จากปรัชญาน้ำหนักเปิดเดียวกันที่รองรับ Riffusion — มีเวอร์ชันที่เผยแพร่สู่การวิจัยสำหรับผู้ใช้ทางเทคนิคที่ต้องการรันท้องถิ่นหรือปรับแต่ง — แต่ผลิตภัณฑ์ที่โฮสต์นั้นเข้าถึงได้โดยไม่ต้องตั้งค่าเทคนิคใดๆ
วิธีเลือก — สามคำถาม
- เอาต์พุตต้องยาวแค่ไหน และต้องการโครงสร้างมากแค่ไหน? ถ้าคุณต้องการมากกว่าสองนาทีพร้อมโครงสร้างเวิร์ส-คอรัสที่รู้จักได้ Riffusion ออกไปได้เลย Suno หรือ aisonggen เป็นเส้นทางที่เร็วที่สุดไปสู่เพลงที่มีรูปแบบเหมาะสม ถ้าคุณต้องการแทร็กดนตรีบรรเลงสนับสนุนที่ต่ำกว่าสองนาทีและไม่สนใจเสียงร้อง Stable Audio หรือ Udio ควรทดสอบ
- สถานการณ์ใบอนุญาตของคุณต้องการอะไร? ถ้าเอาต์พุตจะเข้าโปรเจกต์เชิงพาณิชย์ — วิดีโอ โฆษณา การเผยแพร่สตรีมมิง — คุณต้องการความชัดเจนในข้อกำหนดก่อนตัดสินใจ การออกใบอนุญาตของ Riffusion แก้ไขน้อยที่สุด Suno, Udio และ aisonggen ทั้งหมดมีข้อกำหนดเชิงพาณิชย์ที่ชัดเจนในแผนที่ชำระเงิน ตรวจสอบระดับเฉพาะที่คุณอยู่ เอาต์พุตระดับฟรีมักมีข้อจำกัดที่แตกต่างจากระดับที่ชำระเงิน
- คุณต้องการการควบคุมเอาต์พุตมากแค่ไหน? ถ้าคุณต้องการระบุเนื้อเพลง ทิศทางทำนอง หรือรายละเอียดการผลิต ใช้เครื่องมือที่รับอินพุตโครงสร้าง Lyric Studioของ aisonggen และโหมดกำหนดเองของ Suno ถูกออกแบบมาสำหรับการควบคุมทิศทางประเภทนั้น ถ้าคุณยินดีทำซ้ำจากพร้อมต์สไตล์และเลือกเทคที่ดีที่สุด เครื่องมือทั้งห้าข้างต้นสามารถรองรับเวิร์กโฟลว์นั้น — และแนวทางการเรนเดอร์แบบขนานของ aisonggen ทำให้ขั้นตอนการเลือกเร็วขึ้น
แผนการทดสอบ 20 นาที
- เลือกพร้อมต์หนึ่งที่แสดงกรณีการใช้งานจริงของคุณ อย่าทดสอบด้วย "upbeat pop song" — ทดสอบด้วยอะไรก็ตามที่คุณจะต้องส่งจริงๆ ถ้าโปรเจกต์ของคุณเป็น lo-fi hip-hop instrumentals ที่ 85 BPM นั่นคือพร้อมต์ พร้อมต์ทดสอบเทียมผลิตผลลัพธ์เทียม
- รันพร้อมต์เดียวกันบนอย่างน้อยสองเครื่องมือพร้อมกัน การสร้างใช้เวลาประมาณ 30 ถึง 90 วินาทีขึ้นอยู่กับแพลตฟอร์มและโหลดคิว ส่งไปทั้งสองก่อนตรวจสอบอันใดอันหนึ่ง
- ประเมินในมิติที่สำคัญที่สุดสำหรับคุณก่อน ถ้าเสียงร้องสำคัญ ฟังเฉพาะการแสดงเสียงร้องในการผ่านครั้งแรกและเพิกเฉยต่อคุณภาพการผลิต ถ้าการเรียบเรียงสำคัญ ฟังด้วยหูนั้นก่อน การประเมินแบบผสมเจือจางสัญญาณ
- รันสามถึงห้าตัวเลือกบนเครื่องมือที่ทำได้ดีที่สุด เอาต์พุตดีหนึ่งอันอาจเป็นความแปรปรวน ห้าเอาต์พุตข้ามบรีฟเดียวกันให้ความรู้สึกที่ชัดเจนกว่าเกี่ยวกับความน่าเชื่อถือจริงของเครื่องมือบนประเภทพร้อมต์ของคุณ
- ตรวจสอบเอาต์พุตบนอุปกรณ์เล่นที่ผู้ชมของคุณจะใช้ เสียงที่สร้างด้วย AI บางครั้งฟังดูยอดเยี่ยมบนลำโพงสตูดิโอและบางบนหูฟังอินเอียร์ หรือตรงกันข้าม ถ้าผู้ชมสตรีมบนโทรศัพท์ นั่นคือที่ที่ควรฟังก่อนตัดสินใจเลือกเครื่องมือ
Riffusion ให้รางวัลการสำรวจ มันเป็นเครื่องมือที่ถูกต้องเมื่อคุณต้องการค้นพบบางอย่างที่คุณไม่สามารถอธิบายล่วงหน้าได้ แต่ถ้าคุณเริ่มต้นจากบรีฟที่ชัดเจน — โครงสร้างเฉพาะ ชุดเนื้อเพลง แนวเพลงที่ต้องลงตัวสำหรับผู้ชมจริงๆ — เครื่องมือข้างต้นมีแนวโน้มจะพาคุณไปถึงที่นั่นในหนึ่งเซสชันแทนที่จะเป็นหนึ่งสัปดาห์
ถ้าคุณประเมิน aisonggen โดยเฉพาะ ตัวสร้างดนตรีเป็นวิธีที่เร็วที่สุดในการรันการทดสอบครั้งแรก และเอาต์พุตตัวเลือกแบบขนานหมายความว่าแผนการทดสอบ 20 นาทีของคุณครอบคลุมพื้นที่มากขึ้นในเวลาเดียวกัน