AISongGen logoAISongGen

ทางเลือกที่ดีที่สุดแทน Riffusion — เมื่อคุณต้องการเพลงเต็มแทนที่จะเป็นแค่บรรยากาศเสียง

จุดแข็งของ Riffusion คือเนื้อสัมผัสและการทดลอง แต่มันไม่ใช่สิ่งที่คุณเลือกใช้เมื่อต้องการเพลงสี่นาทีแบบเวิร์ส-คอรัส ห้าเครื่องมือที่ช่วยปิดช่องว่างนั้น

อ่าน 7 นาที

เปิด Riffusion พิมพ์พร้อมต์เช่น "lo-fi jazz with rain and distant trumpet" กด generate แล้วบางอย่างที่น่าสนใจจริงๆ ก็ออกมา เนื้อสัมผัสที่ชื้นและพร่าเลือน ฟังดูเหมือนถูกบันทึกในห้องน้ำคาเฟ่ปี 1973 คุณเล่นสองครั้ง พยักหน้า แล้วก็ตระหนักว่า: มันยาวแค่ 28 วินาที ไม่มีเวิร์สหรือคอรัส และคุณไม่แน่ใจว่าจะใส่ในโปรเจกต์เชิงพาณิชย์ได้หรือเปล่า นั่นคือประสบการณ์ Riffusion ในหนึ่งย่อหน้า

ไม่มีสิ่งใดในนั้นเป็นการวิจารณ์สิ่งที่โปรเจกต์นี้ตั้งใจทำ Riffusion เริ่มต้นเป็นการทดลองโอเพ่นซอร์ส — การสร้างเสียงโดยการรัน diffusion ผ่านภาพสเปกโตรแกรม ซึ่งถือว่าเสียงเป็นปัญหา visual latent space แนวคิดนั้นเป็นเรื่องใหม่จริงๆ แต่ "ใหม่จริงๆ" กับ "เครื่องมือที่ฉันสามารถใช้เพื่อทำเพลงให้เสร็จวันนี้" เป็นข้อกำหนดที่ต่างกัน ถ้าคุณต้องการแทร็กสี่นาทีที่มีโครงสร้างเหมาะสม เสียงร้องที่เข้าใจได้ และใบอนุญาตที่ชัดเจน Riffusion ไม่ใช่จุดเริ่มต้นที่เหมาะสม บทความนี้ครอบคลุมห้าทางเลือกที่เป็นแบบนั้น และอธิบายวิธีเลือกระหว่างพวกมัน

สิ่งที่ Riffusion เก่งจริงๆ

ก่อนจะพูดถึงทางเลือก ควรระบุอย่างชัดเจนว่า Riffusion ยังได้รับตำแหน่งในเวิร์กโฟลว์อยู่ที่ไหน

เนื้อสัมผัสและบรรยากาศเป็นเอาต์พุตที่แข็งแกร่งที่สุดของมัน ถ้าคุณต้องการเตียงแอมเบียนต์ โดรนอุตสาหกรรม หรือบางอย่างที่ฟังดูเหมือนสองแนวเพลงกำลังชนกันกลางเที่ยวบิน การสร้างตามสเปกโตรแกรมของ Riffusion สามารถผลิตผลลัพธ์ที่รู้สึกน้อยกว่า "ป็อป AI ที่เรียบร้อย" และมากกว่า "การบันทึกภาคสนามบวกการสังเคราะห์" นั่นเป็นตัวสร้างความแตกต่างที่แท้จริงสำหรับนักออกแบบเสียง บรรณาธิการตัวอย่าง และโปรดิวเซอร์การทดลอง

ลูปสั้นคือจุดที่มันเปล่งประกายในเชิงโครงสร้าง เมื่อคุณไม่ต้องการเพลง — คุณต้องการลูปแปดบาร์เพื่อวางใต้พากย์เสียง หรือเนื้อสัมผัสเพื่อวางชั้นหลังอินโทรพอดแคสต์ — ความยาวของเอาต์พุตจะหยุดเป็นข้อจำกัดและกลายเป็นฟีเจอร์ คลิปสั้นพอที่จะตรวจสอบอย่างรวดเร็วและปฏิเสธโดยไม่มีค่าใช้จ่ายมาก

การผสมแนวเพลงที่รู้สึกอึดอัดในตัวสร้างที่มีโครงสร้างมากกว่านั้นเป็นเรื่องปกติใน Riffusion "Bossa nova but through a broken cassette deck" ไม่ใช่พร้อมต์แปลกที่นั่น แนวทาง diffusion ของโมเดลผลิตการผสมที่ตัวสร้างที่ฝึกเสียงร้องมากกว่าบางครั้งทำให้ง่ายเกินไปเป็นป้ายแนวเพลงหนึ่งหรืออีกป้าย

ที่ Riffusion ขาดไป

ช่องว่างปรากฏขึ้นในทันทีที่คุณต้องการเพลงแทนที่จะเป็นเนื้อสัมผัส

โครงสร้างเพลงเต็มเป็นข้อจำกัดที่ชัดเจนที่สุด คลิป Riffusion ไม่ได้ทำตามสถาปัตยกรรมเวิร์ส-คอรัส-บริดจ์อย่างน่าเชื่อถือ คุณได้ส่วนของบรรยากาศ ไม่ใช่เพลงที่มีส่วนโค้งดราม่า การขยายคลิปโดยใช้ฟีเจอร์ลูปของเครื่องมือช่วยได้บ้าง แต่การเปลี่ยนผ่านระหว่างส่วนต่างๆ มักไม่ลงตัวด้วยการเปลี่ยนแปลงแบบไดนามิกที่ทำให้ผู้ฟังรู้สึกว่าเพลงเคลื่อนไหว

ความสอดคล้องของเสียงร้องเสื่อมโทรมอย่างรวดเร็ว Riffusion สามารถสร้างบางอย่างที่ฟังดูเหมือนการร้องเพลงโดยประมาณ แต่หน่วยเสียงมักเบลอหรือสมมติ คุณไม่สามารถควบคุมเส้นทำนอง ฮุคเนื้อเพลง หรือแม้แต่ว่าเสียงร้องจะอยู่ในคีย์ตลอดคลิป 90 วินาที สำหรับโปรเจกต์ใดก็ตามที่เนื้อเพลงสำคัญ — แร็พ ป็อป R&B นักร้องนักแต่งเพลง — นี่คือเหตุผลที่ไม่ผ่านการคัดเลือกด้วยตัวเอง

ความยาวมีเพดานที่แข็ง แพลตฟอร์มไม่สร้างแทร็กสี่นาทีโดยกำเนิด มีวิธีแก้ปัญหา แต่ต้องมีการเย็บด้วยมือและแนะนำรอยต่อที่ได้ยินซึ่งทำลายผลลัพธ์สุดท้าย

การควบคุมพร้อมต์นั้นหลวมโดยการออกแบบ แนวทาง spectrogram นั้นมีความซื่อสัตย์ต่อพร้อมต์น้อยกว่าโดยเนื้อแท้เมื่อเทียบกับโมเดลที่ฝึกโดยตรงบนเมทาดาต้าและโครงสร้างเพลง คุณสามารถโน้มน้าวทิศทางได้แต่ไม่ค่อยระบุได้ ทำให้การทำซ้ำช้า: คุณกำลังจำกัดพื้นที่ความน่าจะเป็นแทนที่จะปรับพารามิเตอร์

การส่งออกสเต็มไม่พร้อมใช้งาน คุณไม่สามารถดึงชั้นเสียงร้องออกจากบรรเลง ซึ่งสำคัญถ้าคุณต้องการรีมิกซ์ ปรับระดับเสียงใหม่ หรือแค่ใช้บีตเพียงอย่างเดียว

การออกใบอนุญาตการใช้งานเชิงพาณิชย์ไม่ชัดเจนในประวัติศาสตร์ ต้นกำเนิดโอเพ่นซอร์สและข้อกำหนดของผลิตภัณฑ์ที่โฮสต์ไม่ได้แก้ไขอย่างชัดเจนว่า "คุณสามารถสร้างรายได้จากสิ่งนี้" สำหรับการใช้งานมืออาชีพ ความคลุมเครือนั้นมีต้นทุนที่แท้จริง

ห้าทางเลือกที่จัดการงานเพลงเต็ม

Suno

Suno เป็นมาตรฐานสำหรับเพลงที่สร้างด้วย AI ที่มีโครงสร้างจริง มันผลิตแทร็กที่ทำตามรูปแบบเพลงป็อปและฮิปฮอปที่รู้จักกัน — อินโทร เวิร์ส คอรัส บริดจ์ เอาโทร — พร้อมเสียงร้องที่เรียงทำนองจริงๆ และอยู่ในคีย์โดยประมาณ การผสานเนื้อเพลงแข็งแกร่งที่สุดในหมวดนี้: สิ่งที่คุณเขียนในพร้อมต์ปรากฏในเสียงในรูปแบบที่รู้จักได้

จุดอ่อนของมันคือความสม่ำเสมอในระดับขนาด เอาต์พุตของ Suno มักฟังดูเหมือน Suno จังหวะเสียง โปรไฟล์ reverb วิธีที่คอรัสยกขึ้น — รูปแบบเหล่านี้ซ้ำข้ามพร้อมต์ สำหรับเพลงหนึ่งหรือสองเพลง คุณภาพสูง สำหรับแค็ตาล็อก รอยพิมพ์มือก็ชัดเจน โมเดลยังมีความอดทนจำกัดต่อคำขอที่แปลกหรือท้าทายแนวเพลงจริงๆ มักแก้ความคลุมเครือเป็นสไตล์การผลิตที่ฝึกมากที่สุด

ราคาขึ้นอยู่กับการใช้งานพร้อมระดับฟรีที่ให้แทร็กจำนวนหนึ่งก่อนถึงขีดจำกัด การออกใบอนุญาตเชิงพาณิชย์มีให้ในแผนที่ชำระเงิน สำหรับคนส่วนใหญ่ที่ต้องการเพลงเต็มอย่างรวดเร็วและยอมรับความไม่แน่นอนในเอาต์พุตได้ Suno คือเครื่องมือแรกที่ควรลอง โดยเฉพาะอย่างยิ่งสำหรับแนวเพลงที่เน้นเสียงร้อง

Udio

Udio เข้าหาปัญหาเพลงเต็มเดียวกันจากมุมที่แตกต่างเล็กน้อย ในขณะที่ Suno ให้ความสำคัญกับความสอดคล้องของทำนอง Udio บางครั้งผลิตเอาต์พุตที่รู้สึกว่ามีรายละเอียดดนตรีบรรเลงมากกว่า — การเขียนโปรแกรมกลอง การขับเคียวคอร์ด และการเรียบเรียงการผลิตมักมีความหลากหลายมากกว่าต่อแทร็ก

คุณภาพเสียงร้องแข่งขันได้กับ Suno ในเทคที่ดี แต่ความแปรปรวนสูงกว่า คุณจะได้เทคบางอย่างที่น่าประทับใจจริงๆ และบางอย่างที่มีความรู้สึก glazed กลางวลีที่ทำเครื่องหมายเสียงร้อง AI ที่ดิ้นรนกับการเรียงวลี ระบบพร้อมต์ให้รางวัลความเฉพาะเจาะจง: การบอก BPM คีย์ ทศวรรษของการผลิต และเครื่องดนตรีเฉพาะให้ผลลัพธ์ที่แน่นกว่าการอ้างอิงสไตล์แบบคลุมเครือ

Udio รองรับเอาต์พุตที่ยาวกว่า Riffusion และอนุญาตให้ปรับแต่งโครงสร้างบางอย่าง ควรทดสอบควบคู่กับ Suno ในโปรเจกต์ใดก็ตาม — พร้อมต์ต่างๆ ชอบเครื่องยนต์ต่างๆ และสิ่งที่ Udio เรนเดอร์สำหรับบัลลาดโซลอาจทำได้ดีกว่าเทคของ Suno ในบรีฟเดียวกัน

aisonggen

ฟีเจอร์ที่โดดเด่นของ aisonggen คือการสร้างแบบขนาน: ตัวสร้างดนตรีเรนเดอร์ห้าตัวเลือกจากพร้อมต์เดียวพร้อมกัน ดังนั้นคุณจึงเปรียบเทียบเทคแทนที่จะรอหนึ่ง ปฏิเสธ และเริ่มใหม่ สำหรับโปรเจกต์ที่ข้อจำกัดหลักคือลูปการทำซ้ำ — ไม่ใช่เพดานคุณภาพ — โครงสร้างนั้นสำคัญกว่าที่ฟังดู

การขับร้องเสียงในเทคดีที่สุดแต่ละเทคมีการแข่งขันแต่ไม่ได้นำหน้าเอาต์พุตที่ดีที่สุดของ Suno อย่างสม่ำเสมอ กรอบที่ซื่อสัตย์คือ: aisonggen ไม่ชนะในคุณภาพเสียงร้องสูงสุด แต่ลดจำนวนรอบการสร้างใหม่และรอที่คุณใช้เพื่อไปถึงเทคที่ยอมรับได้ เอาต์พุตห้าตัวพร้อมกันให้คุณเลือกที่มีการขับร้องคอรัสที่ดีที่สุดแม้ว่าสามตัวอื่นจะพลาด

นอกเหนือจากการสร้าง aisonggen มีพื้นผิว Lyric Studio แยกต่างหากที่คุณสามารถเขียนและแก้ไขเนื้อเพลงก่อนตัดสินใจเรนเดอร์ ซึ่งช่วยได้ถ้าคุณต้องการควบคุมสิ่งที่เสียงร้องพูดจริงๆ แทนที่จะให้โมเดลใช้การด้นสด นอกจากนี้ยังมีตัวสร้างคัฟเวอร์ที่เรนเดอร์แทร็กที่มีอยู่ใหม่ในสไตล์ที่แตกต่างกัน — มีประโยชน์ถ้าคุณมีเทคที่ชอบส่วนใหญ่แต่ต้องการฟังด้วยการผลิตที่แตกต่างกัน

ราคาเริ่มต้นที่ระดับฟรี หน้าราคาครอบคลุมขีดจำกัดแผนอย่างละเอียด ถ้าคุณประเมินควบคู่กับเครื่องมืออื่นๆ หน้าบทวิจารณ์มีการเปรียบเทียบโดยผู้ใช้กับ Suno และ Udio โดยเฉพาะ

Mureka

Mureka เป็นตัวเลือกที่ปรากฏน้อยกว่าซึ่งผลิตคุณภาพเอาต์พุตที่แข่งขันที่ด้านบนของหมวดในบางประเภทพร้อมต์ โดยเฉพาะสำหรับแทร็กที่มีความซับซ้อนการเรียบเรียงดนตรีบรรเลงจริง ในขณะที่ Suno และ Udio บางครั้งยุบการเรียบเรียงหลายเครื่องดนตรีเป็นการมิกซ์ที่เป็นเนื้อเดียว เอาต์พุตของ Mureka สามารถรักษาการแยกเชิงพื้นที่ของเครื่องดนตรีในลักษณะที่ยืนกรานบนหูฟัง

การแลกเปลี่ยนคือพื้นผิวผลิตภัณฑ์ที่ขัดเกลาน้อยกว่า อินเทอร์เฟซพร้อมต์อภัยอินพุตที่สบายๆ น้อยกว่า และความเร็วในการสร้างช้ากว่า Suno สำหรับการใช้งานมืออาชีพที่คุณภาพการเรียบเรียงมีน้ำหนักมากกว่าความเร็วในการทำซ้ำ นั่นเป็นการแลกเปลี่ยนที่สมเหตุสมผล สำหรับโปรเจกต์ไม่เป็นทางการที่คุณต้องการบางอย่างที่ฟังได้อย่างรวดเร็ว มันไม่ใช่เครื่องมือแรกที่จะหยิบ

ข้อกำหนดการออกใบอนุญาตเชิงพาณิชย์ของ Mureka ชัดเจนกว่าของ Riffusion ซึ่งสำคัญสำหรับดนตรีที่จะเข้าวิดีโอ โฆษณา หรือการจัดจำหน่าย ระดับฟรีมีจำกัดแต่ใช้งานได้สำหรับการประเมิน

Stable Audio

Stable Audio (จาก Stability AI) อยู่ตรงกลางระหว่างแนวทางเนื้อสัมผัสก่อนของ Riffusion และแนวทางเพลงก่อนของ Suno มันสร้างเสียงที่ความเที่ยงตรงสูงกว่า Riffusion และรองรับคลิปที่ยาวกว่า — สูงสุดสามนาทีในบางการกำหนดค่า — ในขณะที่ให้การควบคุมระยะเวลาและสไตล์ที่แม่นยำกว่าตัวสร้างส่วนใหญ่

เอาต์พุตเอียงไปทางดนตรีบรรเลง การสร้างเสียงร้องไม่ใช่จุดแข็งของ Stable Audio ดังนั้นจึงเหมาะกับแทร็กสนับสนุน การประพันธ์ดนตรีบรรเลง และการออกแบบเสียงมากกว่าเพลงที่เสร็จสมบูรณ์พร้อมเนื้อเพลงที่ร้อง สำหรับโปรดิวเซอร์ที่ต้องการการเรียบเรียงดนตรีบรรเลงที่เรนเดอร์แล้วเพื่อวางเสียงร้องของตัวเองทับ มันเป็นตัวเลือกที่แข็งแกร่ง สำหรับใครก็ตามที่ต้องการให้ AI จัดการเสียงร้องด้วย Suno หรือ Udio เหมาะสมกว่า

โมเดลนี้ได้รับประโยชน์จากปรัชญาน้ำหนักเปิดเดียวกันที่รองรับ Riffusion — มีเวอร์ชันที่เผยแพร่สู่การวิจัยสำหรับผู้ใช้ทางเทคนิคที่ต้องการรันท้องถิ่นหรือปรับแต่ง — แต่ผลิตภัณฑ์ที่โฮสต์นั้นเข้าถึงได้โดยไม่ต้องตั้งค่าเทคนิคใดๆ

วิธีเลือก — สามคำถาม

  1. เอาต์พุตต้องยาวแค่ไหน และต้องการโครงสร้างมากแค่ไหน? ถ้าคุณต้องการมากกว่าสองนาทีพร้อมโครงสร้างเวิร์ส-คอรัสที่รู้จักได้ Riffusion ออกไปได้เลย Suno หรือ aisonggen เป็นเส้นทางที่เร็วที่สุดไปสู่เพลงที่มีรูปแบบเหมาะสม ถ้าคุณต้องการแทร็กดนตรีบรรเลงสนับสนุนที่ต่ำกว่าสองนาทีและไม่สนใจเสียงร้อง Stable Audio หรือ Udio ควรทดสอบ
  2. สถานการณ์ใบอนุญาตของคุณต้องการอะไร? ถ้าเอาต์พุตจะเข้าโปรเจกต์เชิงพาณิชย์ — วิดีโอ โฆษณา การเผยแพร่สตรีมมิง — คุณต้องการความชัดเจนในข้อกำหนดก่อนตัดสินใจ การออกใบอนุญาตของ Riffusion แก้ไขน้อยที่สุด Suno, Udio และ aisonggen ทั้งหมดมีข้อกำหนดเชิงพาณิชย์ที่ชัดเจนในแผนที่ชำระเงิน ตรวจสอบระดับเฉพาะที่คุณอยู่ เอาต์พุตระดับฟรีมักมีข้อจำกัดที่แตกต่างจากระดับที่ชำระเงิน
  3. คุณต้องการการควบคุมเอาต์พุตมากแค่ไหน? ถ้าคุณต้องการระบุเนื้อเพลง ทิศทางทำนอง หรือรายละเอียดการผลิต ใช้เครื่องมือที่รับอินพุตโครงสร้าง Lyric Studioของ aisonggen และโหมดกำหนดเองของ Suno ถูกออกแบบมาสำหรับการควบคุมทิศทางประเภทนั้น ถ้าคุณยินดีทำซ้ำจากพร้อมต์สไตล์และเลือกเทคที่ดีที่สุด เครื่องมือทั้งห้าข้างต้นสามารถรองรับเวิร์กโฟลว์นั้น — และแนวทางการเรนเดอร์แบบขนานของ aisonggen ทำให้ขั้นตอนการเลือกเร็วขึ้น

แผนการทดสอบ 20 นาที

  1. เลือกพร้อมต์หนึ่งที่แสดงกรณีการใช้งานจริงของคุณ อย่าทดสอบด้วย "upbeat pop song" — ทดสอบด้วยอะไรก็ตามที่คุณจะต้องส่งจริงๆ ถ้าโปรเจกต์ของคุณเป็น lo-fi hip-hop instrumentals ที่ 85 BPM นั่นคือพร้อมต์ พร้อมต์ทดสอบเทียมผลิตผลลัพธ์เทียม
  2. รันพร้อมต์เดียวกันบนอย่างน้อยสองเครื่องมือพร้อมกัน การสร้างใช้เวลาประมาณ 30 ถึง 90 วินาทีขึ้นอยู่กับแพลตฟอร์มและโหลดคิว ส่งไปทั้งสองก่อนตรวจสอบอันใดอันหนึ่ง
  3. ประเมินในมิติที่สำคัญที่สุดสำหรับคุณก่อน ถ้าเสียงร้องสำคัญ ฟังเฉพาะการแสดงเสียงร้องในการผ่านครั้งแรกและเพิกเฉยต่อคุณภาพการผลิต ถ้าการเรียบเรียงสำคัญ ฟังด้วยหูนั้นก่อน การประเมินแบบผสมเจือจางสัญญาณ
  4. รันสามถึงห้าตัวเลือกบนเครื่องมือที่ทำได้ดีที่สุด เอาต์พุตดีหนึ่งอันอาจเป็นความแปรปรวน ห้าเอาต์พุตข้ามบรีฟเดียวกันให้ความรู้สึกที่ชัดเจนกว่าเกี่ยวกับความน่าเชื่อถือจริงของเครื่องมือบนประเภทพร้อมต์ของคุณ
  5. ตรวจสอบเอาต์พุตบนอุปกรณ์เล่นที่ผู้ชมของคุณจะใช้ เสียงที่สร้างด้วย AI บางครั้งฟังดูยอดเยี่ยมบนลำโพงสตูดิโอและบางบนหูฟังอินเอียร์ หรือตรงกันข้าม ถ้าผู้ชมสตรีมบนโทรศัพท์ นั่นคือที่ที่ควรฟังก่อนตัดสินใจเลือกเครื่องมือ

Riffusion ให้รางวัลการสำรวจ มันเป็นเครื่องมือที่ถูกต้องเมื่อคุณต้องการค้นพบบางอย่างที่คุณไม่สามารถอธิบายล่วงหน้าได้ แต่ถ้าคุณเริ่มต้นจากบรีฟที่ชัดเจน — โครงสร้างเฉพาะ ชุดเนื้อเพลง แนวเพลงที่ต้องลงตัวสำหรับผู้ชมจริงๆ — เครื่องมือข้างต้นมีแนวโน้มจะพาคุณไปถึงที่นั่นในหนึ่งเซสชันแทนที่จะเป็นหนึ่งสัปดาห์

ถ้าคุณประเมิน aisonggen โดยเฉพาะ ตัวสร้างดนตรีเป็นวิธีที่เร็วที่สุดในการรันการทดสอบครั้งแรก และเอาต์พุตตัวเลือกแบบขนานหมายความว่าแผนการทดสอบ 20 นาทีของคุณครอบคลุมพื้นที่มากขึ้นในเวลาเดียวกัน

อ่านต่อ

แทร็กถัดไปของคุณห่างเพียง prompt ฟรีเดียว

เปิดสตูดิโอ พิมพ์อารมณ์ ฟังเพลงสำเร็จรูปใน 30 วินาที เริ่มฟรี ส่งงานปลอดค่าลิขสิทธิ์ ไม่ต้องใช้บัตรเครดิต