Stable Audio ของ Stability AI ได้รับการติดตามอย่างแท้จริงจากนักวิจัยเสียงและนักออกแบบเสียง เหตุผลหลักคือสิ่งหนึ่งที่สำคัญต่อผู้ใช้เฉพาะกลุ่ม: บางเวอร์ชันมาพร้อมน้ำหนักเปิด หมายความว่าคุณสามารถดาวน์โหลด ปรับแต่ง และโฮสต์โมเดลเองแทนที่จะส่งเซสชันของคุณผ่าน API เชิงพาณิชย์ สำหรับงานเสียงเชิงสร้างสรรค์ — การให้คะแนนสภาพแวดล้อมเกม การสร้างชุดข้อมูลฝึกกำหนดเอง หรือการทดลองกับการสังเคราะห์ตาม diffusion — ความโปร่งใสนั้นยากที่จะแข่งขันได้
อย่างไรก็ตาม Stable Audio ไม่เคยถูกออกแบบเป็นเครื่องสร้างเพลงป็อป ถ้าเป้าหมายของคุณคือแทร็กเสียงร้องที่เสร็จสมบูรณ์ ต้นฉบับที่ขับเคลื่อนด้วยท่อนฮุคพร้อมเนื้อเพลง หรือแค่ที่ที่จะคลิกและได้ยินบางอย่างในไม่ถึงหนึ่งนาที คุณจะพบกับข้อจำกัดทางสถาปัตยกรรมของเครื่องมือค่อนข้างเร็ว ห้าทางเลือกด้านล่างถูกเลือกเพื่อเติมเต็มช่องว่างเฉพาะเหล่านั้น ไม่มีใดแทนที่ Stable Audio สำหรับงานโฮสต์เองระดับวิจัย พวกมันให้บริการพื้นผิวสร้างสรรค์ที่แตกต่างกัน
สิ่งที่ Stable Audio ถูกสร้างมาเพื่อ
สถาปัตยกรรม diffusion ของ Stable Audio เปล่งประกายในการสร้างเนื้อสัมผัสเสียงและชั้นดนตรีบรรเลงด้วยระดับความสอดคล้องเสียงที่เครื่องมือตามลูปก่อนหน้าไม่สามารถเข้าถึงได้ ป้อนพร้อมต์โดยละเอียดเกี่ยวกับเสียงพิเศษ จังหวะ และอารมณ์ และคุณได้บางอย่างที่ฟังดูมีการพิจารณาแทนที่จะประกอบแบบสุ่ม
การเปิดตัวน้ำหนักเปิด (Stable Audio Open โดยเฉพาะ) ให้ผู้ใช้ที่มีความเอียงทางเทคนิคได้คันโยกที่แพลตฟอร์มเชิงพาณิชย์ปิดไม่สามารถนำเสนอได้: รันการอนุมานในท้องถิ่น จำกัดเอาต์พุตให้กับชุดข้อมูลของคุณเอง หรือปรับโมเดลสำหรับโดเมนที่แคบโดยไม่ต้องเจรจาข้อกำหนด API สำหรับสตูดิโอเสียงเกม ทีม ML เสียงเชิงวิชาการ และนักประพันธ์เพลงแอมเบียนต์ที่ต้องการการสร้างแบบออฟไลน์ สิ่งนี้เพียงอย่างเดียวสมเหตุสมผลในการเรียนรู้เครื่องมือ
ที่ Stable Audio ทำงานได้ดีด้วย: แทร็กสนับสนุนเชิงสร้างสรรค์ ภูมิทัศน์เสียงเชิงทดลอง เนื้อสัมผัสที่อยู่ติดกับ foley และชิ้นแอมเบียนต์ระยะยาว ถ้าคำว่า "เสียงร้อง" ไม่ปรากฏในบรีฟโปรเจกต์ของคุณ Stable Audio เป็นตัวเลือกแรกที่จริงจังที่ควรวัดเทียบ
ที่ Stable Audio หมดพื้นที่
เสียงร้องเป็นช่องว่างที่ชัดเจนที่สุด โมเดลไม่ได้ถูกฝึกให้สังเคราะห์การแสดงร้องตามธรรมชาติ และการพยายามผลักมันไปสู่เอาต์พุตสไตล์เพลงที่มีเสียงร้องมักผลิต artifact ที่ตั้งแต่การเบลอเล็กน้อยไปสู่ความแปลกประหลาดในระดับหุบเขาแห่งความน่าสะพรึง คู่แข่งที่สร้างขึ้นโดยเฉพาะรอบการสร้างเพลง — ฝึกบนคลังการบันทึกเสียงร้องขนาดใหญ่ — ผลิตผลลัพธ์ที่สะอาดกว่าอย่างเห็นได้ชัดทันที
ที่เกี่ยวข้องกับสิ่งนี้: ระยะเวลาเอาต์พุตเริ่มต้นของ Stable Audio สั้นกว่า การสร้างเพลงที่มีโครงสร้างพร้อมส่วนโค้งเวิร์ส-คอรัส-เวิร์ส บริดจ์ และการ fade out ต้องใช้การวิศวกรรมพร้อมต์อย่างระมัดระวังและมักต้องสร้างหลายครั้งที่เชื่อมต่อด้วยมือ เครื่องมือที่สร้างขึ้นเพื่อเป้าหมายเอาต์พุตเพลงจัดการโครงสร้างนั้นโดยกำเนิด
อินเทอร์เฟซสะท้อนมรดกเครื่องมือวิจัยของผลิตภัณฑ์ ไม่มีอินพุตเนื้อเพลงแบบมีคำแนะนำ ไม่มีตัวเลือกสไตล์คลิกเดียว และไม่มีผลป้อนกลับความคืบหน้าแบบเรียลไทม์ที่ปรับสำหรับผู้ชมที่ไม่ใช่ทางเทคนิค สำหรับนักแต่งเพลงที่ต้องการทดลองโดยไม่ต้องอ่านเอกสารก่อน เส้นโค้งการเรียนรู้สูงเมื่อเทียบกับประโยชน์เอาต์พุต การเขียนเพลงตามพร้อมต์ — ที่คุณอธิบายแนวคิดและเครื่องมือสร้างคำ ทำนอง และการเรียบเรียงร่วมกัน — ไม่ใช่สิ่งที่ Stable Audio ถูกออกแบบมาเพื่อทำ
สุดท้าย ราคาสำหรับการใช้งานเชิงพาณิชย์ผ่าน API Stability AI อาจทึบแสง ระดับฟรีมีจำกัด และเส้นทางจากการทดลองฟรีไปสู่เอาต์พุตเชิงพาณิชย์ที่ได้รับอนุญาตต้องการการนำทางข้อกำหนดที่เปลี่ยนแปลงบ่อยกว่าแพลตฟอร์มดนตรีเฉพาะทาง
ห้าทางเลือกตามกรณีการใช้งาน
Suno
Suno คือแพลตฟอร์มที่นำการสร้างเพลง AI มาสู่ผู้ชมหลัก และเวอร์ชันปัจจุบันยังคงเป็นหนึ่งในผู้ผลิตเพลงจากต้นถึงปลายที่มีความสามารถมากที่สุด ส่งคำอธิบายสั้นๆ — แนวเพลง อารมณ์ ชิ้นส่วนแนวคิด — และ Suno สร้างแทร็กเต็มพร้อมเสียงร้องที่สังเคราะห์ โครงสร้างที่รู้จักได้ และการขัดเกลาการผลิตที่ยืนกรานบนลำโพงผู้บริโภค
คุณภาพเสียงร้องเป็นพาดหัว การออกแบบข้อมูลการฝึกและโมเดลของ Suno มุ่งเน้นที่เอาต์พุตที่ร้องได้ และในแนวเพลงป็อป ฮิปฮอป และประเทศใกล้เคียงส่วนใหญ่ ผลลัพธ์มีการแข่งขันกับสิ่งที่คุณจะได้ยินจากม้วนเดโม่ การตรวจจับท่อนฮุคที่ฝังอยู่ในสถาปัตยกรรมของมันหมายความว่าเอาต์พุตลงตัวในพื้นที่เวิร์ส-คอรัสเกือบโดยอัตโนมัติ ซึ่งเป็นทั้งจุดแข็งหรือข้อจำกัดขึ้นอยู่กับเป้าหมายของคุณ
ข้อจำกัดที่ Suno ร่วมกับทุกแพลตฟอร์มปิด: ไม่มีการเข้าถึงน้ำหนัก ไม่มีการอนุมานในท้องถิ่น และการควบคุมพารามิเตอร์การผลิตแต่ละรายการมีจำกัด ถ้าคุณต้องการกำหนดรูปร่างความต่ำหรือดึง reverb tail ออกจากสแนร์ คุณกำลังทำงานใน DAW หลังจากนั้น ไม่ใช่ภายในตัวสร้าง สำหรับนักวิจัย Suno เป็นกล่องดำ สำหรับนักแต่งเพลง นั่นมักก็ไม่เป็นไร
Udio
Udio เน้นความกว้างสไตล์และการผสมแนวเพลงในลักษณะที่รู้สึกแตกต่างเชิงคุณภาพจาก Suno ในขณะที่ Suno ลงตัวอย่างน่าเชื่อถือตรงกลางของแนวเพลง Udio จัดการจุดตัดที่ผิดปกติ — lo-fi ที่ได้รับอิทธิพลจาก jazz พร้อมการเพอร์คัสชัน Afrobeats ออร์เคสตรัลเมทัลพร้อมส่วนพูด — โดยไม่บังคับให้คุณวิศวกรรมพร้อมต์หนัก การสร้างมักทำให้แปลกใจในแบบที่ผลิตผล
คุณภาพเสียงร้องใน Udio มีการแข่งขันกับ Suno ในแนวเพลงหลายอย่างและบางครั้งเอาชนะในแนวเพลงที่มีการเรียงวลีที่โดดเด่น: soul, gospel, ละครคาบาเรต์ และสไตล์ภูมิภาคบางอย่างที่โมเดลคลังขนาดเล็กจัดการได้ไม่ดี อินเทอร์เฟซดีขึ้นอย่างมีนัยสำคัญตลอดปีแรกและตอนนี้มีโครงสร้างเพียงพอที่ผู้ใช้ที่ไม่ใช่ทางเทคนิคสามารถปรับตัวได้อย่างรวดเร็ว
สำหรับผู้ใช้ที่พบว่าเอาต์พุต Suno เริ่มต้นนั้นสม่ำเสมอเกินไป Udio เป็นการทดลองถัดไปตามธรรมชาติ เช่นเดียวกับ Suno มันเป็นน้ำหนักปิดโดยสมบูรณ์ โฮสต์เท่านั้น และได้รับอนุญาตเชิงพาณิชย์ ไม่มีเส้นทางโฮสต์เอง
aisonggen
ตัวสร้างดนตรีของ aisonggen ใช้แนวทางพร้อมต์ถึงเพลงพร้อมฟีเจอร์โครงสร้างหนึ่งที่แยกมันจากเครื่องมือเอาต์พุตเดียว: แพลตฟอร์มสร้างห้าตัวเลือกแบบขนานจากพร้อมต์เดียว ให้คุณตรวจสอบทิศทางก่อนตัดสินใจเลือก เอาต์พุตแบบขนานนั้นมีประโยชน์ตอนต้นเซสชันสร้างสรรค์เมื่อคุณยังค้นพบว่าเวอร์ชันไหนของไอเดียของคุณฟังดูถูกต้องจริงๆ
เครื่องมือครอบคลุมไปป์ไลน์เพลงเต็มในที่เดียว Lyric Studio จัดการการสร้างและแก้ไขเนื้อเพลงโดยตรงบนแพลตฟอร์ม ดังนั้นคุณไม่ได้คัดลอกวางระหว่างโมเดลภาษาและตัวสร้างดนตรี ตัวสร้างคัฟเวอร์ขยายเวิร์กโฟลว์ไปสู่สินทรัพย์ภาพ ผลิตภาพระดับปกอัลบั้มที่จับคู่กับอารมณ์ของแทร็ก สำหรับผู้ใช้ที่ต้องการย้ายจากแนวคิดไปสู่แพ็กเกจที่แชร์ได้โดยไม่ออกจากอินเทอร์เฟซ ชุดเครื่องมือนั้นสอดคล้องกัน
พูดตรงๆ เกี่ยวกับข้อจำกัด: aisonggen เป็นแพลตฟอร์มน้ำหนักปิดที่โฮสต์ ไม่มีทางดาวน์โหลดน้ำหนักโมเดล ไม่มีตัวเลือกการอนุมานในท้องถิ่น และไม่มีเส้นทางสู่การโฮสต์เอง ถ้ากรณีการใช้งานของคุณคือการสร้างที่โฮสต์เอง ความสามารถในการทำซ้ำเชิงวิชาการ หรือการปรับแต่งบนชุดข้อมูลที่เป็นกรรมสิทธิ์ การเปิดตัวน้ำหนักเปิดของ Stable Audio เป็นคำตอบที่ดีกว่าและ aisonggen ไม่เปลี่ยนการคำนวณนั้น สำหรับนักแต่งเพลง นักสร้างเนื้อหา หรือโปรดิวเซอร์ที่ต้องการเอาต์พุตรูปร่างเพลงพร้อมเสียงร้องจริงอย่างรวดเร็ว ช่องว่างนั้นแคบลงอย่างมีนัยสำคัญ
ราคาเป็นไปตามโครงสร้างตามเครดิตพร้อมระดับฟรีสำหรับการประเมิน หน้าบทวิจารณ์ครอบคลุมการประเมินที่ส่งอย่างอิสระถ้าคุณต้องการความรู้สึกคุณภาพเอาต์พุตก่อนสร้าง
Mureka
Mureka วางตำแหน่งตัวเองเป็นแพลตฟอร์มดนตรี AI ระดับมืออาชีพพร้อมความเน้นที่แข็งแกร่งกว่าในคุณภาพการผลิตที่ด้านบนของช่วงเอาต์พุต โมเดลโดดเด่นเป็นพิเศษในความหนาแน่นของการเรียบเรียงดนตรีบรรเลง — แทร็กที่สร้างมักมีการวางชั้นและช่วงไดนามิกมากกว่าคู่แข่งหลายรายที่ความซับซ้อนพร้อมต์ที่เทียบกัน
การแสดงเสียงร้องใน Mureka มีความสามารถ พร้อมความแข็งแกร่งเฉพาะในการขับร้องแบบแสดงออกทางอารมณ์บนบัลลาดและเนื้อหาที่อยู่ติดกับ R&B ที่เครื่องมือบางอย่างสร้างเสียงร้องที่นั่งอยู่เชิงกลไกบนดนตรีบรรเลง เอาต์พุตของ Mureka มักฟังดูเหมือนเสียงร้องถูกผลิตควบคู่กับแทร็กแทนที่จะวางทับมันหลังจากนั้น
อินเทอร์เฟซมุ่งเน้นผู้ใช้ที่มีบริบทการผลิตเสียงอยู่แล้วมากขึ้น คุณจะได้รับประโยชน์มากขึ้นจาก Mureka ถ้าคุณสามารถอธิบายพร้อมต์ของคุณในเชิงการผลิต — จังหวะ คีย์ การอ้างอิงเครื่องดนตรี — มากกว่าถ้าคุณทำงานในระดับแนวคิดล้วนๆ มันเป็นเกณฑ์มาตรฐานที่คุ้มค่าสำหรับผู้ใช้ที่ทดสอบ Suno และ Udio แล้วและต้องการจุดเปรียบเทียบที่สามก่อนตั้งถิ่นฐานในแพลตฟอร์มหลัก
Riffusion
Riffusion เริ่มต้นเป็นโปรเจกต์โอเพ่นซอร์ส — โมเดล diffusion ตาม spectrogram ที่นำเทคนิคการสร้างภาพมาสู่การสังเคราะห์เสียง — และมรดกการวิจัยนั้นยังคงปรากฏในวิธีจัดการเอาต์พุต โมเดลไม่ได้พยายามเป็นเครื่องสร้างเพลงป็อป มันสร้างเสียงที่ฟังดูเหมือนเนื้อสัมผัสที่วิวัฒน์มากกว่าเพลงที่มีโครงสร้าง ซึ่งทำให้น่าสนใจสำหรับบริบทการผลิตแอมเบียนต์ อิเล็กทรอนิกส์ และการทดลอง
สำหรับผู้ใช้ที่คุ้นเคยกับเอาต์พุตเชิงทดลองมากขึ้นของ Stable Audio Riffusion อยู่ในพื้นที่ที่อยู่ติดกัน การแสดงเสียงร้องไม่ใช่จุดแข็ง และเอาต์พุตเพลงที่มีโครงสร้างไม่ใช่เป้าหมาย สิ่งที่มันนำเสนอคือลักษณะเชิงสร้างสรรค์ที่แตกต่าง — บางอย่างที่ตอบสนองต่อพร้อมต์ในลักษณะที่แพลตฟอร์มอื่นไม่ทำ — ซึ่งทำให้มันเป็นส่วนเสริมที่มีประโยชน์แทนที่จะเป็นการแทนที่โดยตรง
รากโอเพ่นซอร์สของ Riffusion หมายความว่าอุปสรรคในการทดลองต่ำและมีทรัพยากรชุมชน มันไม่ตรงกับความลึกน้ำหนักเปิดของ Stable Audio สำหรับงานโฮสต์เองอย่างจริงจัง แต่เป็นตัวเลือกที่เข้าถึงได้ผ่านเบราว์เซอร์น้ำหนักเบาสำหรับเนื้อสัมผัสเชิงสร้างสรรค์ คุ้มค่าหนึ่งเซสชัน
วิธีเลือก — สามคำถาม
- คุณต้องการน้ำหนักเปิดหรือการอนุมานในท้องถิ่นหรือไม่? ถ้าใช่ Stable Audio (โดยเฉพาะ Stable Audio Open) เป็นคำตอบที่ถูกต้องโดยไม่คำนึงถึงทางเลือกที่ระบุที่นี่ ไม่มีทางเลือกใดเสนอการโฮสต์เอง และทั้งหมดต้องการการส่งข้อมูลไปยัง API เชิงพาณิชย์ นั่นเป็นเส้นแบ่งที่แน่วแน่
- เสียงร้องเป็นเอาต์พุตหลักหรือองค์ประกอบรอง? ถ้าคุณกำลังผลิตเพลงที่การแสดงเสียงร้องพาแทร็ก ทดสอบ Suno, Udio และ aisonggen ก่อน ถ้าคุณกำลังสร้างดนตรีบรรเลงสนับสนุน เสียงเกม หรือวัสดุออกแบบเสียงที่เสียงร้องขาดหายไปหรือเป็นเนื้อสัมผัสเบา Stable Audio และ Riffusion มีแนวโน้มตอบสนองมากกว่า
- คุณต้องการเวิร์กโฟลว์ส่วนใหญ่อยู่ในเครื่องมือเดียวแค่ไหน? ถ้าคุณต้องการการเขียนเนื้อเพลง การสร้างดนตรี และสินทรัพย์ภาพในอินเทอร์เฟซเดียว ชุดเครื่องมือของ aisonggen ถูกจัดโครงสร้างสำหรับนั้น ถ้าคุณชอบการประพันธ์ส่วนต่างๆ ของเวิร์กโฟลว์ในเครื่องมือเฉพาะทางและรวมกันเอง แพลตฟอร์มผู้เชี่ยวชาญต่องานให้การควบคุมที่มากขึ้นในแต่ละขั้น
แผนการทดสอบที่เน้น
- วัดเครื่องมือปัจจุบันของคุณ สร้างพร้อมต์เดียวกันใน Stable Audio และบันทึกสิ่งที่คุณได้รับ: ความยาวเสียง การมีเสียงร้อง (หรือขาดหาย) ความหนาแน่นการผลิต และเวลาสู่การสร้าง นี่คือจุดยึดการเปรียบเทียบของคุณ
- รันพร้อมต์เดียวกันผ่านสองทางเลือก เลือกจากห้าข้างต้นตามคำตอบของคุณต่อสามคำถาม ใช้พร้อมต์เหมือนกันข้ามแพลตฟอร์มทั้งสามเพื่อแยกตัวแปรโมเดล
- ประเมินโดยเฉพาะในมิติที่สำคัญ ถ้าเสียงร้องเป็นเป้าหมาย ให้คะแนนเฉพาะความเป็นธรรมชาติและความเข้าใจได้ของเสียงร้อง ถ้าเนื้อสัมผัสเป็นเป้าหมาย ให้คะแนนความร่ำรวยทางสเปกตรัมและวิวัฒน์ตามเวลา หลีกเลี่ยงการประเมินทางเลือกในจุดแข็งของ Stable Audio — คุณรู้แล้วว่ามันชนะที่นั่น
- ทดสอบกรณีขอบในแนวเพลงเฉพาะของคุณ พร้อมต์ป็อปโดยเฉลี่ยมักยกย่องแพลตฟอร์มดนตรี AI ทดสอบแนวเพลงที่ยากกว่าสำหรับทางเลือกที่เลือกของคุณ — ภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ สเกลที่ไม่ใช่ตะวันตก ลายเซ็นเวลาที่ผิดปกติ — และสังเกตว่าเอาต์พุตเสื่อมสภาพอย่างสง่างามหรือหายนะ
- ตรวจสอบข้อกำหนดการออกใบอนุญาตเชิงพาณิชย์ ก่อนสร้างเวิร์กโฟลว์รอบแพลตฟอร์มใดก็ตาม ยืนยันการออกใบอนุญาตเอาต์พุตสำหรับการใช้งานที่ตั้งใจ ข้อกำหนดต่างกันอย่างมีนัยสำคัญข้าม Suno, Udio, aisonggen, Mureka และ Riffusion และมีการเปลี่ยนแปลง อ่านเวอร์ชันปัจจุบันแทนที่จะพึ่งสรุป
Stable Audio เป็นเครื่องมือที่ถูกต้องและการโต้แย้งน้ำหนักเปิดไม่ใช่เชิงอรรถรอง — มันแทนความสัมพันธ์ที่แตกต่างอย่างพื้นฐานระหว่างนักสร้างและโมเดลเชิงสร้างสรรค์ของพวกเขา สำหรับเวิร์กโฟลว์ที่ถูกออกแบบมาเพื่อ ยากที่จะแข่งขันได้
สำหรับเอาต์พุตรูปร่างเพลง ขับเคลื่อนด้วยเสียงร้อง พร้อมสำหรับผู้บริโภค ห้าแพลตฟอร์มข้างต้นจัดการช่องว่าง เริ่มต้นด้วยคำถามที่จำกัดโปรเจกต์ปัจจุบันของคุณจริงๆ และเลือกเครื่องมือที่ตอบมัน