AISongGen logoAISongGen

Các lựa chọn thay thế tốt nhất cho Riffusion — khi bạn muốn bài hát đầy đủ thay vì âm cảnh

Điểm mạnh của Riffusion là kết cấu và thử nghiệm; đó không phải thứ bạn với tay khi cần bài hát verse-chorus bốn phút. Năm công cụ lấp đầy khoảng cách.

Đọc 7 phút

Mở Riffusion, gõ câu lệnh như "lo-fi jazz với mưa và kèn trumpet từ xa," nhấn tạo, và thứ gì đó thực sự thú vị xuất hiện. Một kết cấu ẩm ướt, mờ nhạt nghe như được ghi âm trong nhà vệ sinh quán cà phê năm 1973. Bạn nghe hai lần, gật đầu, và sau đó nhận ra: nó chỉ dài 28 giây, không có verse hay chorus, và bạn không biết liệu có thể đưa nó vào dự án thương mại không. Đó là trải nghiệm Riffusion trong một đoạn.

Không cái nào trong đó là chỉ trích những gì dự án đặt ra làm. Riffusion bắt đầu như một thử nghiệm mã nguồn mở — tạo âm thanh bằng cách chạy khuếch tán trên hình ảnh spectrogram, coi âm thanh như vấn đề không gian tiềm ẩn trực quan. Nó thực sự mới lạ. Nhưng "thực sự mới lạ" và "công cụ tôi có thể sử dụng để hoàn thành bài hát hôm nay" là những yêu cầu khác nhau. Nếu bạn cần bản nhạc bốn phút với cấu trúc thích hợp, giọng hát rõ ràng, và giấy phép rõ ràng, Riffusion không phải điểm khởi đầu phù hợp. Bài viết này bao gồm năm lựa chọn thay thế, và giải thích cách chọn giữa chúng.

Riffusion thực sự giỏi điều gì

Trước khi đi qua các lựa chọn thay thế, đáng chú ý chính xác nơi Riffusion vẫn kiếm được vị trí trong quy trình.

Kết cấu và bầu không khí là đầu ra mạnh nhất của nó. Nếu bạn cần giường ambient, tiếng drone công nghiệp, hoặc thứ gì đó nghe như hai thể loại va chạm giữa chuyến bay, tạo nhạc dựa trên spectrogram của Riffusion có thể tạo ra kết quả cảm thấy ít "pop AI được đánh bóng" hơn và giống "ghi âm thực địa cộng với tổng hợp" hơn. Đó là điểm khác biệt thực sự cho các nhà thiết kế âm thanh, biên tập viên trailer và nhà sản xuất thực nghiệm.

Các vòng lặp ngắn là nơi nó tỏa sáng về mặt cấu trúc. Khi bạn không cần bài hát — bạn cần vòng lặp tám nhịp để ngồi dưới giọng nói, hoặc kết cấu để xếp lớp sau phần giới thiệu podcast — độ dài đầu ra ngừng là ràng buộc và trở thành tính năng. Các clip đủ ngắn để kiểm tra nhanh và từ chối với ít chi phí.

Các mashup thể loại mà sẽ cảm thấy kỳ lạ trong một trình tạo có cấu trúc hơn là thường ngày trong Riffusion. "Bossa nova nhưng qua đầu cassette bị hỏng" không phải là câu lệnh kỳ lạ ở đó. Cách tiếp cận khuếch tán của mô hình tạo ra các hỗn hợp mà các trình tạo âm thanh giọng hát hơn đôi khi đơn giản hóa thành một nhãn thể loại hoặc nhãn kia.

Riffusion thiếu sót ở đâu

Khoảng cách xuất hiện ngay lập tức khi bạn muốn bài hát thay vì kết cấu.

Cấu trúc bài hát đầy đủ là ràng buộc rõ ràng nhất. Các clip Riffusion không theo cách tin cậy kiến trúc verse-chorus-bridge. Bạn nhận được các đoạn vibe, không phải bài hát với các cung bậc kịch tính. Mở rộng các clip bằng các tính năng lặp lại của công cụ giúp ích đôi chút, nhưng các chuyển tiếp giữa các phần hiếm khi đáp xuống với loại thay đổi động mà làm cho người nghe cảm thấy bài hát chuyển động.

Sự mạch lạc giọng hát suy giảm nhanh chóng. Riffusion có thể tạo ra thứ gì đó nghe gần như hát, nhưng các âm vị thường bị nhòe hoặc hư cấu. Bạn không thể kiểm soát đường giai điệu, điệp khúc lời ca, hay thậm chí liệu giọng hát có ở đúng cao độ trong suốt clip 90 giây. Với bất kỳ dự án nào mà lời ca quan trọng — rap, pop, R&B, singer-songwriter — điều này tự nó là disqualifying.

Độ dài là trần cứng. Nền tảng không tạo ra các bản nhạc bốn phút một cách tự nhiên. Các giải pháp thay thế tồn tại, nhưng chúng đòi hỏi ghép nối thủ công và tạo ra các đường nối nghe được làm giảm chất lượng kết quả cuối cùng.

Kiểm soát câu lệnh lỏng lẻo theo thiết kế. Cách tiếp cận spectrogram vốn ít trung thành với câu lệnh hơn các mô hình được đào tạo trực tiếp hơn trên siêu dữ liệu bài hát và cấu trúc. Bạn có thể ép buộc một hướng nhưng hiếm khi chỉ định một hướng. Điều này làm cho lặp lại chậm: bạn đang thu hẹp không gian xác suất thay vì điều chỉnh một tham số.

Xuất stem không có sẵn. Bạn không thể kéo lớp giọng hát ra khỏi nhạc nền, điều này quan trọng nếu bạn muốn remix, re-pitch, hoặc chỉ sử dụng beat một mình.

Cấp phép sử dụng thương mại đã mơ hồ trong lịch sử. Nguồn gốc mã nguồn mở và điều khoản của sản phẩm được lưu trữ không rõ ràng giải quyết thành "bạn có thể kiếm tiền từ điều này." Với sử dụng chuyên nghiệp, sự mơ hồ đó có chi phí thực sự.

Năm lựa chọn thay thế xử lý công việc bài hát đầy đủ

Suno

Suno là tiêu chuẩn cho các bài hát được tạo bởi AI có cấu trúc thực sự. Nó tạo ra các bản nhạc theo hình dạng bài hát pop và hip-hop có thể nhận ra — giới thiệu, verse, chorus, bridge, outro — với giọng hát thực sự phân câu về giai điệu và giữ đúng cao độ. Tích hợp lời ca là mạnh nhất trong danh mục này: những gì bạn viết trong câu lệnh xuất hiện trong âm thanh dưới dạng có thể nhận ra.

Điểm yếu của nó là sự đồng nhất ở quy mô. Các đầu ra của Suno có xu hướng nghe như Suno. Bảng màu sắc thái, hồ sơ reverb, cách chorus nâng cao — những mẫu này lặp lại qua các câu lệnh. Với một hoặc hai bài hát, chất lượng cao. Với một danh mục, dấu ấn trở nên rõ ràng. Mô hình cũng có khả năng chịu đựng hạn chế cho các yêu cầu thực sự kỳ lạ hoặc đi ngược thể loại; nó có xu hướng giải quyết sự mơ hồ hướng đến các phong cách sản xuất được đào tạo nhiều nhất của nó.

Giá là dựa trên sử dụng với cấp miễn phí cho bạn một số bản nhạc trước khi đạt đến giới hạn. Cấp phép thương mại có sẵn trên các gói có trả phí. Với hầu hết những người muốn bài hát có thể nghe hoàn chỉnh nhanh chóng, Suno là công cụ đầu tiên thử — đặc biệt cho các thể loại giọng hát đi đầu.

Udio

Udio tiếp cận vấn đề bài hát đầy đủ tương tự từ góc độ hơi khác. Nơi Suno ưu tiên sự mạch lạc giai điệu, Udio tạo ra các đầu ra đôi khi cảm thấy chi tiết nhạc cụ hơn — lập trình trống, hợp âm, và dàn dựng sản xuất thường đa dạng hơn từ bản nhạc đến bản nhạc.

Chất lượng giọng hát cạnh tranh với Suno trên các lượt mạnh, nhưng phương sai cao hơn. Bạn sẽ nhận được một số lượt thực sự ấn tượng và một số có cảm giác bị phủ lớp, giữa câu mà đánh dấu giọng AI đang vật lộn với cách phân câu. Hệ thống câu lệnh khen thưởng sự cụ thể: nói BPM, điệu thức, thập kỷ sản xuất, và nhạc cụ cụ thể mang lại kết quả chặt chẽ hơn so với các tham chiếu phong cách mơ hồ.

Udio hỗ trợ đầu ra dài hơn Riffusion và cho phép một số tùy chỉnh cấu trúc. Đáng thử song song với Suno trên bất kỳ dự án nào — các câu lệnh khác nhau ưu thích các engine khác nhau, và những gì Udio hiển thị cho một ballad soul có thể vượt trội hơn lượt của Suno về cùng yêu cầu.

aisonggen

Tính năng nổi bật của aisonggen là tạo song song: trình tạo nhạc hiển thị năm biến thể từ một câu lệnh duy nhất đồng thời, vì vậy bạn đang so sánh các lượt thay vì chờ một, từ chối nó, và bắt đầu lại. Với các dự án nơi ràng buộc chặn là vòng lặp lặp lại — không phải trần chất lượng — cấu trúc đó quan trọng hơn nghe có vẻ.

Cách phân câu giọng hát trên các lượt cá nhân mạnh nhất là cạnh tranh nhưng không nhất quán vượt trội hơn đầu ra tốt nhất của Suno. Cách diễn đạt trung thực là: aisonggen không thắng về chất lượng giọng hát đỉnh, nhưng nó giảm số chu kỳ tạo lại và chờ bạn đốt để đạt đến một lượt chấp nhận được. Năm đầu ra đồng thời cho phép bạn chọn cái có phân phát điệp khúc tốt nhất ngay cả khi ba cái khác đã bị lỡ.

Ngoài tạo nhạc, aisonggen có bề mặt Lyric Studio riêng biệt nơi bạn có thể viết và chỉnh sửa lời ca trước khi cam kết với hiển thị, điều này giúp ích nếu bạn muốn kiểm soát những gì giọng hát thực sự nói thay vì để mô hình ứng tấu. Còn có trình tạo cover tái hiển thị bản nhạc hiện có theo phong cách khác — hữu ích nếu bạn có lượt bạn hầu hết thích nhưng muốn nghe với sản xuất khác.

Giá bắt đầu ở cấp miễn phí; trang giá bao gồm giới hạn gói chi tiết. Nếu bạn đang đánh giá nó cùng với các công cụ khác, trang đánh giá có so sánh người dùng với Suno và Udio cụ thể.

Mureka

Mureka là lựa chọn ít được biết đến hơn tạo ra chất lượng đầu ra cạnh tranh ở đầu danh mục trên một số loại câu lệnh nhất định, đặc biệt cho các bản nhạc với sự phức tạp dàn dựng nhạc cụ thực sự. Nơi Suno và Udio đôi khi thu gọn dàn dựng nhiều nhạc cụ thành một mix đồng nhất, đầu ra của Mureka có thể giữ nguyên sự tách biệt không gian của các nhạc cụ theo cách giữ trên tai nghe.

Sự đánh đổi là bề mặt sản phẩm ít được đánh bóng hơn. Giao diện câu lệnh ít tha thứ hơn với đầu vào bình thường, và tốc độ tạo nhạc chậm hơn Suno. Với sử dụng chuyên nghiệp nơi chất lượng dàn dựng vượt trội hơn tốc độ lặp lại, đó là sự đánh đổi hợp lý. Với các dự án thông thường nơi bạn muốn thứ gì đó có thể nghe nhanh, đó không phải công cụ đầu tiên để với tay.

Điều khoản cấp phép thương mại của Mureka rõ ràng hơn của Riffusion, điều này quan trọng với âm nhạc sẽ đi vào video, quảng cáo, hoặc phân phối. Cấp miễn phí bị giới hạn nhưng hoạt động cho đánh giá.

Stable Audio

Stable Audio (từ Stability AI) chiếm vùng trung gian giữa cách tiếp cận ưu tiên kết cấu của Riffusion và cách tiếp cận ưu tiên bài hát của Suno. Nó tạo ra âm thanh với độ trung thực cao hơn Riffusion và hỗ trợ các clip dài hơn — lên đến ba phút trong một số cấu hình — trong khi cung cấp kiểm soát chính xác hơn về thời lượng và phong cách so với hầu hết các trình tạo.

Đầu ra nghiêng về nhạc không lời. Tạo giọng hát không phải điểm mạnh của Stable Audio, vì vậy nó phù hợp hơn cho nhạc nền, sáng tác nhạc cụ và thiết kế âm thanh hơn là các bài hát hoàn chỉnh với lời ca được hát. Với các nhà sản xuất muốn dàn dựng nhạc cụ được hiển thị để sau đó đặt giọng hát của riêng họ, đây là lựa chọn mạnh. Với bất kỳ ai cần AI xử lý giọng hát cũng, Suno hay Udio phù hợp hơn.

Mô hình hưởng lợi từ cùng triết lý open-weights nền tảng Riffusion — có phiên bản hướng đến nghiên cứu dành cho người dùng kỹ thuật muốn chạy nó cục bộ hoặc tinh chỉnh — nhưng sản phẩm được lưu trữ có thể truy cập mà không cần thiết lập kỹ thuật.

Cách chọn — ba câu hỏi

  1. Đầu ra cần dài bao lâu, và cần bao nhiêu cấu trúc? Nếu bạn cần bất cứ thứ gì trên hai phút với cấu trúc verse-chorus có thể nhận ra, Riffusion hết. Suno hoặc aisonggen là con đường nhanh nhất đến bài hát được định hình đúng. Nếu bạn cần nhạc nền không lời dưới hai phút và không quan tâm đến giọng hát, Stable Audio hoặc Udio đáng thử.
  2. Tình huống giấy phép của bạn đòi hỏi gì? Nếu đầu ra đi vào dự án thương mại — video, quảng cáo, phát hành phát trực tuyến — bạn cần sự rõ ràng về điều khoản trước khi cam kết. Cấp phép của Riffusion là ít được giải quyết nhất. Suno, Udio và aisonggen đều có điều khoản thương mại rõ ràng trên các gói có trả phí. Kiểm tra cấp cụ thể bạn đang ở; đầu ra cấp miễn phí thường mang các hạn chế khác với cấp có trả phí.
  3. Bạn cần bao nhiêu kiểm soát đối với đầu ra? Nếu bạn cần chỉ định lời ca, hướng giai điệu, hoặc chi tiết sản xuất, hãy sử dụng công cụ nhận đầu vào có cấu trúc. Lyric Studio của aisonggen và chế độ tùy chỉnh của Suno đều được thiết kế cho loại kiểm soát định hướng đó. Nếu bạn vui khi lặp lại từ câu lệnh phong cách và chọn lượt tốt nhất, bất kỳ công cụ nào trong năm cái ở trên đều có thể hỗ trợ quy trình đó — và cách tiếp cận hiển thị song song của aisonggen làm cho bước chọn nhanh hơn.

Kế hoạch thử nghiệm 20 phút

  1. Chọn một câu lệnh đại diện cho trường hợp sử dụng thực tế của bạn. Đừng thử với "bài hát pop sôi động" — hãy thử với bất cứ thứ gì bạn thực sự cần phải giao. Nếu dự án của bạn là nhạc hip-hop lo-fi không lời ở 85 BPM, đó là câu lệnh. Các câu lệnh thử nghiệm nhân tạo tạo ra kết quả nhân tạo.
  2. Chạy cùng câu lệnh trên ít nhất hai công cụ đồng thời. Tạo nhạc mất khoảng 30 đến 90 giây tùy thuộc vào nền tảng và tải hàng đợi. Gửi tới cả hai trước khi xem xét cái nào.
  3. Đánh giá trên chiều kích quan trọng nhất với bạn trước. Nếu giọng hát quan trọng, hãy nghe chỉ màn trình diễn giọng hát trong lần đầu của bạn và bỏ qua chất lượng sản xuất. Nếu dàn dựng quan trọng, hãy nghe với tai đó trước. Việc trộn lẫn đánh giá làm loãng tín hiệu.
  4. Chạy ba đến năm biến thể trên công cụ hoạt động tốt nhất. Một đầu ra tốt có thể là phương sai. Năm đầu ra trên cùng một yêu cầu cho bạn cảm giác rõ ràng hơn về độ tin cậy thực sự của công cụ trên loại câu lệnh của bạn.
  5. Kiểm tra đầu ra trên thiết bị phát lại mà khán giả của bạn sẽ sử dụng. Âm thanh được tạo bởi AI đôi khi nghe xuất sắc trên loa monitor studio và mỏng trên tai nghe, hoặc ngược lại. Nếu khán giả của bạn đang phát trực tuyến trên điện thoại, đó là nơi nghe trước khi bạn cam kết với công cụ.

Riffusion khen thưởng sự khám phá. Đó là công cụ đúng khi bạn muốn khám phá thứ gì đó bạn không thể mô tả trước. Nhưng nếu bạn bắt đầu từ yêu cầu rõ ràng — một cấu trúc cụ thể, một bộ lời ca, một thể loại cần đáp xuống cho một khán giả thực sự — các công cụ ở trên có nhiều khả năng đưa bạn đến đó trong một phiên thay vì một tuần.

Nếu bạn đang đánh giá aisonggen cụ thể, trình tạo nhạc là cách nhanh nhất để chạy thử nghiệm đầu tiên của bạn, và đầu ra biến thể song song có nghĩa là kế hoạch 20 phút của bạn bao gồm nhiều lãnh thổ hơn trong cùng thời gian đồng hồ.

Bản nhạc tiếp theo của bạn chỉ cách một câu lệnh miễn phí

Hãy mở phòng thu, gõ vibe, nghe một bài hát hoàn chỉnh trong 30 giây. Miễn phí khởi đầu, miễn phí bản quyền để phát hành, không cần thẻ tín dụng.