Ανοίξτε το Riffusion, πληκτρολογήστε ένα prompt όπως «lo-fi jazz με βροχή και μακρινή τρομπέτα», πατήστε generate και βγαίνει κάτι πραγματικά ενδιαφέρον. Μια υγρή, θολή υφή που ακούγεται σαν να εγγράφηκε σε ένα μπάνιο καφενείου το 1973. Το παίζετε δύο φορές, νεύετε, και στη συνέχεια συνειδητοποιείτε: έχει διάρκεια 28 δευτερολέπτων, δεν υπάρχει στίχος ή ρεφρέν και δεν ξέρετε αν μπορείτε να το βάλετε σε εμπορικό έργο. Αυτή είναι η εμπειρία Riffusion σε μία παράγραφο.
Τίποτα από αυτά δεν είναι κριτική για αυτό που το project σκόπευε να κάνει. Το Riffusion ξεκίνησε ως πείραμα ανοιχτού κώδικα — γεννήτρια ήχου εκτελώντας diffusion σε εικόνες spectrogram, αντιμετωπίζοντας τον ήχο ως πρόβλημα οπτικού latent space. Ήταν πραγματικά νέο. Αλλά «πραγματικά νέο» και «εργαλείο που μπορώ να χρησιμοποιήσω για να τελειώσω ένα τραγούδι σήμερα» είναι διαφορετικές απαιτήσεις. Αν χρειάζεστε ένα τετράλεπτο κομμάτι με σωστή δομή, ευνόητα φωνητικά και σαφή άδεια, το Riffusion δεν είναι η σωστή αρχή. Αυτό το άρθρο καλύπτει πέντε εναλλακτικές που είναι, και εξηγεί πώς να επιλέξετε μεταξύ τους.
Σε τι είναι πραγματικά καλό το Riffusion
Πριν παρουσιάσουμε τις εναλλακτικές, αξίζει να είμαστε ακριβείς για το πού εξακολουθεί να αξίζει θέση στη ροή εργασίας το Riffusion.
Η υφή και η ατμόσφαιρα είναι οι ισχυρότερες έξοδοί του. Αν χρειάζεστε ambient βάση, βιομηχανικό drone ή κάτι που ακούγεται σαν δύο είδη να συγκρούονται στον αέρα, η γεννήτρια βάσει spectrogram του Riffusion μπορεί να παράγει αποτελέσματα που αισθάνονται λιγότερο «γυαλισμένο AI pop» και περισσότερο «ηχογράφηση πεδίου και σύνθεση». Αυτός είναι πραγματικός διαφοροποιητής για σχεδιαστές ήχου, επεξεργαστές trailer και πειραματικούς παραγωγούς.
Τα σύντομα loops είναι εκεί που λάμπει δομικά. Όταν δεν χρειάζεστε ένα τραγούδι — χρειάζεστε ένα loop οκτώ μέτρων για να κάθεται κάτω από μια φωνή ή μια υφή για να στρωματωθεί πίσω από μια εισαγωγή podcast — το μήκος εξόδου σταματά να είναι περιορισμός και γίνεται χαρακτηριστικό.
Τα mixtures είδών που θα αισθάνονταν άβολα σε μια πιο δομημένη γεννήτρια είναι ρουτίνα στο Riffusion. «Bossa nova αλλά μέσα από ένα σπασμένο κασετόφωνο» δεν είναι παράξενο prompt εκεί. Η προσέγγιση diffusion του μοντέλου παράγει μείξεις που οι πιο φωνητικά εκπαιδευμένες γεννήτριες μερικές φορές υπεραπλουστεύουν σε μία ετικέτα είδους.
Πού υστερεί το Riffusion
Το χάσμα εμφανίζεται τη στιγμή που θέλετε ένα τραγούδι παρά μια υφή.
Η δομή πλήρους τραγουδιού είναι ο πιο εμφανής περιορισμός. Τα κλιπ Riffusion δεν ακολουθούν αξιόπιστα αρχιτεκτονική στίχου-ρεφρέν-γέφυρας. Λαμβάνετε αποσπάσματα vibe, όχι τραγούδια με δραματικούς τόξους.
Η συνοχή φωνητικών υποβαθμίζεται γρήγορα. Το Riffusion μπορεί να παράγει κάτι που ακούγεται κατά προσέγγιση σαν τραγούδι, αλλά τα φωνήματα είναι συχνά κουτσουρεμένα ή φανταστικά. Δεν μπορείτε να ελέγξετε μια μελωδική γραμμή, ένα στιχουργικό ρεφρέν ή ακόμα και αν τα φωνητικά παραμένουν στο σωστό τόνο σε ένα κλιπ 90 δευτερολέπτων. Για οποιοδήποτε έργο όπου οι στίχοι έχουν σημασία — rap, pop, R&B, singer-songwriter — αυτό είναι από μόνο του αποκλειστικό.
Το μήκος είναι μια σκληρή οροφή. Η πλατφόρμα δεν παράγει εγγενώς κομμάτια τεσσάρων λεπτών. Υπάρχουν λύσεις, αλλά απαιτούν χειροκίνητο ράψιμο και εισάγουν ακουστές ραφές.
Ο έλεγχος prompt είναι χαλαρός κατά σχεδιασμό. Η προσέγγιση spectrogram είναι εγγενώς λιγότερο πιστή στο prompt από μοντέλα εκπαιδευμένα πιο άμεσα σε metadata τραγουδιού και δομή. Μπορείτε να κατευθύνετε με πρόφαση αλλά σπάνια να καθορίσετε.
Η εξαγωγή stem δεν είναι διαθέσιμη. Δεν μπορείτε να τραβήξετε το φωνητικό στρώμα από το οργανικό, κάτι που έχει σημασία αν θέλετε να κάνετε remix, να αλλάξετε τόνο ή απλώς να χρησιμοποιήσετε μόνο το beat.
Η αδειοδότηση εμπορικής χρήσης ήταν ιστορικά ασαφής. Οι ρίζες ανοιχτού κώδικα και οι όροι του hosted προϊόντος δεν επιλύουν προφανώς σε «μπορείτε να κερδίσετε χρήματα από αυτό». Για επαγγελματική χρήση, αυτή η ασάφεια έχει πραγματικό κόστος.
Πέντε εναλλακτικές που χειρίζονται τη δουλειά πλήρους τραγουδιού
Suno
Το Suno είναι το σημείο αναφοράς για τραγούδια παραγμένα από AI με πραγματική δομή. Παράγει κομμάτια που ακολουθούν αναγνωρίσιμα σχήματα τραγουδιών pop και hip-hop — εισαγωγή, στίχος, ρεφρέν, γέφυρα, outro — με φωνητικά που φράζουν μελωδικά και παραμένουν κατά προσέγγιση στον σωστό τόνο. Η ενσωμάτωση στίχων είναι η ισχυρότερη σε αυτή την κατηγορία: αυτό που γράφετε στο prompt αποτυπώνεται στον ήχο με αναγνωρίσιμη μορφή.
Η αδυναμία του είναι η ομοιομορφία σε μεγάλη κλίμακα. Τα αποτελέσματα του Suno τείνουν να ακούγονται σαν Suno. Η τονική παλέτα, το reverb προφίλ, ο τρόπος που ανυψώνεται το ρεφρέν — αυτά τα μοτίβα επαναλαμβάνονται ανά prompts. Για ένα ή δύο τραγούδια, η ποιότητα είναι υψηλή. Για έναν κατάλογο, το αποτύπωμα γίνεται εμφανές.
Η τιμολόγηση βασίζεται στη χρήση με δωρεάν επίπεδο που σας δίνει μερικά κομμάτια πριν φτάσετε όρια. Η εμπορική αδειοδότηση είναι διαθέσιμη σε πληρωμένα προγράμματα. Για τους περισσότερους που θέλουν ένα πλήρες, ακουστό τραγούδι γρήγορα, το Suno είναι το πρώτο εργαλείο που δοκιμάζετε — ειδικά για είδη με φωνητικά ως επίκεντρο.
Udio
Το Udio προσεγγίζει το ίδιο πρόβλημα πλήρους τραγουδιού από ελαφρώς διαφορετική γωνία. Ενώ το Suno δίνει προτεραιότητα στη μελωδική συνοχή, το Udio παράγει αποτελέσματα που μερικές φορές αισθάνονται πιο οργανικά λεπτομερή — ο προγραμματισμός drums, η αρμονία συγχορδιών και η ενορχήστρωση παραγωγής είναι συχνά πιο ποικιλόμορφα από κομμάτι σε κομμάτι.
Η ποιότητα φωνητικών είναι ανταγωνιστική με το Suno σε ισχυρές εκδοχές, αλλά η διακύμανση είναι υψηλότερη. Θα βγείτε με μερικές εκδοχές που είναι πραγματικά εντυπωσιακές και μερικές με την ξεθωριαστή, mid-phrase αίσθηση που χαρακτηρίζει μια AI φωνή που παλεύει με τη φράση. Το σύστημα prompt ανταμείβει την εξειδίκευση.
Το Udio υποστηρίζει μεγαλύτερα αποτελέσματα από το Riffusion και επιτρέπει κάποια δομική προσαρμογή. Αξίζει δοκιμή παράλληλα με το Suno σε οποιοδήποτε έργο — διαφορετικά prompts ευνοούν διαφορετικές μηχανές.
aisonggen
Το διακριτό χαρακτηριστικό του aisonggen είναι η παράλληλη δημιουργία: η γεννήτρια μουσικής αποδίδει πέντε παραλλαγές από ένα μόνο prompt ταυτόχρονα, οπότε συγκρίνετε εκδοχές αντί να περιμένετε μια, να την απορρίπτετε και να ξεκινάτε από την αρχή. Για έργα όπου ο βασικός περιορισμός είναι ο βρόχος επανάληψης — όχι η οροφή ποιότητας — αυτή η δομή έχει μεγαλύτερη σημασία από ό,τι ακούγεται.
Η φράσεωση φωνητικών στις ισχυρότερες μεμονωμένες εκδοχές είναι ανταγωνιστική αλλά δεν ξεπερνά σταθερά τα καλύτερα αποτελέσματα του Suno. Το ειλικρινές πλαίσιο είναι: το aisonggen δεν κερδίζει στην κορυφαία ποιότητα φωνητικών, αλλά μειώνει τον αριθμό κύκλων επαναδημιουργίας και αναμονής που χρειάζεστε για να φτάσετε σε αποδεκτή εκδοχή.
Πέρα από τη δημιουργία, το aisonggen έχει ξεχωριστή επιφάνεια Lyric Studio όπου μπορείτε να γράψετε και να επεξεργαστείτε στίχους πριν δεσμευτείτε σε μια απόδοση, κάτι που βοηθά αν θέλετε να ελέγχετε τι λένε πραγματικά τα φωνητικά. Υπάρχει επίσης μια γεννήτρια εξωφύλλων που επαναποδίδει ένα υπάρχον κομμάτι σε διαφορετικό στυλ — χρήσιμο αν έχετε μια εκδοχή που σας αρέσει αλλά θέλετε να την ακούσετε με διαφορετική παραγωγή.
Η τιμολόγηση ξεκινά από δωρεάν επίπεδο. Αν το αξιολογείτε παράλληλα με άλλα εργαλεία, η σελίδα κριτικών έχει συγκρίσεις χρηστών έναντι Suno και Udio ειδικά.
Mureka
Το Mureka είναι μια λιγότερο ορατή επιλογή που παράγει ποιότητα αποτελέσματος που ανταγωνίζεται στην κορυφή της κατηγορίας σε ορισμένους τύπους prompt, ιδιαίτερα για κομμάτια με πραγματική πολυπλοκότητα οργανικής ενορχήστρωσης. Εκεί που το Suno και το Udio μερικές φορές καταρρέουν μια πολύ-οργανική ενορχήστρωση σε ομοιογενές mix, τα αποτελέσματα του Mureka μπορούν να διατηρήσουν τον χωρικό διαχωρισμό των οργάνων με τρόπο που διατηρείται με ακουστικά.
Η συμβιβαστική σχέση είναι ότι η επιφάνεια προϊόντος είναι λιγότερο γυαλισμένη. Η διεπαφή prompt είναι λιγότερο συγχωρητική για casual είσοδο, και η ταχύτητα δημιουργίας είναι πιο αργή από το Suno.
Οι εμπορικοί όροι αδειοδότησης του Mureka είναι πιο σαφείς από του Riffusion, κάτι που έχει σημασία για μουσική που μπαίνει σε βίντεο, διαφήμιση ή διανομή. Το δωρεάν επίπεδο είναι περιορισμένο αλλά λειτουργικό για αξιολόγηση.
Stable Audio
Το Stable Audio (της Stability AI) καταλαμβάνει ενδιάμεσο έδαφος μεταξύ της προσέγγισης υφής-πρώτα του Riffusion και της προσέγγισης τραγουδιού-πρώτα του Suno. Παράγει ήχο σε υψηλότερη πιστότητα από το Riffusion και υποστηρίζει μεγαλύτερα κλιπ — έως τρία λεπτά σε ορισμένες ρυθμίσεις — ενώ δίνει πιο ακριβή έλεγχο επί διάρκειας και στυλ.
Το αποτέλεσμα τείνει προς το οργανικό. Η φωνητική δημιουργία δεν είναι το δυνατό σημείο του Stable Audio, οπότε είναι καλύτερα κατάλληλο για υποστηρικτικά κομμάτια, οργανικές συνθέσεις και σχεδιασμό ήχου παρά για τελικά τραγούδια με τραγουδιστά φωνητικά. Για παραγωγούς που θέλουν μια παραγμένη οργανική ενορχήστρωση για να τοποθετήσουν τα δικά τους φωνητικά, είναι ισχυρή επιλογή.
Το μοντέλο επωφελείται από την ίδια φιλοσοφία ανοιχτών βαρών που υποστηρίζει το Riffusion — υπάρχει μια έκδοση για την έρευνα διαθέσιμη για τεχνικούς χρήστες που θέλουν να το τρέξουν τοπικά ή να το fine-tune — αλλά το hosted προϊόν είναι προσβάσιμο χωρίς τεχνική εγκατάσταση.
Πώς να επιλέξετε — τρεις ερωτήσεις
- Πόσο μακρύ πρέπει να είναι το αποτέλεσμα και πόση δομή χρειάζεται; Αν χρειάζεστε οτιδήποτε πάνω από δύο λεπτά με αναγνωρίσιμη δομή στίχου-ρεφρέν, το Riffusion είναι εκτός. Το Suno ή το aisonggen είναι η γρηγορότερη διαδρομή σε ένα σωστά διαμορφωμένο τραγούδι. Αν χρειάζεστε ένα οργανικό υποστηρικτικό κομμάτι κάτω από δύο λεπτά και δεν σας ενδιαφέρουν τα φωνητικά, το Stable Audio ή το Udio αξίζουν δοκιμή.
- Τι απαιτεί η αδειοδοτική σας κατάσταση; Αν το αποτέλεσμα μπαίνει σε εμπορικό έργο — βίντεο, διαφήμιση, κυκλοφορία streaming — χρειάζεστε σαφήνεια στους όρους πριν δεσμευτείτε. Η αδειοδότηση του Riffusion είναι η λιγότερο επιλυμένη. Το Suno, Udio και aisonggen έχουν ρητούς εμπορικούς όρους σε πληρωμένα προγράμματα.
- Πόσο έλεγχο χρειάζεστε επί του αποτελέσματος; Αν χρειάζεστε να καθορίσετε στίχους, κατεύθυνση μελωδίας ή λεπτομέρειες παραγωγής, χρησιμοποιήστε ένα εργαλείο που δέχεται δομημένη είσοδο. Το Lyric Studio του aisonggen και η custom-mode του Suno έχουν σχεδιαστεί για αυτό το είδος κατευθυντικού ελέγχου.
Ένα σχέδιο δοκιμής 20 λεπτών
- Επιλέξτε ένα prompt που αντιπροσωπεύει την πραγματική σας περίπτωση χρήσης. Μην δοκιμάσετε με «ζωηρό pop τραγούδι» — δοκιμάστε με ό,τι θα χρειαζόταν πραγματικά να αποστείλετε. Αν το έργο σας είναι lo-fi hip-hop οργανικά στα 85 BPM, αυτό είναι το prompt.
- Εκτελέστε το ίδιο prompt σε τουλάχιστον δύο εργαλεία ταυτόχρονα. Η δημιουργία παίρνει περίπου 30 έως 90 δευτερόλεπτα ανάλογα με την πλατφόρμα. Υποβάλετε και στα δύο πριν αξιολογήσετε κανένα.
- Αξιολογήστε στη διάσταση που έχει μεγαλύτερη σημασία για εσάς πρώτα. Αν τα φωνητικά είναι κρίσιμα, ακούστε μόνο τη φωνητική εκτέλεση στην πρώτη αναπαραγωγή και αγνοήστε την ποιότητα παραγωγής.
- Εκτελέστε τρεις έως πέντε παραλλαγές στο εργαλείο που απέδωσε καλύτερα. Ένα καλό αποτέλεσμα μπορεί να είναι διακύμανση. Πέντε αποτελέσματα στην ίδια εντολή σας δίνουν σαφέστερη αίσθηση της πραγματικής αξιοπιστίας του εργαλείου στον τύπο prompt σας.
- Ελέγξτε το αποτέλεσμα στη συσκευή αναπαραγωγής που θα χρησιμοποιεί το κοινό σας. Ο ήχος παραγμένος από AI μερικές φορές ακούγεται εξαιρετικό σε studio monitors και λεπτό σε earbuds, ή το αντίθετο. Αν το κοινό σας κάνει streaming από τηλέφωνα, εκεί ακούτε πριν δεσμευτείτε σε εργαλείο.
Το Riffusion ανταμείβει την εξερεύνηση. Είναι το σωστό εργαλείο όταν θέλετε να ανακαλύψετε κάτι που δεν θα μπορούσατε να έχετε περιγράψει εκ των προτέρων. Αλλά αν ξεκινάτε από μια σαφή εντολή — μια συγκεκριμένη δομή, ένα σύνολο στίχων, ένα είδος που πρέπει να αποδοθεί για ένα πραγματικό κοινό — τα παραπάνω εργαλεία είναι πιο πιθανό να σας φέρουν εκεί σε μια συνεδρία παρά σε μια εβδομάδα.
Αν αξιολογείτε ειδικά το aisonggen, η γεννήτρια μουσικής είναι η γρηγορότερη διαδρομή για να εκτελέσετε την πρώτη δοκιμή σας, και η παράλληλη έξοδος παραλλαγών σημαίνει ότι το σχέδιο 20 λεπτών καλύπτει περισσότερο έδαφος στον ίδιο χρόνο ρολογιού.