Το δύσκολο κομμάτι της δημιουργίας μουσικής τεχνητής νοημοσύνης δεν είναι το πάτημα του κουμπιού. Το δύσκολο κομμάτι είναι το να ξέρετε τι να βάλετε πριν το πατήσετε, να διαβάζετε αυτό που επιστρέφει με κάποια διάκριση, και να αποφασίζετε αν θα συνεχίσετε ή θα σταματήσετε. Οι περισσότεροι άνθρωποι που αποκαλούν τη μουσική τεχνητής νοημοσύνης «γενική» δεν κάνουν λάθος — απλώς σταμάτησαν πολύ νωρίς στη διαδικασία, ή ξεκίνησαν χωρίς αρκετή σαφήνεια για το τι προσπαθούσαν πραγματικά να κάνουν.
Αυτή είναι μια οδηγία της διαδικασίας που έχω εκτελέσει μερικές εκατοντάδες φορές. Μεταχειρίζεται τη γένεση ως επανάληψη, όχι ως συναλλαγή αυτόματης πώλησης. Όταν λειτουργεί, η έξοδος δεν ακούγεται σαν να την έγραψε μια μηχανή. Όταν αποτυγχάνει, θα ξέρετε ακριβώς ποια απόφαση να επισκεφτείτε εκ νέου.
Αποφασίστε τι είδους τραγούδι θέλετε πραγματικά
Πριν ανοίξετε οποιοδήποτε εργαλείο, καθίστε με μια ερώτηση: μέσα σε ποιαν εμπειρία ζει αυτό το τραγούδι; Όχι «τι είδος» και όχι «τι ατμόσφαιρα» — αυτά έρχονται αργότερα. Ξεκινήστε με προοπτική, στη συνέχεια τόπο, στη συνέχεια το συναισθηματικό κέντρο βάρους.
Ένα απλό πλαίσιο για αυτό:
Ένας [ΠΟΙΟΣ] που κάνει [ΤΙ], η στιγμή ακριβώς πριν από [ΣΗΜΕΙΟ ΚΑΜΠΗΣ]. Το συναίσθημα από κάτω είναι [ΣΥΝΑΙΣΘΗΜΑ], όχι [ΕΠΙΦΑΝΕΙΑΚΟ ΣΥΝΑΙΣΘΗΜΑ]. Κρατήστε το [ΜΙΑ ΤΟΝΙΚΗ ΛΕΞΗ].
Η διάκριση μεταξύ επιφανειακού συναισθήματος και του συναισθήματος από κάτω δεν είναι άσκηση γραφής — είναι οδηγία γεννήτριας. Ένα τραγούδι για «θλίψη» ακούγεται με έναν τρόπο· ένα τραγούδι για τον συγκεκριμένο ενοχλητισμό του να μην μπορείς να κλάψεις σε μια κηδεία ακούγεται σαν εντελώς διαφορετικό δίσκο. Η εξειδίκευση ταξιδεύει στη γένεση με τρόπους που οι ετικέτες ειδών απλώς δεν μπορούν.
Ενώ εξακολουθείτε να σκέφτεστε στο χαρτί, αποφασίστε για το μήκος. Ένα κομμάτι δύο λεπτών και ένα κομμάτι τεσσάρων λεπτών απαιτούν διαφορετικές δομικές επιλογές. Επιλέξτε ένα πριν προχωρήσετε.
Βήμα 1: γράψτε μια ερώτηση που ονομάζει μια στάση, όχι μια υφή
Τα περισσότερα πρώτα prompts περιγράφουν ήχο: «lo-fi beat, ζεστά πλήκτρα, μελαγχολικό». Αυτό περιγράφει πώς πρέπει να αισθάνεται το κομμάτι σε έναν ακροατή τρία βήματα μακριά από το συναίσθημα. Μια στάση περιγράφει τι κάνει ο ερμηνευτής με το σώμα και την προσοχή του.
Συγκρίνετε αυτά τα δύο:
- Prompt υφής: «Αργό R&B, απαλό falsetto, αργά το βράδυ, λαχτάρα.»
- Prompt στάσης: «Κάποιος που διαβάζει παλιά μηνύματα που υποσχέθηκε στον εαυτό του ότι θα διέγραφε. Εξακολουθεί να διαβάζει. Η φωνή είναι ήσυχη σαν να μην θέλει κανείς να ακούσει.»
Και οι δύο επισημαίνουν έναν παρόμοιο συναισθηματικό προορισμό. Το prompt στάσης δίνει στο μοντέλο κάτι να ερμηνεύσει. Το prompt υφής του δίνει μια ηχητική αναφορά και τίποτα άλλο. Τα αποτελέσματα δεν είναι ισοδύναμα.
Κρατήστε τα prompts στάσης σε τρεις ή τέσσερις προτάσεις. Το ανώτατο όριο είναι χαμηλότερο από ό,τι νομίζετε — μετά από περίπου πέντε προτάσεις το μοντέλο αρχίζει να κάνει μέσο όρο των οδηγιών αντί να χτίζει πάνω σε αυτές.
Βήμα 2: επιλέξτε μια γεννήτρια που σάς επιτρέπει να συγκρίνετε λήψεις
Οι γεννήτριες μιας μόνο λήψης κάνουν την επανάληψη αργή με έναν συγκεκριμένο, ενοχλητικό τρόπο: παίρνετε ένα αποτέλεσμα, είναι σχεδόν σωστό, αναδημιουργείτε με μια μικρή τροποποίηση και η νέα λήψη προσγειώνεται σε μια εντελώς διαφορετική κατεύθυνση επειδή δεν υπήρχε κοινή άγκυρα.
Η εκτέλεση παράλληλων παραλλαγών λύνει αυτό. Ο δημιουργός μουσικής του aisonggen αποδίδει πέντε λήψεις ταυτόχρονα από το ίδιο prompt, ώστε να μπορείτε να τις συγκρίνετε δίπλα-δίπλα πριν δεσμευτείτε σε μια κατεύθυνση.
Μια δίκαιη σημείωση: πέντε λήψεις κοστίζουν περισσότερα credits από μία. Αν έχετε πολύ περιορισμένο προϋπολογισμό credits, εκτελέστε δύο λήψεις αντί για πέντε και μεταχειριστείτε την ία ως αναφορά σας. Το νόημα είναι να έχετε τουλάχιστον μία σύγκριση, όχι να έχετε πέντε.
Βήμα 3: γράψτε ή συν-γράψτε τους στίχους σας πρώτα
Η περιοχή στίχων της γεννήτριας είναι ένα μικρό πεδίο κειμένου, και το μοντέλο που τρέχει πίσω από αυτό έχει ισχυρή τάση να διατηρεί ό,τι του δώσετε — τον αρχικό αριθμό γραμμών, το αρχικό σχήμα ρίμας, ακόμα και το αρχικό μοτίβο συλλαβών.
Προσχεδιάστε στίχους ξεχωριστά πριν τους επικολλήσετε. Το Lyric Studio σάς δίνει αρκετό χώρο για να δείτε πραγματικά τι γράφετε. Μπορείτε να αναθεωρήσετε μια ολόκληρη στροφή, να δοκιμάσετε ένα διαφορετικό γάντζο ρεφρέν, να μετακινήσετε το pre-chorus πριν γίνει δομικό — όλα αυτά πριν δώσετε οτιδήποτε στη γεννήτρια.
Τα πρώτα στίχοι σάς επιτρέπουν επίσης να ελέγξετε ένα πράγμα που η γεννήτρια δεν μπορεί: αν ο στίχος έχει φυσικό ρυθμό ομιλίας που ένας τραγουδιστής μπορεί πραγματικά να εκφωνήσει. Διαβάστε το ρεφρέν σας δυνατά. Αν σκοντάψετε, το μοντέλο επίσης θα σκοντάψει.
Αν χτίζετε τον στίχο διαλογικά παράλληλα με τη μουσική — prompt πρώτα, στη συνέχεια βελτίωση στίχων δεύτερη — αυτή η ροή εργασίας είναι επίσης έγκυρη.
Βήμα 4: επιλέξτε τα χειριστήρια ύφους με πρόθεση
Οι ετικέτες είδους είναι σπόροι, όχι συμβόλαια. Το «Indie folk» δεν κλειδώνει την έξοδο σε κανένα συγκεκριμένο ύφος παραγωγής — μεροληπτεί το μοντέλο προς μια ομάδα ήχων που σχετίζονται με αυτή την ετικέτα, κάτι που είναι σημείο εκκίνησης, όχι εγγύηση. Αν θέλετε να κατανοήσετε πώς το μοντέλο ερμηνεύει πραγματικά αυτές τις ετικέτες πριν δεσμευτείτε, ο οδηγός για τις ετικέτες είδους αξίζει δέκα λεπτά του χρόνου σας.
Αυτό που πράγματι περιορίζει την έξοδο πιο αξιόπιστα:
- Ατμόσφαιρα, ονομαστά ακριβής. Το «γλυκόπικρο» και το «παραιτημένο» προσγειώνονται διαφορετικά ακόμα και εντός της ίδιας ετικέτας είδους.
- Σκηνή ή σκηνικό. Το «άδειο πάρκινγκ τα μεσάνυχτα» δίνει στον μηχανικό μίξης (εδώ το μοντέλο) μια οπτική αναφορά για reverb και χώρο.
- Φύλο φωνής και περιοχή. Οι περισσότερες γεννήτριες δέχονται ρητές οδηγίες εδώ, και η προεπιλογή δεν είναι πάντα η σωστή για τον στίχο σας.
Ορίστε BPM αν το γνωρίζετε. Όχι εύρος — αριθμό. Το «Γύρω στα 90» δίνει στο μοντέλο πολύ χώρο. Το «88 BPM» του δίνει ένα ρολόι. Το ίδιο ισχύει για το μήκος κομματιού: γράψτε τη διάρκεια στόχου ρητά αντί να την αφήσετε στην προεπιλογή.
Βήμα 5: αποδώστε, στη συνέχεια ακούστε στο χειρότερο ηχείο που έχετε
Τα κομμάτια που δημιουργούνται από τεχνητή νοημοσύνη έχουν γνωστό τρόπο αποτυχίας: ακούγονται καλύτερα σε ακουστικά από ό,τι αξίζουν. Το στερεοφωνικό πεδίο είναι συχνά ευρύ, το χαμηλό εύρος είναι ελεγχόμενο, η μίξη είναι καθαρή με τρόπο που αποκαλύπτεται ως τεχνητή μόνο όταν την ακούτε σε κάτι αδυσώπητο.
Μετά την πρώτη απόδοση, μεταβείτε στο ηχείο του τηλεφώνου σας. Ή στο ενσωματωμένο laptop. Ή, αν έχετε πρόσβαση, σε ένα στερεοφωνικό αυτοκινήτου με ανοιχτά παράθυρα. Αυτά τα ηχεία καταρρέουν το στερεοφωνικό πεδίο, εκθέτουν τη λάσπη του χαμηλού-μέσου και αναδεικνύουν την τραχύτητα στο άνω μέσο εύρος.
Αν καταρρέει σε λάσπη, αυτό δεν είναι πάντα σημάδι επανα-απόδοσης. Είναι σημάδι να κοιτάξετε τα χειριστήρια ύφους. Μια ετικέτα είδους με έντονο χαμηλό εύρος συν ρύθμιση ζεστής αίθουσας συν αργό BPM θα παράγει συχνά ένα κομμάτι που δεν ταξιδεύει.
Βήμα 6: cover, επανα-απόδοση ή σταμάτα
Το να γνωρίζετε πότε να σταματήσετε είναι η ικανότητα που χωρίζει τους ανθρώπους που παράγουν από τους ανθρώπους που έχουν τετρακόσια αποθηκευμένα σχέδια και τίποτα σε playlist.
Τρία σήματα ότι μια λήψη είναι έτοιμη:
- Το ρεφρέν τραβά πραγματικά. Αισθάνεστε την άφιξη πριν σκεφτείτε για αυτήν. Αν πρέπει να επιχειρηματολογήσετε στον εαυτό σας γιατί λειτουργεί το ρεφρέν, δεν λειτουργεί.
- Η φωνή κάθεται στη θέση της. Ο τραγουδιστής ακούγεται να τραγουδά αυτό το τραγούδι, όχι να επιδεικνύει ότι μπορεί να χτυπήσει αυτές τις νότες.
- Δεν υπάρχουν πλέον σημάδια τεχνητής νοημοσύνης που παρατηρείτε στην τρίτη ακρόαση. Μοτίβα τυμπάνων που είναι πολύ μετρονομικά καθαρά. Μεταβάσεις συγχορδιών που δεν έχουν καμία παραλλαγή έντασης. Μια συγκρατημένη νότα που δεν αναπνέει ποτέ.
Αν η λήψη ξεπερνά δύο από τα τρία, σταματήστε και αποκαλέστε την σχέδιο. Αν ξεπερνά και τα τρία, σταματήστε και αποκαλέστε την τελειωμένη.
Η επανα-απόδοση έχει νόημα όταν μια συγκεκριμένη παράμετρος είναι λανθασμένη και μπορείτε να την ονομάσετε. «Η φωνή είναι πολύ φωτεινή για τον στίχο» είναι μια οδηγία επανα-απόδοσης. «Κάτι αισθάνεται λάθος» δεν είναι — αυτό είναι πρόβλημα ακρόασης, όχι πρόβλημα γένεσης, και περισσότερες λήψεις δεν θα το διορθώσουν.
Συνηθισμένα λάθη
- Prompt πολύ κοντό. Μια πρόταση δεν είναι prompt· είναι ετικέτα είδους με περιτύλιγμα πρότασης. Τρεις προτάσεις είναι το ελάχιστο για ένα αποτέλεσμα με οποιοδήποτε χαρακτήρα.
- Prompt πολύ μακρύ. Οκτώ προτάσεις λεπτομερούς οικοδόμησης κόσμου δίνουν στο μοντέλο πάρα πολλές περιορισμούς για να ικανοποιήσει ταυτόχρονα.
- Αλλαγή εργαλείων στη μέση της επανάληψης. Κάθε γεννήτρια έχει ένα διαφορετικό εσωτερικό μοντέλο, και «το ίδιο prompt» παράγει δομικά διαφορετικά αποτελέσματα σε εργαλεία.
- Επανα-απόδοση με τις ίδιες εισόδους και προσδοκία διαφορετικού αποτελέσματος. Αν τρεις διαδοχικές λήψεις είναι όλες λανθασμένες με τον ίδιο τρόπο, το prompt είναι το πρόβλημα, όχι ο τυχαίος σπόρος.
- Αγνόηση αναντιστοιχίας φωνητικής. Ο φωνητικός χρωματισμός, η περιοχή και η ενέργεια που υπονοεί ο στίχος σας πρέπει να ευθυγραμμίζονται με τη φωνή που επιλέγει το μοντέλο. Ένας στίχος γραμμένος για βαρύτονο που παραδίδεται από ένα ελαφρύ τενόρο είναι λάθος κάστινγκ.
Μετά το πρώτο κομμάτι που λειτουργεί
Κατεβάστε stems αν το εργαλείο τα προσφέρει. Ακόμα και αν δεν σχεδιάζετε να κάνετε μίξη, η ύπαρξη της φωνής και του οργάνου χωριστά σημαίνει ότι μπορείτε να δώσετε ξανά φωνή αργότερα, ή να δώσετε το οργανικό σε έναν πραγματικό τραγουδιστή χωρίς να ξεκινήσετε από το μηδέν.
Αποθηκεύστε το prompt ακριβώς όπως ήταν όταν λειτούργησε. Αντιγράψτε το σε ένα αρχείο σημειώσεων, ένα υπολογιστικό φύλλο, οπουδήποτε εκτός του ίδιου του εργαλείου. Τα περισσότερα εργαλεία δεν διατηρούν prompts σε μορφή που μπορείτε εύκολα να αναζητήσετε. Η βιβλιοθήκη μουσικής του aisonggen αποθηκεύει αυτόματα το ιστορικό γένεσης και τα prompts που παρήγαγαν κάθε κομμάτι.
Καταγράψτε δύο πράγματα για κάθε κομμάτι που λειτουργεί: τον συνδυασμό ετικετών είδους-ατμόσφαιρας που χρησιμοποιήσατε, και οποιαδήποτε φράση στάσης που αισθάνθηκε γεννητική. Σε δέκα ή δεκαπέντε κομμάτια, αναδύονται μοτίβα.
Αν θέλετε να δείτε πώς χρησιμοποιούν άλλοι τη γεννήτρια πριν δεσμευτείτε στη δική σας ροή εργασίας, η σελίδα αξιολογήσεων δείχνει πώς πραγματικοί χρήστες προσεγγίζουν διαφορετικά είδη και χρήσεις.
Ο στόχος δεν είναι να δημιουργήσετε μουσική. Η δημιουργία μουσικής είναι το εύκολο κομμάτι τώρα — οποιοσδήποτε μπορεί να πατήσει το κουμπί. Ο στόχος είναι να γράψετε τραγούδια. Τραγούδια που έχουν μια προοπτική, ένα συγκεκριμένο συναισθηματικό κέντρο, μια δομή που κερδίζει το τέλος της. Η τεχνητή νοημοσύνη είναι το επίπεδο παραγωγής: χειρίζεται τη διάταξη, τη μίξη, τη φωνή. Εσείς εξακολουθείτε να πρέπει να κάνετε τη γραφή. Όσο περισσότερο από αυτό φέρνετε στο prompt, τόσο λιγότερο το ακούτε να λείπει στην έξοδο.