La partie difficile de faire de la musique IA n'est pas d'appuyer sur le bouton. La partie difficile c'est de savoir quoi mettre dedans avant d'appuyer, de lire ce qui revient avec un certain discernement, et de décider de continuer ou de s'arrêter. La plupart des gens qui qualifient la musique IA de « générique » n'ont pas tort — ils se sont juste arrêtés trop tôt dans le processus, ou ils ont commencé sans assez de clarté sur ce qu'ils essayaient vraiment de faire.
C'est une marche à suivre du processus que j'ai parcouru plusieurs centaines de fois. Elle traite la génération comme une itération, pas comme une transaction de distributeur automatique. Quand ça fonctionne, la sortie ne sonne pas comme si une machine l'avait écrite. Quand ça échoue, vous saurez exactement quelle décision revisiter.
Décidez quel type de chanson vous voulez vraiment
Avant d'ouvrir n'importe quel outil, asseyez-vous avec une question : dans quelle expérience cette chanson vit-elle ? Pas « quel genre » et pas « quelle ambiance » — ceux-là viennent après. Commencez par la perspective, puis le lieu, puis le centre de gravité émotionnel.
Un cadre simple pour ça :
Un [QUI] faisant [QUOI], le moment juste avant [POINT DE BASCULE]. L'émotion en dessous est [SENTIMENT], pas [SENTIMENT DE SURFACE]. Gardez-le [UN MOT TONAL].
La distinction entre le sentiment de surface et l'émotion en dessous n'est pas un exercice d'écriture — c'est une instruction de générateur. Une chanson sur « le deuil » sonne d'une façon ; une chanson sur l'irritation spécifique de ne pas pouvoir pleurer à un enterrement sonne comme un disque complètement différent. La spécificité voyage dans la génération d'une façon que les tags de genre ne peuvent tout simplement pas.
Pendant que vous pensez encore sur papier, décidez de la durée. Une piste de deux minutes et une piste de quatre minutes appellent des choix structurels différents, et le générateur dérivera sans une cible. Choisissez-en une avant de continuer.
Étape 1 : écrire un prompt qui nomme une posture, pas une texture
La plupart des premiers prompts décrivent le son : « beat lo-fi, touches chaudes, mélancolique. » Ça décrit ce que la piste devrait faire ressentir à un auditeur trois étapes éloignées de l'émotion. Une posture décrit ce que l'interprète fait avec son corps et son attention.
Comparez ces deux :
- Prompt de texture : « R&B lent, faux-semblant doux, fin de nuit, nostalgie. »
- Prompt de posture : « Quelqu'un relisant de vieux messages qu'il s'était promis de supprimer. Il continue de lire. Le vocal est doux comme s'il ne voulait pas que quelqu'un entende. »
Les deux pointent vers une destination émotionnelle similaire. Le prompt de posture donne au modèle quelque chose à interpréter. Le prompt de texture lui donne une référence sonique et rien d'autre. Les résultats ne sont pas équivalents.
Gardez les prompts de posture à trois ou quatre phrases. Le plafond est plus bas que vous ne pensez — après environ cinq phrases, le modèle commence à faire la moyenne des instructions plutôt que de construire dessus.
Étape 2 : choisir un générateur qui vous permet de comparer des prises
Les générateurs à prise unique rendent l'itération lente d'une façon spécifique et ennuyeuse : vous obtenez un résultat, il est presque juste, vous régénérez avec un petit ajustement, et la nouvelle prise atterrit dans une direction complètement différente parce qu'il n'y avait pas d'ancre partagée. Vous finissez par chasser la prise originale qui était « presque ça » pendant six cycles.
Exécuter des variantes parallèles résout ça. Le générateur de musique d'aisonggen rend cinq prises simultanément à partir du même prompt, vous pouvez donc les comparer côte à côte avant de vous engager dans une direction. Si deux des cinq sont dans le bon territoire, vous avez déjà sauté la majeure partie de la boucle de régénération.
Une note juste : cinq prises coûtent plus de crédits qu'une seule. Si vous avez un budget de crédits très serré, lancez deux prises plutôt que cinq et traitez l'une comme votre référence. Le point est d'avoir au moins une comparaison, pas d'en avoir cinq.
Étape 3 : écrire ou co-écrire vos paroles d'abord
La zone de paroles du générateur est un petit champ de texte, et le modèle qui fonctionne derrière lui a un fort a priori envers la conservation de ce que vous lui donnez — le nombre de lignes original, le schéma de rimes original, même le schéma syllabique original. Si vous écrivez des paroles dans ce champ et décidez plus tard que vous voulez ajouter un pont, vous combattrez le modèle à chaque régénération.
Rédigez les paroles séparément avant de les coller. Le Studio de paroles vous donne assez d'espace pour voir vraiment ce que vous écrivez. Vous pouvez réviser un couplet complet, essayer une accroche de refrain différente, déplacer le pré-refrain avant qu'il devienne structurel — tout avant de donner quoi que ce soit au générateur.
Les paroles d'abord vous permettent aussi de vérifier une chose que le générateur ne peut pas : si les paroles ont un rythme naturel de la parole qu'un chanteur peut vraiment atterrir. Lisez votre refrain à voix haute. Si vous trébûchez, le modèle aussi.
Si vous construisez les paroles de façon interactive aux côtés de la musique — prompt d'abord, affinement des paroles en second — ce flux de travail est aussi valable. La clé est que l'édition des paroles se passe quelque part avec un vrai espace d'édition, pas dans la zone de texte du générateur.
Étape 4 : choisir vos contrôles de style avec intention
Les tags de genre sont des semences, pas des contrats. « Indie folk » ne verrouille pas la sortie dans un style de production spécifique — cela biaise le modèle vers un cluster de sons associés à cette étiquette, ce qui est un point de départ, pas une garantie. Si vous voulez comprendre comment le modèle interprète réellement ces tags avant de s'engager, le guide sur les tags de genre vaut dix minutes de votre temps.
Ce qui contraint réellement la sortie de façon plus fiable :
- L'ambiance, nommée précisément. « Doux-amer » et « résigné » atterrissent différemment même dans le même tag de genre.
- La scène ou le cadre. « Parking vide à minuit » donne à l'ingénieur du mix (le modèle, ici) une référence visuelle pour la réverb et l'espace.
- Le genre vocal et le registre. La plupart des générateurs acceptent des instructions explicites ici, et le défaut n'est pas toujours le bon pour vos paroles.
Réglez le BPM si vous le connaissez. Pas une plage — un chiffre. « Autour de 90 » donne trop de marge au modèle. « 88 BPM » lui donne une horloge. Pareil pour la durée de la piste : écrivez la durée cible explicitement plutôt que de la laisser au défaut.
Étape 5 : rendre, puis écouter sur le pire haut-parleur que vous possédez
Les pistes générées par IA ont un mode d'échec connu : elles sonnent mieux sur les écouteurs qu'elles ne le méritent. Le champ stéréo est souvent large, le bas du spectre est contrôlé, le mix est propre d'une façon qui ne se révèle artificielle que quand vous l'entendez sur quelque chose d'implacable.
Après le premier rendu, passez sur votre haut-parleur de téléphone. Ou un ordinateur portable intégré. Ou, si vous y avez accès, un autoradio avec les fenêtres ouvertes. Ces haut-parleurs effondrent le champ stéréo, exposent la boue des médiums graves, et font ressortir la dureté dans les médiums aigus. Si la piste sonne toujours comme une piste — pas nécessairement bonne, mais cohérente — alors vous avez quelque chose qui vaut la peine de travailler.
Si elle s'effondre en bouillie, ce n'est pas toujours un signe de régénérer. C'est un signe de regarder vos contrôles de style. Un tag de genre lourd en basses plus un réglage de pièce chaude plus un BPM lent produira souvent une piste qui ne voyage pas. Ajustez une variable, pas les trois.
Étape 6 : reprendre, re-rendre, ou s'arrêter
Savoir quand s'arrêter est la compétence qui sépare les gens qui livrent de ceux qui ont quatre cents brouillons sauvegardés et rien sur une playlist.
Trois signaux qu'une prise est terminée :
- Le refrain accroche vraiment. Vous sentez l'arrivée avant d'y penser. Si vous devez vous raisonner sur pourquoi le refrain fonctionne, il ne fonctionne pas.
- Le vocal est dans le groove. Le chanteur sonne comme s'il chantait cette chanson, pas comme s'il démontrait qu'il peut toucher ces notes. Les voix IA sur-articulent souvent les consonnes — une bonne prise ne le fait pas.
- Il n'y a plus de tells IA que vous remarquez à la troisième écoute. Des schémas de batterie trop métronomiquement propres. Des transitions d'accords qui manquent de variation de vélocité. Une note tenue qui ne respire jamais. Ce sont les tells. L'un d'eux est souvent acceptable. Trois, c'est trop.
Si la prise passe deux des trois, arrêtez et appelez-la un brouillon. Si vous passez les trois, arrêtez et appelez-la terminée.
Re-rendre a du sens quand un paramètre spécifique est faux et que vous pouvez le nommer. « Le vocal est trop brillant pour les paroles » est une instruction de re-rendu. « Quelque chose semble faux » ne l'est pas — c'est un problème d'écoute, pas un problème de génération, et plus de prises ne le corrigeront pas.
Erreurs courantes
- Prompt trop court. Une phrase n'est pas un prompt ; c'est un tag de genre avec une phrase enveloppante. Trois phrases est le minimum pour un résultat avec du caractère.
- Prompt trop long. Huit phrases de world-building détaillé donnent au modèle trop de contraintes à satisfaire simultanément. Il en fera la moyenne et ne produira rien de particulier.
- Changer d'outils en cours d'itération. Chaque générateur a un modèle interne différent, et « le même prompt » produit des résultats structurellement différents selon les outils. Si vous changez en milieu de session, vous réinitialisez votre base de comparaison et perdez l'historique d'itération. Choisissez un outil par piste et restez-y.
- Régénérer avec les mêmes entrées en espérant un résultat différent. La variation dans les sorties pour des prompts identiques est réelle mais bornée. Si trois prises consécutives sont toutes fausses de la même façon, le prompt est le problème, pas la graine aléatoire.
- Ignorer la mauvaise correspondance vocale. Le timbre vocal, le registre et l'énergie impliqués par vos paroles doivent s'aligner avec la voix que le modèle choisit. Des paroles écrites pour un baryton enroué livrées par un ténor léger est une erreur de casting, et aucune quantité de re-rendu ne corrige le casting.
Après la première piste qui fonctionne
Téléchargez les stems si l'outil les propose. Même si vous ne planifiez pas de mixer, avoir le vocal et l'instrumental séparés signifie que vous pouvez les re-voix plus tard, ou donner l'instrumental à un vrai chanteur sans repartir de zéro.
Sauvegardez le prompt exactement tel qu'il était quand il a fonctionné. Pas la version à travers laquelle vous avez itéré — la version finale. Copiez-le dans un fichier de notes, une feuille de calcul, n'importe où qui n'est pas à l'intérieur de l'outil lui-même. La plupart des outils ne conservent pas les prompts entre les sessions d'une façon facilement consultable. La bibliothèque de musique d'aisonggen sauvegarde automatiquement votre historique de génération et les prompts qui ont produit chaque piste, ce qui réduit ce que vous devez gérer vous-même, mais il vaut quand même la peine de garder votre propre copie des prompts qui ont produit vos meilleurs résultats.
Enregistrez deux choses pour chaque piste qui fonctionne : la combinaison tag genre-ambiance que vous avez utilisée, et toute phrase de posture qui semblait générative. Sur dix ou quinze pistes, des schémas émergent — vous trouverez les combinaisons de tags qui correspondent à votre gamme créative et les formulations qui produisent fiablement quelque chose qui vaut la peine d'être conservé. Ce journal est plus précieux que n'importe quel guide, y compris celui-ci.
Si vous voulez voir comment d'autres personnes utilisent le générateur avant de vous engager dans votre propre flux de travail, la page des avis montre comment de vrais utilisateurs abordent différents genres et cas d'usage.
L'objectif n'est pas de générer de la musique. Générer de la musique est maintenant la partie facile — n'importe qui peut appuyer sur le bouton. L'objectif est d'écrire des chansons. Des chansons qui ont une perspective, un centre émotionnel spécifique, une structure qui mérite sa conclusion. L'IA est la couche de production : elle gère l'arrangement, le mix, la voix. Vous devez encore faire l'écriture. Plus vous apportez ça au prompt, moins vous l'entendez manquer dans la sortie.