Por que o segundo take é quase sempre melhor

O primeiro take é o melhor palpite do modelo. O segundo take é o seu.

Quando você aperta regenerar, não está mais pedindo "uma música sobre passeios noturnos de carro". Está pedindo "uma música sobre passeios noturnos, mas mais lenta que a anterior, com um refrão que não cai no downbeat". Mesmo que você não mude nada no prompt, seu ouvido já fez a edição — e a próxima geração herda essa edição através dos pequenos ajustes que você faz em gênero, andamento, clima ou no rascunho da letra.

O viés do primeiro take

Os modelos gostam de te dar a média do que o seu prompt permite. Se o seu prompt permite dez andamentos, você vai receber a mediana. Se permite três climas, você vai receber o mais previsível. O primeiro take raramente está errado, mas raramente é surpreendente também, porque a surpresa fica nas bordas do prompt e o modelo é treinado para ir para o meio.

Use o take um como uma pergunta

Trate a primeira geração como uma pergunta, não como uma resposta. A pergunta é: "É aqui que eu queria que a música estivesse?" Quase sempre a resposta é "perto, mas —" e o mas é a informação mais útil da sessão inteira. Edite um parâmetro que resolva o mas, e regenere.

Pare em três

Três takes geralmente é o suficiente. No quarto take você não está mais refinando a música; está apostando que o modelo vai te entregar algo melhor do que o que você já tem. Não vai, porque o prompt não mudou. Se o terceiro take não está onde você quer, o prompt precisa de cirurgia, não de mais uma rodada de dados.

Por que o segundo take é quase sempre melhor

O viés do primeiro take

Use o take um como uma pergunta

Pare em três

Continue lendo

Como fazer música com IA que não soe como música de IA

Como fazer covers com IA que não soam apenas como um remix

Como usar conversão de texto em fala para ela parar de soar como um robô lendo dever de casa

Sua próxima faixa está a um prompt grátis de distância