AISongGen logoAISongGen

AI 음악처럼 들리지 않는 AI 음악 만드는 방법

프롬프트의 씨앗부터 플레이리스트에 올릴 수 있는 트랙까지의 실용적인 단계별 안내. 의사결정, 반복 작업, 언제 멈춰야 할지 아는 방법.

9분 분량

AI 음악 제작에서 어려운 부분은 버튼을 누르는 것이 아닙니다. 어려운 부분은 누르기 전에 무엇을 입력할지 알고, 돌아온 결과물을 분별력 있게 읽어내고, 계속 진행할지 멈출지 결정하는 것입니다. AI 음악을 "평범하다"고 말하는 사람들이 틀린 것은 아닙니다—그들은 그저 너무 일찍 프로세스를 중단했거나, 실제로 무엇을 만들려는지 충분히 명확하게 시작하지 않은 것입니다.

이것은 제가 수백 번 반복해온 프로세스의 단계별 안내입니다. 생성을 자판기 거래가 아닌 반복 작업으로 취급합니다. 잘 작동할 때는 결과물이 기계가 쓴 것처럼 들리지 않습니다. 실패할 때는 어떤 결정을 다시 검토해야 할지 정확히 알 수 있습니다.

실제로 원하는 노래의 종류를 결정하기

어떤 도구도 열기 전에, 한 가지 질문과 함께 앉아보세요: 이 노래는 누구의 경험 속에 존재하는가? "어떤 장르"나 "어떤 분위기"가 아닙니다—그것들은 나중에 옵니다. 관점부터 시작하고, 그 다음 장소, 그 다음 감정의 중심을 정합니다.

이를 위한 간단한 틀:

[누가] [무엇을] 하고 있는, [전환점] 바로 직전의 순간. 밑에 깔린 감정은 [감정]이지, [표면 감정]이 아닙니다. [하나의 톤 단어]로 유지하세요.

표면 감정과 그 아래 감정의 구분은 단순한 글쓰기 연습이 아닙니다—그것은 생성기 지시사항입니다. "슬픔"에 관한 노래는 한 가지 방식으로 들립니다; 장례식에서 울 수 없는 특정한 짜증스러움에 관한 노래는 완전히 다른 음반처럼 들립니다. 구체성은 장르 태그가 도저히 할 수 없는 방식으로 생성 과정에 전달됩니다.

아직 종이 위에서 생각하는 동안, 길이를 결정하세요. 2분짜리 트랙과 4분짜리 트랙은 서로 다른 구조적 선택을 요구하며, 생성기는 목표 없이는 방황합니다. 이동하기 전에 하나를 선택하세요.

1단계: 질감이 아닌 자세를 명명하는 프롬프트 작성

대부분의 첫 번째 프롬프트는 소리를 묘사합니다: "로파이 비트, 따뜻한 건반, 우울한 분위기." 이는 감정에서 세 단계 떨어진 청취자에게 트랙이 어떻게 느껴져야 하는지를 묘사합니다. 자세는 연주자가 몸과 주의를 가지고 무엇을 하는지를 묘사합니다.

이 두 가지를 비교해보세요:

  • 질감 프롬프트: "느린 R&B, 부드러운 가성, 늦은 밤, 그리움."
  • 자세 프롬프트: "지우겠다고 스스로에게 약속한 오래된 메시지를 읽고 있는 사람. 계속 읽고 있습니다. 목소리는 아무도 듣지 않았으면 하는 것처럼 조용합니다."

두 가지 모두 비슷한 감정적 목적지를 가리킵니다. 자세 프롬프트는 모델에게 연기할 것을 줍니다. 질감 프롬프트는 음향적 참조만 주고 다른 것은 없습니다. 결과는 동등하지 않습니다.

자세 프롬프트는 세 문장 또는 네 문장으로 유지하세요. 상한선은 생각보다 낮습니다—약 다섯 문장이 지나면 모델이 지시사항을 기반으로 쌓는 대신 평균을 내기 시작합니다.

2단계: 테이크를 비교할 수 있는 생성기 선택

단일 테이크 생성기는 반복을 특정하고 성가신 방식으로 느리게 만듭니다: 결과를 얻고, 거의 맞는데, 약간의 조정으로 다시 생성하면, 공유된 앵커가 없었기 때문에 새로운 테이크가 완전히 다른 방향으로 착지합니다. 여섯 번의 사이클 동안 "거의 그것"이었던 원래 테이크를 쫓게 됩니다.

병렬 변형을 실행하면 이를 해결할 수 있습니다. aisonggen의 음악 생성기는 같은 프롬프트에서 동시에 다섯 개의 테이크를 렌더링하므로, 방향을 결정하기 전에 나란히 비교할 수 있습니다. 다섯 개 중 두 개가 올바른 영역에 있다면, 이미 재생성 루프의 대부분을 건너뛴 것입니다.

공정한 주의: 다섯 개의 테이크는 한 개보다 더 많은 크레딧을 소모합니다. 크레딧 예산이 매우 빡빡하다면, 다섯 개 대신 두 개의 테이크를 실행하고 하나를 참조로 사용하세요. 핵심은 적어도 하나의 비교를 갖는 것이지, 다섯 개를 갖는 것이 아닙니다.

3단계: 가사를 먼저 작성하거나 공동 작성

생성기의 가사 영역은 작은 텍스트 필드이며, 그 뒤에서 실행되는 모델은 주어진 것을 유지하려는 강한 선행 경향이 있습니다—원래 행 수, 원래 운율 구조, 심지어 원래 음절 패턴까지. 그 필드 안에 가사를 쓰고 나중에 브리지를 추가하고 싶다면, 모든 재생성마다 모델과 싸우게 됩니다.

가사를 붙여넣기 전에 별도로 초안을 작성하세요. 가사 스튜디오는 실제로 무엇을 쓰는지 볼 수 있는 충분한 공간을 제공합니다. 전체 절을 수정하고, 다른 코러스 훅을 시도하고, 구조가 되기 전에 프리코러스를 이동할 수 있습니다—생성기에 넘기기 전 모두 가능합니다.

가사 우선 방식은 생성기가 할 수 없는 한 가지를 확인할 수도 있습니다: 가사가 가수가 실제로 착지할 수 있는 자연스러운 말하기 리듬을 갖고 있는지. 코러스를 소리 내어 읽어보세요. 더듬거린다면, 모델도 그럴 것입니다.

음악과 함께 상호작용적으로 가사를 구성하는 경우—먼저 프롬프트, 두 번째로 가사 정제—그 워크플로우도 유효합니다. 핵심은 가사 편집이 생성기의 텍스트 상자가 아닌 실제 편집 공간 어딘가에서 이루어지는 것입니다.

4단계: 의도를 갖고 스타일 컨트롤 선택

장르 태그는 씨앗이지 계약이 아닙니다. "인디 포크"는 출력을 어떤 특정 제작 스타일에 고정하지 않습니다—그 레이블과 관련된 소리 클러스터 쪽으로 모델을 편향시킵니다. 이것은 시작점이지 보장이 아닙니다. 커밋하기 전에 모델이 이 태그들을 어떻게 실제로 해석하는지 이해하고 싶다면, 장르 태그 가이드는 10분의 시간 가치가 있습니다.

실제로 출력을 더 안정적으로 제한하는 것들:

  • 분위기, 정확하게 이름 붙이기. "씁쓸달콤한"과 "체념한"은 같은 장르 태그 안에서도 다르게 착지합니다.
  • 장면 또는 배경. "자정의 빈 주차장"은 믹스 엔지니어(여기서는 모델)에게 리버브와 공간에 대한 시각적 참조를 줍니다.
  • 보컬 성별과 음역. 대부분의 생성기는 여기서 명시적인 지시를 수락하며, 기본값이 항상 가사에 맞는 것은 아닙니다.

알고 있다면 BPM을 설정하세요. 범위가 아닌—숫자로. "약 90" 정도는 모델에게 너무 많은 여지를 줍니다. "88 BPM"은 박자를 줍니다. 트랙 길이도 마찬가지입니다: 기본값에 맡기지 않고 목표 시간을 명시적으로 적으세요.

5단계: 렌더링 후 가장 나쁜 스피커로 듣기

AI 생성 트랙에는 알려진 실패 모드가 있습니다: 헤드폰에서는 실제보다 더 좋게 들립니다. 스테레오 필드는 종종 넓고, 저음은 제어되어 있으며, 믹스는 가혹한 것에서 들을 때만 인공적으로 드러나는 방식으로 깨끗합니다.

첫 번째 렌더 후, 핸드폰 스피커로 이동하세요. 또는 노트북 내장 스피커. 또는, 가능하다면, 창문을 열고 달리는 차의 스테레오. 이 스피커들은 스테레오 필드를 무너뜨리고, 저중음 흙탕물을 드러내고, 상단 중음역의 거칠음을 표면으로 내보냅니다. 트랙이 여전히 트랙처럼 들린다면—반드시 좋을 필요는 없지만, 일관성 있게—그것은 작업할 가치가 있는 무언가입니다.

흙탕물로 무너진다면, 그것이 항상 재생성의 신호는 아닙니다. 스타일 컨트롤을 살펴보라는 신호입니다. 저음이 많은 장르 태그에 따뜻한 룸 설정에 느린 BPM을 더하면 이동하지 않는 트랙을 자주 만들어냅니다. 세 가지 모두가 아닌 변수 하나를 조정하세요.

6단계: 커버, 재렌더, 또는 중단

언제 멈출지 아는 것이 곡을 출시하는 사람들과 400개의 저장된 초안이 있고 플레이리스트에 아무것도 없는 사람들을 구분하는 기술입니다.

테이크가 완료되었다는 세 가지 신호:

  • 코러스가 실제로 끌어당깁니다. 그것에 대해 생각하기 전에 도착을 느낍니다. 코러스가 왜 작동하는지 스스로에게 이유를 설명해야 한다면, 그것은 작동하지 않는 것입니다.
  • 보컬이 포켓에 딱 맞습니다. 가수가 이 음표를 칠 수 있다는 것을 시연하는 것이 아니라, 이 노래를 노래하고 있는 것처럼 들립니다. AI 보컬은 종종 자음을 과도하게 발음합니다—좋은 테이크는 그러지 않습니다.
  • 세 번째 청취에서 알아채는 AI 표식이 남아있지 않습니다. 너무 박자에 딱 맞는 드럼 패턴. 속도 변화가 없는 코드 전환. 숨을 쉬지 않는 유지된 음. 이것들이 표식입니다. 그 중 하나는 종종 허용됩니다. 세 개는 너무 많습니다.

테이크가 세 가지 중 두 가지를 통과하면, 멈추고 초안이라고 부르세요. 세 가지 모두 통과하면, 멈추고 완성이라고 부르세요.

재렌더는 하나의 특정 파라미터가 잘못되었고 그것을 이름 붙일 수 있을 때 의미가 있습니다. "보컬이 가사에 비해 너무 밝다"는 재렌더 지시입니다. "뭔가 이상하다"는 아닙니다—그것은 청취 문제이지 생성 문제가 아니며, 더 많은 테이크로는 고칠 수 없습니다.

흔한 실수들

  • 프롬프트가 너무 짧습니다. 한 문장은 프롬프트가 아닙니다; 문장 래퍼가 있는 장르 태그입니다. 세 문장은 어느 정도 개성 있는 결과를 위한 최소값입니다.
  • 프롬프트가 너무 깁니다. 여덟 문장의 상세한 세계 구축은 모델에게 동시에 충족시켜야 할 너무 많은 제약을 줍니다. 평균을 내어 특별히 아무것도 아닌 것을 만들어냅니다.
  • 반복 중간에 도구를 바꾸는 것. 모든 생성기에는 다른 내부 모델이 있고, "같은 프롬프트"는 도구마다 구조적으로 다른 결과를 만들어냅니다. 세션 중간에 바꾸면 비교 기준선을 재설정하고 반복 이력을 잃게 됩니다. 트랙당 하나의 도구를 선택하고 그것을 유지하세요.
  • 같은 입력으로 재생성하면서 다른 결과를 기대하는 것. 동일한 프롬프트에 대한 출력의 변이는 실제로 있지만 제한적입니다. 세 번 연속 테이크가 모두 같은 방식으로 잘못됐다면, 프롬프트가 문제이지 랜덤 씨드가 아닙니다.
  • 보컬 불일치 무시. 가사에 의해 암시된 보컬 음색, 음역, 에너지는 모델이 선택하는 목소리와 일치해야 합니다. 가성 바리톤을 위해 쓴 가사가 가벼운 테너로 전달된다면 캐스팅 실수이며, 아무리 재렌더링해도 캐스팅은 고치지 못합니다.

처음 작동하는 트랙 이후

도구가 제공한다면 스템을 다운로드하세요. 믹스 계획이 없더라도, 보컬과 기악을 분리하면 나중에 다시 녹음하거나, 처음부터 시작하지 않고 기악을 실제 가수에게 넘길 수 있습니다.

작동했을 때의 프롬프트를 정확히 저장하세요. 반복한 버전이 아닌—최종 버전. 메모 파일, 스프레드시트, 도구 자체가 아닌 어디든 복사하세요. 대부분의 도구는 쉽게 검색할 수 있는 형태로 세션 간 프롬프트를 유지하지 않습니다. aisonggen의 음악 라이브러리는 생성 이력과 각 트랙을 만든 프롬프트를 자동으로 저장하여, 스스로 관리해야 할 양을 줄여줍니다. 하지만 최고의 결과물을 만든 프롬프트는 직접 복사본을 보관하는 것이 여전히 가치 있습니다.

작동하는 각 트랙에 대해 두 가지를 기록하세요: 사용한 장르-무드 태그 조합, 그리고 생성적으로 느껴진 자세 구절. 열 개 또는 열다섯 개의 트랙에 걸쳐 패턴이 드러납니다—창의적 범위에 맞는 태그 조합과 보관할 만한 것을 안정적으로 만들어내는 구절을 찾게 됩니다. 그 기록은 이 안내를 포함한 어떤 가이드보다 더 가치 있습니다.

자신의 워크플로우를 결정하기 전에 다른 사람들이 생성기를 어떻게 사용하는지 보고 싶다면, 리뷰 페이지에서 실제 사용자들이 다른 장르와 사용 사례에 어떻게 접근하는지 볼 수 있습니다.

목표는 음악을 생성하는 것이 아닙니다. 음악 생성은 이제 쉬운 부분입니다—누구나 버튼을 누를 수 있습니다. 목표는 노래를 쓰는 것입니다. 관점이 있고, 특정한 감정적 중심이 있고, 결말을 얻어내는 구조가 있는 노래. AI는 제작 레이어입니다: 편곡, 믹스, 목소리를 처리합니다. 글쓰기는 여전히 당신이 해야 합니다. 프롬프트에 더 많이 가져올수록, 출력에서 빠진 것을 덜 듣게 됩니다.

다음 트랙은 무료 프롬프트 한 번 거리에 있습니다

스튜디오를 여시고, 분위기를 입력하시고, 30초 안에 완성된 곡을 들어보세요. 무료로 시작, 로열티 프리로 발매, 카드 등록 불필요.