AISongGen logoAISongGen

Cách làm nhạc AI không nghe như nhạc AI

Hướng dẫn thực tế — từ hạt giống của một prompt đến bản nhạc bạn có thể đưa vào danh sách phát. Các quyết định, sự lặp đi lặp lại, cách biết khi nào dừng lại.

Đọc 9 phút

Phần khó của việc làm nhạc AI không phải là nhấn nút. Phần khó là biết những gì cần đưa vào trước khi nhấn nó, đọc những gì trở lại với bất kỳ sự phân biệt nào, và quyết định có tiếp tục hay dừng lại không. Hầu hết những người gọi nhạc AI là "chung chung" không sai — họ chỉ dừng quá sớm trong quá trình, hoặc họ bắt đầu mà không đủ sự rõ ràng về những gì họ thực sự đang cố gắng tạo.

Đây là hướng dẫn qua quá trình tôi đã chạy qua hàng trăm lần. Nó coi việc tạo nhạc là lặp đi lặp lại, không phải là giao dịch máy bán hàng. Khi nó hoạt động, đầu ra không nghe như một cỗ máy viết nó. Khi nó thất bại, bạn sẽ biết chính xác quyết định nào cần xem lại.

Quyết định loại bài hát bạn thực sự muốn

Trước khi mở bất kỳ công cụ nào, hãy ngồi với một câu hỏi: trải nghiệm của ai mà bài hát này sống bên trong? Không phải "thể loại nào" và không phải "vibe nào" — những điều đó đến sau. Bắt đầu với quan điểm, sau đó là địa điểm, sau đó là trọng tâm cảm xúc.

Một khung đơn giản cho điều này:

Một [AI LÀ AI] đang [LÀM GÌ], khoảnh khắc ngay trước [ĐIỂM NGOẶT]. Cảm xúc bên dưới là [CẢM XÚC], không phải [CẢM XÚC BỀ MẶT]. Giữ nó [MỘT TỪ MÀU SẮC].

Sự khác biệt giữa cảm xúc bề mặt và cảm xúc bên dưới không phải là bài tập viết — đó là hướng dẫn trình tạo. Một bài hát về "nỗi đau" nghe theo một cách; một bài hát về sự khó chịu cụ thể khi không thể khóc tại một đám tang nghe như một bản nhạc hoàn toàn khác. Sự cụ thể đó truyền vào quá trình tạo theo những cách mà thẻ thể loại đơn giản không thể.

Trong khi bạn vẫn đang suy nghĩ trên giấy, hãy quyết định về độ dài. Một bản nhạc hai phút và một bản nhạc bốn phút đòi hỏi các lựa chọn cấu trúc khác nhau, và trình tạo sẽ trôi dạt mà không có mục tiêu. Chọn một cái trước khi bạn tiến.

Bước 1: viết một prompt đặt tên tư thế, không phải kết cấu

Hầu hết các prompt đầu tiên mô tả âm thanh: "nhịp lo-fi, phím ấm, u sầu." Điều đó mô tả những gì bản nhạc nên cảm thấy như thế nào với người nghe ba bước cách xa cảm xúc. Một tư thế mô tả những gì người biểu diễn đang làm với cơ thể và sự chú ý của họ.

So sánh hai điều này:

  • Prompt kết cấu: "R&B chậm, falsetto mềm, đêm khuya, khao khát."
  • Prompt tư thế: "Ai đó đọc những tin nhắn cũ họ đã hứa với bản thân sẽ xóa. Họ cứ đọc tiếp. Giọng hát yên tĩnh như thể họ không muốn ai nghe."

Cả hai đều hướng đến một đích cảm xúc tương tự. Prompt tư thế cung cấp cho mô hình thứ gì đó để thể hiện. Prompt kết cấu cung cấp cho nó một tham chiếu âm thanh và không có gì khác. Các kết quả không tương đương.

Giữ các prompt tư thế trong ba hoặc bốn câu. Trần thấp hơn bạn nghĩ — sau khoảng năm câu, mô hình bắt đầu trung bình hóa qua các hướng dẫn hơn là xây dựng trên chúng.

Bước 2: chọn trình tạo cho phép bạn so sánh các lần thử

Các trình tạo một lần thử làm cho việc lặp đi lặp lại chậm theo một cách cụ thể, khó chịu: bạn nhận được kết quả, nó gần đúng, bạn tạo lại với một chỉnh sửa nhỏ, và lần thử mới hạ cánh theo hướng hoàn toàn khác vì không có neo chung. Bạn kết thúc bằng cách đuổi theo lần thử gốc "gần đúng" qua sáu chu kỳ.

Chạy các biến thể song song giải quyết điều này. Trình tạo nhạc của aisonggen kết xuất năm lần thử đồng thời từ cùng một prompt, vì vậy bạn có thể so sánh chúng song song trước khi cam kết với một hướng. Nếu hai trong năm ở đúng lãnh thổ, bạn đã bỏ qua hầu hết vòng tạo lại.

Lưu ý công bằng: năm lần thử tốn nhiều tín dụng hơn một. Nếu bạn có ngân sách tín dụng rất hạn hẹp, hãy chạy hai lần thử thay vì năm và coi một là tham chiếu của bạn. Điểm là có ít nhất một so sánh, không phải có năm.

Bước 3: viết hoặc đồng viết ca từ của bạn trước

Khu vực ca từ của trình tạo là một trường văn bản nhỏ, và mô hình chạy đằng sau nó có xu hướng mạnh để giữ bất cứ điều gì bạn cho nó — số dòng gốc, sơ đồ vần gốc, thậm chí mô hình âm tiết gốc. Nếu bạn viết ca từ trong trường đó và quyết định sau này bạn muốn thêm bridge, bạn sẽ chiến đấu với mô hình ở mỗi lần tạo lại.

Nháp ca từ riêng biệt trước khi dán chúng vào. Lyric Studio cho bạn đủ không gian để thực sự thấy những gì bạn đang viết. Bạn có thể sửa một verse hoàn chỉnh, thử một hook điệp khúc khác, di chuyển pre-chorus trước khi nó trở thành cấu trúc — tất cả trước khi đưa bất cứ điều gì cho trình tạo.

Ca từ trước cũng cho phép bạn kiểm tra một điều mà trình tạo không thể: liệu ca từ có nhịp điệu lời nói tự nhiên mà ca sĩ thực sự có thể hạ cánh không. Đọc to điệp khúc của bạn. Nếu bạn vấp váp, mô hình cũng sẽ vậy.

Nếu bạn đang xây dựng ca từ tương tác cùng với nhạc — prompt trước, tinh chỉnh ca từ sau — quy trình làm việc đó cũng hợp lệ. Chìa khóa là việc chỉnh sửa ca từ xảy ra ở nơi nào đó với không gian chỉnh sửa thực sự, không phải trong hộp văn bản của trình tạo.

Bước 4: chọn các điều khiển phong cách của bạn có chủ ý

Thẻ thể loại là hạt giống, không phải hợp đồng. "Indie folk" không khóa đầu ra vào bất kỳ phong cách sản xuất cụ thể nào — nó thiên vị mô hình về phía một cụm âm thanh được liên kết với nhãn đó, là điểm khởi đầu, không phải bảo đảm. Nếu bạn muốn hiểu cách mô hình thực sự diễn giải các thẻ này trước khi cam kết, hướng dẫn về thẻ thể loại đáng mười phút thời gian của bạn.

Những gì thực sự hạn chế đầu ra đáng tin cậy hơn:

  • Tâm trạng, được đặt tên chính xác. "Đắng cay" và "từ bỏ" hạ cánh khác nhau ngay cả trong cùng một thẻ thể loại.
  • Cảnh hoặc bối cảnh. "Bãi đỗ xe trống lúc nửa đêm" cung cấp cho kỹ sư mix (mô hình, ở đây) tham chiếu trực quan cho reverb và không gian.
  • Giới tính và giọng hát. Hầu hết các trình tạo chấp nhận các hướng dẫn rõ ràng ở đây, và mặc định không phải lúc nào cũng đúng cho ca từ của bạn.

Đặt BPM nếu bạn biết nó. Không phải một khoảng — một con số. "Khoảng 90" cho mô hình quá nhiều chỗ. "88 BPM" cho nó một đồng hồ. Tương tự với độ dài bản nhạc: viết thời lượng mục tiêu một cách rõ ràng thay vì để nó ở mặc định.

Bước 5: kết xuất, sau đó lắng nghe trên loa tệ nhất bạn có

Các bản nhạc được tạo bởi AI có chế độ thất bại đã biết: chúng nghe hay hơn trên tai nghe so với thực tế. Trường stereo thường rộng, âm thấp được kiểm soát, mix sạch theo cách chỉ lộ ra là giả tạo khi bạn nghe trên thứ gì đó không khoan nhượng.

Sau lần kết xuất đầu tiên, chuyển sang loa điện thoại của bạn. Hoặc laptop tích hợp. Hoặc, nếu bạn có quyền truy cập vào một cái, âm thanh xe hơi với cửa sổ hạ xuống. Những loa này làm sụp đổ trường stereo, để lộ bùn low-mid, và hiển thị sự khắc nghiệt trong khoảng tần số mid trên. Nếu bản nhạc vẫn nghe như bản nhạc — không nhất thiết là hay, nhưng mạch lạc — thì bạn có thứ gì đó đáng làm việc.

Nếu nó sụp đổ thành bùn, đó không phải lúc nào là dấu hiệu để tạo lại. Đó là dấu hiệu để nhìn vào các điều khiển phong cách của bạn. Thẻ thể loại nặng âm thấp cộng với cài đặt phòng ấm cộng với BPM chậm thường sẽ tạo ra bản nhạc không truyền được. Điều chỉnh một biến, không phải cả ba.

Bước 6: bìa, kết xuất lại, hoặc dừng lại

Biết khi nào dừng lại là kỹ năng phân biệt những người xuất bản từ những người có bốn trăm bản nháp đã lưu và không có gì trong danh sách phát.

Ba tín hiệu rằng một lần thử đã xong:

  • Điệp khúc thực sự kéo. Bạn cảm thấy sự đến trước khi nghĩ về nó. Nếu bạn phải tự thuyết phục bản thân tại sao điệp khúc hoạt động, nó không hoạt động.
  • Giọng hát ngồi trong túi. Ca sĩ nghe như họ đang hát bài hát này, không phải đang chứng minh rằng họ có thể chạm đến những nốt này. Giọng AI thường khớp quá mức phụ âm — một lần thử tốt thì không.
  • Không còn dấu hiệu AI nào bạn chú ý ở lần nghe thứ ba. Các mô hình trống quá sạch về mặt nhịp học. Các chuyển tiếp hợp âm thiếu bất kỳ biến đổi vận tốc nào. Một nốt kéo dài không bao giờ thở. Đây là những dấu hiệu. Một trong số đó thường chấp nhận được. Ba là quá nhiều.

Nếu lần thử đạt hai trong ba, hãy dừng lại và gọi nó là bản nháp. Nếu bạn đạt cả ba, hãy dừng lại và gọi nó là xong.

Kết xuất lại có ý nghĩa khi một tham số cụ thể sai và bạn có thể đặt tên nó. "Giọng quá sáng cho ca từ" là hướng dẫn kết xuất lại. "Điều gì đó cảm thấy sai" thì không — đó là vấn đề lắng nghe, không phải vấn đề tạo nhạc, và nhiều lần thử hơn sẽ không sửa được nó.

Các lỗi phổ biến

  • Prompt quá ngắn. Một câu không phải là prompt; đó là thẻ thể loại với bao bì câu. Ba câu là tối thiểu cho kết quả có bất kỳ đặc điểm nào.
  • Prompt quá dài. Tám câu xây dựng thế giới chi tiết cho mô hình quá nhiều ràng buộc cần thỏa mãn đồng thời. Nó sẽ trung bình chúng và tạo ra không có gì cụ thể.
  • Chuyển đổi công cụ giữa chừng. Mỗi trình tạo có mô hình nội bộ khác nhau, và "cùng một prompt" tạo ra các kết quả về mặt cấu trúc khác nhau trên các công cụ. Nếu bạn chuyển đổi giữa phiên, bạn đặt lại cơ sở so sánh và mất lịch sử lặp đi lặp lại. Chọn một công cụ mỗi bản nhạc và ở lại đó.
  • Tạo lại với cùng đầu vào và mong đợi kết quả khác. Sự biến thiên trong đầu ra cho các prompt giống nhau là thực nhưng bị giới hạn. Nếu ba lần thử liên tiếp đều sai theo cùng một cách, prompt là vấn đề, không phải hạt giống ngẫu nhiên.
  • Bỏ qua sự không khớp giọng hát. Âm sắc giọng hát, giọng, và năng lượng được ngụ ý bởi ca từ của bạn phải phù hợp với giọng mà mô hình chọn. Một ca từ được viết cho giọng nam trầm khàn được phân phối bởi giọng nam cao nhẹ là lỗi diễn xuất, và không có lần kết xuất lại nào sửa được diễn xuất.

Sau bản nhạc đầu tiên có tác dụng

Tải xuống stems nếu công cụ cung cấp chúng. Ngay cả khi bạn không có kế hoạch mix, có giọng hát và nhạc cụ được tách biệt có nghĩa là bạn có thể tái tạo giọng sau, hoặc đưa nhạc cụ cho một ca sĩ thực sự mà không cần bắt đầu từ không.

Lưu prompt chính xác như khi nó hoạt động. Không phải phiên bản bạn đã lặp đi lặp lại — phiên bản cuối cùng. Sao chép nó vào tệp ghi chú, bảng tính, bất cứ nơi nào không ở bên trong công cụ chính. Hầu hết các công cụ không lưu giữ các prompt qua các phiên theo hình thức bạn có thể dễ dàng tìm kiếm. Thư viện nhạc của aisonggen tự động lưu lịch sử tạo nhạc của bạn và các prompt tạo ra mỗi bản nhạc, điều này giảm lượng bạn cần quản lý điều này, nhưng vẫn đáng giữ bản sao của riêng bạn về các prompt tạo ra kết quả tốt nhất.

Ghi lại hai điều cho mỗi bản nhạc có tác dụng: kết hợp thẻ thể loại-tâm trạng bạn đã sử dụng, và bất kỳ cụm từ tư thế nào cảm thấy sinh thành. Qua mười hoặc mười lăm bản nhạc, các mô hình xuất hiện — bạn sẽ tìm thấy các kết hợp thẻ phù hợp với phạm vi sáng tạo của bạn và các cách diễn đạt đáng tin cậy tạo ra thứ gì đó đáng giữ lại. Nhật ký đó có giá trị hơn bất kỳ hướng dẫn nào, bao gồm cả hướng dẫn này.

Nếu bạn muốn xem cách người khác đang sử dụng trình tạo trước khi cam kết với quy trình làm việc của riêng bạn, trang đánh giá cho thấy cách người dùng thực sự đang tiếp cận các thể loại và trường hợp sử dụng khác nhau.

Mục tiêu không phải là tạo nhạc. Tạo nhạc là phần dễ dàng bây giờ — bất kỳ ai cũng có thể nhấn nút. Mục tiêu là viết bài hát. Các bài hát có quan điểm, một trọng tâm cảm xúc cụ thể, một cấu trúc xứng đáng với kết thúc của nó. AI là lớp sản xuất: nó xử lý dàn dựng, mix, giọng. Bạn vẫn phải làm việc viết. Bạn càng mang nhiều điều đó vào prompt, bạn càng ít nghe thấy sự thiếu sót trong đầu ra.

Bản nhạc tiếp theo của bạn chỉ cách một câu lệnh miễn phí

Hãy mở phòng thu, gõ vibe, nghe một bài hát hoàn chỉnh trong 30 giây. Miễn phí khởi đầu, miễn phí bản quyền để phát hành, không cần thẻ tín dụng.