วิธีทำเพลง AI ที่ไม่ฟังดูเหมือนเพลง AI

ส่วนที่ยากของการทำเพลง AI ไม่ใช่การกดปุ่ม ส่วนที่ยากคือการรู้ว่าจะใส่อะไรก่อนที่จะกดปุ่ม การอ่านสิ่งที่กลับมาด้วยความมีเหตุมีผล และการตัดสินใจว่าจะไปต่อหรือหยุด คนส่วนใหญ่ที่เรียกเพลง AI ว่า "ทั่วไป" ไม่ได้ผิด พวกเขาแค่หยุดเร็วเกินไปในกระบวนการ หรือพวกเขาเริ่มต้นโดยไม่มีความชัดเจนเพียงพอเกี่ยวกับสิ่งที่พวกเขาพยายามทำจริงๆ

นี่คือคำแนะนำของกระบวนการที่ฉันรันผ่านหลายร้อยครั้ง มันถือว่าการสร้างเป็นการทำซ้ำ ไม่ใช่การทำธุรกรรมกับเครื่องจำหน่ายสินค้า เมื่อมันทำงาน เอาต์พุตไม่ฟังดูเหมือนเครื่องจักรเขียน เมื่อมันล้มเหลว คุณจะรู้ว่าต้องกลับไปแก้ไขการตัดสินใจใด

ตัดสินใจว่าต้องการเพลงประเภทใดจริงๆ

ก่อนเปิดเครื่องมือใดๆ นั่งกับคำถามหนึ่งข้อ: ประสบการณ์ของใครที่เพลงนี้อาศัยอยู่ข้างใน? ไม่ใช่ "แนวเพลงอะไร" และไม่ใช่ "vibe อะไร" สิ่งเหล่านั้นมาทีหลัง เริ่มด้วยมุมมอง แล้วสถานที่ แล้วศูนย์กลางความโน้มถ่วงทางอารมณ์

กรอบเรียบง่ายสำหรับเรื่องนี้:

[WHO] กำลังทำ [WHAT] ช่วงเวลาก่อนหน้า [TURNING POINT] อารมณ์ด้านล่างคือ [FEELING] ไม่ใช่ [SURFACE FEELING] เก็บไว้ให้ [ONE TONAL WORD]

ความแตกต่างระหว่างความรู้สึกผิวเผินและความรู้สึกด้านล่างไม่ใช่แบบฝึกหัดการเขียน แต่เป็นคำสั่งของเครื่องมือสร้าง เพลงเกี่ยวกับ "ความโศก" ฟังดูแบบหนึ่ง เพลงเกี่ยวกับความหงุดหงิดเฉพาะของการไม่สามารถร้องไห้ในงานศพฟังดูเหมือนแผ่นเสียงที่แตกต่างกันอย่างสิ้นเชิง ความเฉพาะเจาะจงนั้นเดินทางเข้าสู่การสร้างในแบบที่แท็กแนวเพลงไม่สามารถทำได้

ขณะที่คุณยังคิดบนกระดาษ ตัดสินใจความยาว แทร็กสองนาทีและแทร็กสี่นาทีต้องการการตัดสินใจโครงสร้างที่ต่างกัน และเครื่องมือสร้างจะลอยโดยไม่มีเป้าหมาย เลือกหนึ่งก่อนที่คุณจะไปต่อ

ขั้นตอนที่ 1: เขียนพรอมต์ที่ตั้งชื่อท่าทาง ไม่ใช่เนื้อสัมผัส

พรอมต์แรกส่วนใหญ่อธิบายเสียง: "lo-fi beat, warm keys, melancholic" นั่นอธิบายว่าแทร็กควรรู้สึกอย่างไรกับผู้ฟังที่อยู่ห่างออกไปสามขั้นจากอารมณ์ ท่าทางอธิบายว่านักแสดงกำลังทำอะไรกับร่างกายและความสนใจ

เปรียบเทียบสองสิ่งนี้:

พรอมต์เนื้อสัมผัส: "Slow R&B, soft falsetto, late-night, longing"
พรอมต์ท่าทาง: "คนกำลังอ่านข้อความเก่าที่พวกเขาสัญญาว่าจะลบ พวกเขาอ่านต่อไป เสียงเบาเหมือนพวกเขาไม่ต้องการให้ใครได้ยิน"

ทั้งคู่ชี้ไปยังปลายทางทางอารมณ์ที่คล้ายกัน พรอมต์ท่าทางให้โมเดลมีบางอย่างที่จะแสดง พรอมต์เนื้อสัมผัสให้มันการอ้างอิงเสียงและไม่มีอะไรอื่น ผลลัพธ์ไม่เทียบเท่ากัน

เก็บพรอมต์ท่าทางไว้สามหรือสี่ประโยค เพดานต่ำกว่าที่คุณคิด หลังจากประมาณห้าประโยค โมเดลเริ่มเฉลี่ยตามคำสั่งแทนที่จะสร้างจากพวกมัน

ขั้นตอนที่ 2: เลือกเครื่องมือสร้างที่ให้คุณเปรียบเทียบ take

เครื่องมือสร้าง take เดียวทำให้การทำซ้ำช้าในแบบเฉพาะที่น่ารำคาญ: คุณได้ผลลัพธ์ มันเกือบถูกต้อง คุณ regenerate ด้วยการเปลี่ยนแปลงเล็กน้อย และ take ใหม่ลงจอดในทิศทางที่ต่างกันอย่างสิ้นเชิงเพราะไม่มี anchor ร่วมกัน คุณลงเอยด้วยการไล่ตาม take ต้นฉบับที่ "เกือบดี" หกรอบ

การรันตัวแปรแบบขนานแก้ปัญหานี้ เครื่องมือสร้างเพลงของ aisonggen เรนเดอร์ห้า take พร้อมกันจากพรอมต์เดียวกัน ดังนั้นคุณสามารถเปรียบเทียบเคียงข้างกันก่อนยืนยันทิศทาง ถ้าสองในห้าอยู่ในพื้นที่ที่ถูกต้อง คุณได้ข้ามวง regenerate ส่วนใหญ่แล้ว

หมายเหตุที่ยุติธรรม: ห้า take ใช้เครดิตมากกว่าหนึ่ง take ถ้าคุณมีงบเครดิตที่จำกัดมาก รันสอง take แทนห้าและถือว่าหนึ่งเป็นอ้างอิง ประเด็นคือให้มีการเปรียบเทียบอย่างน้อยหนึ่งครั้ง ไม่ใช่ต้องมีห้า

ขั้นตอนที่ 3: เขียนหรือร่วมเขียนเนื้อเพลงก่อน

ช่องเนื้อเพลงของเครื่องมือสร้างเป็นช่องข้อความเล็กๆ และโมเดลที่รันอยู่เบื้องหลังมีความลำเอียงที่แข็งแกร่งต่อการรักษาสิ่งที่คุณให้มาไว้ จำนวนบรรทัดต้นฉบับ รูปแบบ rhyme ต้นฉบับ แม้แต่รูปแบบพยางค์ต้นฉบับ ถ้าคุณเขียนเนื้อเพลงในช่องนั้นและตัดสินใจทีหลังว่าต้องการเพิ่ม bridge คุณจะต่อสู้กับโมเดลในทุก regenerate

ร่างเนื้อเพลงแยกต่างหากก่อนวางมันลง Lyric Studio ให้คุณมีพื้นที่เพียงพอที่จะเห็นว่าคุณกำลังเขียนอะไร คุณสามารถแก้ไขท่อนเต็ม ลอง hook คอรัสต่าง ย้าย pre-chorus ก่อนที่มันจะกลายเป็นโครงสร้าง ทั้งหมดก่อนที่จะส่งอะไรให้กับเครื่องมือสร้าง

การเริ่มต้นด้วยเนื้อเพลงยังให้คุณตรวจสอบสิ่งหนึ่งที่เครื่องมือสร้างไม่สามารถ: ว่าเนื้อเพลงมีจังหวะการพูดตามธรรมชาติที่นักร้องสามารถลงจอดได้จริงๆ อ่านคอรัสออกเสียง ถ้าคุณสะดุด โมเดลก็จะสะดุดเช่นกัน

ถ้าคุณกำลังสร้างเนื้อเพลงแบบ interactive ควบคู่กับดนตรี พรอมต์ก่อน ปรับเนื้อเพลงที่สอง เวิร์กโฟลว์นั้นก็ถูกต้องเช่นกัน กุญแจสำคัญคือการแก้ไขเนื้อเพลงเกิดขึ้นในที่ที่มีพื้นที่การแก้ไขจริง ไม่ใช่ในช่องข้อความของเครื่องมือสร้าง

ขั้นตอนที่ 4: เลือกการควบคุมสไตล์ด้วยความตั้งใจ

แท็กแนวเพลงเป็น seed ไม่ใช่สัญญา "Indie folk" ไม่ล็อกเอาต์พุตเข้าสู่สไตล์การผลิตเฉพาะใดๆ มันเอนเอียงโมเดลไปสู่กลุ่มของเสียงที่เกี่ยวข้องกับป้ายกำกับนั้น ซึ่งเป็นจุดเริ่มต้น ไม่ใช่การรับประกัน ถ้าต้องการเข้าใจว่าโมเดลตีความแท็กเหล่านี้อย่างไรก่อนยืนยัน คู่มือเกี่ยวกับแท็กแนวเพลง คุ้มค่าสิบนาทีของเวลาคุณ

สิ่งที่จำกัดเอาต์พุตได้น่าเชื่อถือมากกว่าจริงๆ:

อารมณ์ที่ตั้งชื่อแม่นยำ "Bittersweet" และ "resigned" ลงจอดต่างกันแม้ในแท็กแนวเพลงเดียวกัน
ฉากหรือสถานที่ "ลานจอดรถว่างตอนเที่ยงคืน" ให้วิศวกรมิกซ์ (โมเดล ในที่นี้) การอ้างอิงภาพสำหรับ reverb และพื้นที่
เพศและ register เสียงร้อง เครื่องมือสร้างส่วนใหญ่รับคำสั่งที่ชัดเจนที่นี่ และค่าเริ่มต้นไม่ใช่ตัวที่ถูกต้องเสมอสำหรับเนื้อเพลงของคุณ

ตั้ง BPM ถ้าคุณรู้ ไม่ใช่ช่วง แต่เป็นตัวเลข "Around 90" ให้โมเดลพื้นที่มากเกินไป "88 BPM" ให้มันนาฬิกา เช่นเดียวกับความยาวแทร็ก: เขียนระยะเวลาเป้าหมายอย่างชัดเจนแทนที่จะปล่อยให้เป็นค่าเริ่มต้น

ขั้นตอนที่ 5: เรนเดอร์แล้วฟังบนลำโพงที่แย่ที่สุดที่คุณมี

แทร็กที่สร้างโดย AI มีโหมดความล้มเหลวที่รู้จัก: มันฟังดูดีกว่าที่ควรบนหูฟัง สนามสเตอริโอมักกว้าง ความต่ำแน่นถูกควบคุม มิกซ์สะอาดในแบบที่เปิดเผยว่าเป็นของปลอมเมื่อคุณได้ยินบนอะไรบางอย่างที่ไม่ยอมรับ

หลังจากเรนเดอร์แรก ย้ายไปที่ลำโพงโทรศัพท์ หรือแล็ปท็อปในตัว หรือถ้าคุณมีหนึ่ง สเตอริโอรถที่หน้าต่างเปิด ลำโพงเหล่านี้ยุบสนามสเตอริโอ เปิดเผยโคลนต่ำ-กลาง และแสดงความแหลมคมในช่วงกลาง-บน ถ้าแทร็กยังฟังดูเหมือนแทร็ก ไม่จำเป็นต้องดีเสมอไป แต่สอดคล้องกัน แสดงว่าคุณมีบางอย่างที่คุ้มค่าที่จะทำงานด้วย

ถ้ามันยุบเป็นความเละ นั่นไม่ใช่สัญญาณให้ regenerate เสมอไป แต่เป็นสัญญาณให้ดูที่การควบคุมสไตล์ แท็กแนวเพลงที่เน้นความต่ำแน่นบวกกับการตั้งห้องอบอุ่นบวกกับ BPM ช้ามักผลิตแทร็กที่ไม่เดินทางได้ ปรับตัวแปรหนึ่ง ไม่ใช่สามตัว

ขั้นตอนที่ 6: cover, เรนเดอร์ใหม่ หรือหยุด

การรู้ว่าเมื่อไหรที่จะหยุดคือทักษะที่แยกคนที่ส่งงานออกไปจากคนที่มีร่างที่บันทึกไว้สี่ร้อยชิ้นและไม่มีอะไรในเพลย์ลิสต์

สามสัญญาณที่ take เสร็จแล้ว:

คอรัสดึงจริงๆ คุณรู้สึกถึงการมาถึงก่อนที่คุณจะคิดเกี่ยวกับมัน ถ้าคุณต้องโต้แย้งตัวเองว่าทำไมคอรัสทำงาน มันไม่ทำงาน
เสียงร้องนั่งในร่อง นักร้องฟังดูเหมือนพวกเขากำลังร้องเพลงนี้ ไม่ใช่สาธิตว่าพวกเขาสามารถโดนโน้ตเหล่านี้ เสียงร้อง AI มักเปล่งพยัญชนะมากเกินไป take ที่ดีไม่ทำแบบนั้น
ไม่มี AI-tells เหลือที่คุณสังเกตเห็นในการฟังครั้งที่สาม รูปแบบกลองที่ตรงตามจังหวะมากเกินไป การเปลี่ยนคอร์ดที่ขาดการเปลี่ยนแปลง velocity ใดๆ โน้ตที่ค้างซึ่งไม่เคยหายใจ นี่คือ tell หนึ่งตัวมักยอมรับได้ สามตัวมากเกินไป

ถ้า take ผ่านสองในสาม หยุดและเรียกมันว่าร่าง ถ้าคุณผ่านทั้งสาม หยุดและเรียกมันว่าเสร็จ

การ re-render สมเหตุสมผลเมื่อพารามิเตอร์เฉพาะหนึ่งผิดและคุณสามารถตั้งชื่อมันได้ "เสียงร้องสว่างเกินไปสำหรับเนื้อเพลง" คือคำสั่ง re-render "บางอย่างรู้สึกไม่ถูก" ไม่ใช่ นั่นคือปัญหาการฟัง ไม่ใช่ปัญหาการสร้าง และ take เพิ่มเติมไม่สามารถแก้ไขได้

ข้อผิดพลาดทั่วไป

พรอมต์สั้นเกินไป ประโยคเดียวไม่ใช่พรอมต์ มันคือแท็กแนวเพลงที่มีกระดาษห่อประโยค สามประโยคคือขั้นต่ำสำหรับผลลัพธ์ที่มีตัวละครใดๆ
พรอมต์ยาวเกินไป แปดประโยคของการสร้างโลกโดยละเอียดให้โมเดลมีข้อจำกัดมากเกินไปที่จะตอบสนองพร้อมกัน มันจะเฉลี่ยพวกมันและผลิตอะไรโดยเฉพาะ
การสลับเครื่องมือกลางการทำซ้ำ เครื่องมือสร้างทุกตัวมีโมเดลภายในที่แตกต่างกัน และ "พรอมต์เดียวกัน" ผลิตผลลัพธ์ที่แตกต่างกันโดยโครงสร้างในเครื่องมือต่างๆ ถ้าคุณสลับกลางเซสชัน คุณรีเซ็ตฐานการเปรียบเทียบและเสียประวัติการทำซ้ำ เลือกเครื่องมือหนึ่งต่อแทร็กและอยู่ที่นั่น
การ regenerate ด้วยอินพุตเดียวกันและคาดหวังผลลัพธ์ที่แตกต่าง การเปลี่ยนแปลงในเอาต์พุตสำหรับพรอมต์เหมือนกันมีอยู่จริงแต่จำกัด ถ้า take สามครั้งติดต่อกันผิดในแบบเดียวกัน พรอมต์คือปัญหา ไม่ใช่ random seed
ละเว้นความไม่ตรงกันของเสียงร้อง สีเสียง register และพลังงานที่บอกเป็นนัยโดยเนื้อเพลงต้องสอดคล้องกับเสียงที่โมเดลเลือก เนื้อเพลงที่เขียนสำหรับ baritone แหบที่ส่งโดย tenor เบาเป็นความผิดพลาดในการ casting และไม่มีการ re-render แก้ไข casting ได้

หลังจากแทร็กแรกที่ทำงาน

ดาวน์โหลด stem ถ้าเครื่องมือเสนอ แม้ว่าคุณไม่ได้วางแผนที่จะมิกซ์ การมีเสียงร้องและ instrumental ที่แยกออกหมายความว่าคุณสามารถ re-voice ทีหลัง หรือส่ง instrumental ให้นักร้องจริงโดยไม่ต้องเริ่มจากศูนย์

บันทึกพรอมต์อย่างตรงตามที่เป็นเมื่อมันทำงาน ไม่ใช่เวอร์ชันที่คุณ iterate ผ่าน แต่เป็นเวอร์ชันสุดท้าย คัดลอกมันเข้าไฟล์โน้ต spreadsheet ที่ใดก็ได้ที่ไม่ใช่ภายในเครื่องมือเอง เครื่องมือส่วนใหญ่ไม่ persist พรอมต์ข้ามเซสชันในรูปแบบที่คุณสามารถค้นหาได้ง่าย ไลบรารีเพลงของ aisonggen บันทึกประวัติการสร้างและพรอมต์ที่ผลิตแต่ละแทร็กโดยอัตโนมัติ ซึ่งลดปริมาณที่คุณต้องจัดการเอง แต่ยังคุ้มค่าที่จะเก็บสำเนาของตัวเองของพรอมต์ที่ผลิตผลลัพธ์ที่ดีที่สุดของคุณ

บันทึกสองอย่างสำหรับแต่ละแทร็กที่ทำงาน: การผสมแท็กแนวเพลง-อารมณ์ที่คุณใช้ และวลีท่าทางใดๆ ที่รู้สึกว่าสร้างสรรค์ ในสิบหรือสิบห้าแทร็ก รูปแบบจะเกิดขึ้น คุณจะพบการผสมแท็กที่เหมาะกับช่วงสร้างสรรค์ของคุณและการวลีที่ผลิตบางอย่างที่คุ้มค่าอย่างน่าเชื่อถือ บันทึกนั้นมีค่ามากกว่าคู่มือใดๆ รวมถึงอันนี้

ถ้าคุณต้องการดูว่าคนอื่นใช้เครื่องมือสร้างก่อนที่จะยืนยันเวิร์กโฟลว์ของตัวเอง หน้ารีวิว แสดงวิธีที่ผู้ใช้จริงเข้าถึงแนวเพลงและกรณีการใช้งานต่างๆ

เป้าหมายไม่ใช่การสร้างดนตรี การสร้างดนตรีเป็นส่วนที่ง่ายในตอนนี้ ใครก็กดปุ่มได้ เป้าหมายคือการเขียนเพลง เพลงที่มีมุมมอง ศูนย์กลางทางอารมณ์เฉพาะ โครงสร้างที่สมควรได้รับการจบ AI คือชั้นการผลิต มันจัดการการจัดเรียง มิกซ์ เสียง คุณยังต้องทำการเขียน ยิ่งคุณนำมาสู่พรอมต์มากเท่าไหร่ คุณก็ยิ่งได้ยินน้อยลงว่ามันขาดหายในเอาต์พุต

วิธีทำเพลง AI ที่ไม่ฟังดูเหมือนเพลง AI

ตัดสินใจว่าต้องการเพลงประเภทใดจริงๆ

ขั้นตอนที่ 1: เขียนพรอมต์ที่ตั้งชื่อท่าทาง ไม่ใช่เนื้อสัมผัส

ขั้นตอนที่ 2: เลือกเครื่องมือสร้างที่ให้คุณเปรียบเทียบ take

ขั้นตอนที่ 3: เขียนหรือร่วมเขียนเนื้อเพลงก่อน

ขั้นตอนที่ 4: เลือกการควบคุมสไตล์ด้วยความตั้งใจ

ขั้นตอนที่ 5: เรนเดอร์แล้วฟังบนลำโพงที่แย่ที่สุดที่คุณมี

ขั้นตอนที่ 6: cover, เรนเดอร์ใหม่ หรือหยุด

ข้อผิดพลาดทั่วไป

หลังจากแทร็กแรกที่ทำงาน

อ่านต่อ

วิธีทำเพลง cover ด้วย AI ที่ไม่ฟังดูเหมือนแค่รีมิกซ์

วิธีใช้ text-to-speech เพื่อให้มันหยุดฟังดูเหมือนหุ่นยนต์อ่านการบ้าน

Promptแต่งเพลงที่ขยับแทร็กได้จริง

แทร็กถัดไปของคุณห่างเพียง prompt ฟรีเดียว