ส่วนที่ยากของการทำเพลง AI ไม่ใช่การกดปุ่ม ส่วนที่ยากคือการรู้ว่าจะใส่อะไรก่อนที่จะกดปุ่ม การอ่านสิ่งที่กลับมาด้วยความมีเหตุมีผล และการตัดสินใจว่าจะไปต่อหรือหยุด คนส่วนใหญ่ที่เรียกเพลง AI ว่า "ทั่วไป" ไม่ได้ผิด พวกเขาแค่หยุดเร็วเกินไปในกระบวนการ หรือพวกเขาเริ่มต้นโดยไม่มีความชัดเจนเพียงพอเกี่ยวกับสิ่งที่พวกเขาพยายามทำจริงๆ
นี่คือคำแนะนำของกระบวนการที่ฉันรันผ่านหลายร้อยครั้ง มันถือว่าการสร้างเป็นการทำซ้ำ ไม่ใช่การทำธุรกรรมกับเครื่องจำหน่ายสินค้า เมื่อมันทำงาน เอาต์พุตไม่ฟังดูเหมือนเครื่องจักรเขียน เมื่อมันล้มเหลว คุณจะรู้ว่าต้องกลับไปแก้ไขการตัดสินใจใด
ตัดสินใจว่าต้องการเพลงประเภทใดจริงๆ
ก่อนเปิดเครื่องมือใดๆ นั่งกับคำถามหนึ่งข้อ: ประสบการณ์ของใครที่เพลงนี้อาศัยอยู่ข้างใน? ไม่ใช่ "แนวเพลงอะไร" และไม่ใช่ "vibe อะไร" สิ่งเหล่านั้นมาทีหลัง เริ่มด้วยมุมมอง แล้วสถานที่ แล้วศูนย์กลางความโน้มถ่วงทางอารมณ์
กรอบเรียบง่ายสำหรับเรื่องนี้:
[WHO] กำลังทำ [WHAT] ช่วงเวลาก่อนหน้า [TURNING POINT] อารมณ์ด้านล่างคือ [FEELING] ไม่ใช่ [SURFACE FEELING] เก็บไว้ให้ [ONE TONAL WORD]
ความแตกต่างระหว่างความรู้สึกผิวเผินและความรู้สึกด้านล่างไม่ใช่แบบฝึกหัดการเขียน แต่เป็นคำสั่งของเครื่องมือสร้าง เพลงเกี่ยวกับ "ความโศก" ฟังดูแบบหนึ่ง เพลงเกี่ยวกับความหงุดหงิดเฉพาะของการไม่สามารถร้องไห้ในงานศพฟังดูเหมือนแผ่นเสียงที่แตกต่างกันอย่างสิ้นเชิง ความเฉพาะเจาะจงนั้นเดินทางเข้าสู่การสร้างในแบบที่แท็กแนวเพลงไม่สามารถทำได้
ขณะที่คุณยังคิดบนกระดาษ ตัดสินใจความยาว แทร็กสองนาทีและแทร็กสี่นาทีต้องการการตัดสินใจโครงสร้างที่ต่างกัน และเครื่องมือสร้างจะลอยโดยไม่มีเป้าหมาย เลือกหนึ่งก่อนที่คุณจะไปต่อ
ขั้นตอนที่ 1: เขียนพรอมต์ที่ตั้งชื่อท่าทาง ไม่ใช่เนื้อสัมผัส
พรอมต์แรกส่วนใหญ่อธิบายเสียง: "lo-fi beat, warm keys, melancholic" นั่นอธิบายว่าแทร็กควรรู้สึกอย่างไรกับผู้ฟังที่อยู่ห่างออกไปสามขั้นจากอารมณ์ ท่าทางอธิบายว่านักแสดงกำลังทำอะไรกับร่างกายและความสนใจ
เปรียบเทียบสองสิ่งนี้:
- พรอมต์เนื้อสัมผัส: "Slow R&B, soft falsetto, late-night, longing"
- พรอมต์ท่าทาง: "คนกำลังอ่านข้อความเก่าที่พวกเขาสัญญาว่าจะลบ พวกเขาอ่านต่อไป เสียงเบาเหมือนพวกเขาไม่ต้องการให้ใครได้ยิน"
ทั้งคู่ชี้ไปยังปลายทางทางอารมณ์ที่คล้ายกัน พรอมต์ท่าทางให้โมเดลมีบางอย่างที่จะแสดง พรอมต์เนื้อสัมผัสให้มันการอ้างอิงเสียงและไม่มีอะไรอื่น ผลลัพธ์ไม่เทียบเท่ากัน
เก็บพรอมต์ท่าทางไว้สามหรือสี่ประโยค เพดานต่ำกว่าที่คุณคิด หลังจากประมาณห้าประโยค โมเดลเริ่มเฉลี่ยตามคำสั่งแทนที่จะสร้างจากพวกมัน
ขั้นตอนที่ 2: เลือกเครื่องมือสร้างที่ให้คุณเปรียบเทียบ take
เครื่องมือสร้าง take เดียวทำให้การทำซ้ำช้าในแบบเฉพาะที่น่ารำคาญ: คุณได้ผลลัพธ์ มันเกือบถูกต้อง คุณ regenerate ด้วยการเปลี่ยนแปลงเล็กน้อย และ take ใหม่ลงจอดในทิศทางที่ต่างกันอย่างสิ้นเชิงเพราะไม่มี anchor ร่วมกัน คุณลงเอยด้วยการไล่ตาม take ต้นฉบับที่ "เกือบดี" หกรอบ
การรันตัวแปรแบบขนานแก้ปัญหานี้ เครื่องมือสร้างเพลงของ aisonggen เรนเดอร์ห้า take พร้อมกันจากพรอมต์เดียวกัน ดังนั้นคุณสามารถเปรียบเทียบเคียงข้างกันก่อนยืนยันทิศทาง ถ้าสองในห้าอยู่ในพื้นที่ที่ถูกต้อง คุณได้ข้ามวง regenerate ส่วนใหญ่แล้ว
หมายเหตุที่ยุติธรรม: ห้า take ใช้เครดิตมากกว่าหนึ่ง take ถ้าคุณมีงบเครดิตที่จำกัดมาก รันสอง take แทนห้าและถือว่าหนึ่งเป็นอ้างอิง ประเด็นคือให้มีการเปรียบเทียบอย่างน้อยหนึ่งครั้ง ไม่ใช่ต้องมีห้า
ขั้นตอนที่ 3: เขียนหรือร่วมเขียนเนื้อเพลงก่อน
ช่องเนื้อเพลงของเครื่องมือสร้างเป็นช่องข้อความเล็กๆ และโมเดลที่รันอยู่เบื้องหลังมีความลำเอียงที่แข็งแกร่งต่อการรักษาสิ่งที่คุณให้มาไว้ จำนวนบรรทัดต้นฉบับ รูปแบบ rhyme ต้นฉบับ แม้แต่รูปแบบพยางค์ต้นฉบับ ถ้าคุณเขียนเนื้อเพลงในช่องนั้นและตัดสินใจทีหลังว่าต้องการเพิ่ม bridge คุณจะต่อสู้กับโมเดลในทุก regenerate
ร่างเนื้อเพลงแยกต่างหากก่อนวางมันลง Lyric Studio ให้คุณมีพื้นที่เพียงพอที่จะเห็นว่าคุณกำลังเขียนอะไร คุณสามารถแก้ไขท่อนเต็ม ลอง hook คอรัสต่าง ย้าย pre-chorus ก่อนที่มันจะกลายเป็นโครงสร้าง ทั้งหมดก่อนที่จะส่งอะไรให้กับเครื่องมือสร้าง
การเริ่มต้นด้วยเนื้อเพลงยังให้คุณตรวจสอบสิ่งหนึ่งที่เครื่องมือสร้างไม่สามารถ: ว่าเนื้อเพลงมีจังหวะการพูดตามธรรมชาติที่นักร้องสามารถลงจอดได้จริงๆ อ่านคอรัสออกเสียง ถ้าคุณสะดุด โมเดลก็จะสะดุดเช่นกัน
ถ้าคุณกำลังสร้างเนื้อเพลงแบบ interactive ควบคู่กับดนตรี พรอมต์ก่อน ปรับเนื้อเพลงที่สอง เวิร์กโฟลว์นั้นก็ถูกต้องเช่นกัน กุญแจสำคัญคือการแก้ไขเนื้อเพลงเกิดขึ้นในที่ที่มีพื้นที่การแก้ไขจริง ไม่ใช่ในช่องข้อความของเครื่องมือสร้าง
ขั้นตอนที่ 4: เลือกการควบคุมสไตล์ด้วยความตั้งใจ
แท็กแนวเพลงเป็น seed ไม่ใช่สัญญา "Indie folk" ไม่ล็อกเอาต์พุตเข้าสู่สไตล์การผลิตเฉพาะใดๆ มันเอนเอียงโมเดลไปสู่กลุ่มของเสียงที่เกี่ยวข้องกับป้ายกำกับนั้น ซึ่งเป็นจุดเริ่มต้น ไม่ใช่การรับประกัน ถ้าต้องการเข้าใจว่าโมเดลตีความแท็กเหล่านี้อย่างไรก่อนยืนยัน คู่มือเกี่ยวกับแท็กแนวเพลง คุ้มค่าสิบนาทีของเวลาคุณ
สิ่งที่จำกัดเอาต์พุตได้น่าเชื่อถือมากกว่าจริงๆ:
- อารมณ์ที่ตั้งชื่อแม่นยำ "Bittersweet" และ "resigned" ลงจอดต่างกันแม้ในแท็กแนวเพลงเดียวกัน
- ฉากหรือสถานที่ "ลานจอดรถว่างตอนเที่ยงคืน" ให้วิศวกรมิกซ์ (โมเดล ในที่นี้) การอ้างอิงภาพสำหรับ reverb และพื้นที่
- เพศและ register เสียงร้อง เครื่องมือสร้างส่วนใหญ่รับคำสั่งที่ชัดเจนที่นี่ และค่าเริ่มต้นไม่ใช่ตัวที่ถูกต้องเสมอสำหรับเนื้อเพลงของคุณ
ตั้ง BPM ถ้าคุณรู้ ไม่ใช่ช่วง แต่เป็นตัวเลข "Around 90" ให้โมเดลพื้นที่มากเกินไป "88 BPM" ให้มันนาฬิกา เช่นเดียวกับความยาวแทร็ก: เขียนระยะเวลาเป้าหมายอย่างชัดเจนแทนที่จะปล่อยให้เป็นค่าเริ่มต้น
ขั้นตอนที่ 5: เรนเดอร์แล้วฟังบนลำโพงที่แย่ที่สุดที่คุณมี
แทร็กที่สร้างโดย AI มีโหมดความล้มเหลวที่รู้จัก: มันฟังดูดีกว่าที่ควรบนหูฟัง สนามสเตอริโอมักกว้าง ความต่ำแน่นถูกควบคุม มิกซ์สะอาดในแบบที่เปิดเผยว่าเป็นของปลอมเมื่อคุณได้ยินบนอะไรบางอย่างที่ไม่ยอมรับ
หลังจากเรนเดอร์แรก ย้ายไปที่ลำโพงโทรศัพท์ หรือแล็ปท็อปในตัว หรือถ้าคุณมีหนึ่ง สเตอริโอรถที่หน้าต่างเปิด ลำโพงเหล่านี้ยุบสนามสเตอริโอ เปิดเผยโคลนต่ำ-กลาง และแสดงความแหลมคมในช่วงกลาง-บน ถ้าแทร็กยังฟังดูเหมือนแทร็ก ไม่จำเป็นต้องดีเสมอไป แต่สอดคล้องกัน แสดงว่าคุณมีบางอย่างที่คุ้มค่าที่จะทำงานด้วย
ถ้ามันยุบเป็นความเละ นั่นไม่ใช่สัญญาณให้ regenerate เสมอไป แต่เป็นสัญญาณให้ดูที่การควบคุมสไตล์ แท็กแนวเพลงที่เน้นความต่ำแน่นบวกกับการตั้งห้องอบอุ่นบวกกับ BPM ช้ามักผลิตแทร็กที่ไม่เดินทางได้ ปรับตัวแปรหนึ่ง ไม่ใช่สามตัว
ขั้นตอนที่ 6: cover, เรนเดอร์ใหม่ หรือหยุด
การรู้ว่าเมื่อไหรที่จะหยุดคือทักษะที่แยกคนที่ส่งงานออกไปจากคนที่มีร่างที่บันทึกไว้สี่ร้อยชิ้นและไม่มีอะไรในเพลย์ลิสต์
สามสัญญาณที่ take เสร็จแล้ว:
- คอรัสดึงจริงๆ คุณรู้สึกถึงการมาถึงก่อนที่คุณจะคิดเกี่ยวกับมัน ถ้าคุณต้องโต้แย้งตัวเองว่าทำไมคอรัสทำงาน มันไม่ทำงาน
- เสียงร้องนั่งในร่อง นักร้องฟังดูเหมือนพวกเขากำลังร้องเพลงนี้ ไม่ใช่สาธิตว่าพวกเขาสามารถโดนโน้ตเหล่านี้ เสียงร้อง AI มักเปล่งพยัญชนะมากเกินไป take ที่ดีไม่ทำแบบนั้น
- ไม่มี AI-tells เหลือที่คุณสังเกตเห็นในการฟังครั้งที่สาม รูปแบบกลองที่ตรงตามจังหวะมากเกินไป การเปลี่ยนคอร์ดที่ขาดการเปลี่ยนแปลง velocity ใดๆ โน้ตที่ค้างซึ่งไม่เคยหายใจ นี่คือ tell หนึ่งตัวมักยอมรับได้ สามตัวมากเกินไป
ถ้า take ผ่านสองในสาม หยุดและเรียกมันว่าร่าง ถ้าคุณผ่านทั้งสาม หยุดและเรียกมันว่าเสร็จ
การ re-render สมเหตุสมผลเมื่อพารามิเตอร์เฉพาะหนึ่งผิดและคุณสามารถตั้งชื่อมันได้ "เสียงร้องสว่างเกินไปสำหรับเนื้อเพลง" คือคำสั่ง re-render "บางอย่างรู้สึกไม่ถูก" ไม่ใช่ นั่นคือปัญหาการฟัง ไม่ใช่ปัญหาการสร้าง และ take เพิ่มเติมไม่สามารถแก้ไขได้
ข้อผิดพลาดทั่วไป
- พรอมต์สั้นเกินไป ประโยคเดียวไม่ใช่พรอมต์ มันคือแท็กแนวเพลงที่มีกระดาษห่อประโยค สามประโยคคือขั้นต่ำสำหรับผลลัพธ์ที่มีตัวละครใดๆ
- พรอมต์ยาวเกินไป แปดประโยคของการสร้างโลกโดยละเอียดให้โมเดลมีข้อจำกัดมากเกินไปที่จะตอบสนองพร้อมกัน มันจะเฉลี่ยพวกมันและผลิตอะไรโดยเฉพาะ
- การสลับเครื่องมือกลางการทำซ้ำ เครื่องมือสร้างทุกตัวมีโมเดลภายในที่แตกต่างกัน และ "พรอมต์เดียวกัน" ผลิตผลลัพธ์ที่แตกต่างกันโดยโครงสร้างในเครื่องมือต่างๆ ถ้าคุณสลับกลางเซสชัน คุณรีเซ็ตฐานการเปรียบเทียบและเสียประวัติการทำซ้ำ เลือกเครื่องมือหนึ่งต่อแทร็กและอยู่ที่นั่น
- การ regenerate ด้วยอินพุตเดียวกันและคาดหวังผลลัพธ์ที่แตกต่าง การเปลี่ยนแปลงในเอาต์พุตสำหรับพรอมต์เหมือนกันมีอยู่จริงแต่จำกัด ถ้า take สามครั้งติดต่อกันผิดในแบบเดียวกัน พรอมต์คือปัญหา ไม่ใช่ random seed
- ละเว้นความไม่ตรงกันของเสียงร้อง สีเสียง register และพลังงานที่บอกเป็นนัยโดยเนื้อเพลงต้องสอดคล้องกับเสียงที่โมเดลเลือก เนื้อเพลงที่เขียนสำหรับ baritone แหบที่ส่งโดย tenor เบาเป็นความผิดพลาดในการ casting และไม่มีการ re-render แก้ไข casting ได้
หลังจากแทร็กแรกที่ทำงาน
ดาวน์โหลด stem ถ้าเครื่องมือเสนอ แม้ว่าคุณไม่ได้วางแผนที่จะมิกซ์ การมีเสียงร้องและ instrumental ที่แยกออกหมายความว่าคุณสามารถ re-voice ทีหลัง หรือส่ง instrumental ให้นักร้องจริงโดยไม่ต้องเริ่มจากศูนย์
บันทึกพรอมต์อย่างตรงตามที่เป็นเมื่อมันทำงาน ไม่ใช่เวอร์ชันที่คุณ iterate ผ่าน แต่เป็นเวอร์ชันสุดท้าย คัดลอกมันเข้าไฟล์โน้ต spreadsheet ที่ใดก็ได้ที่ไม่ใช่ภายในเครื่องมือเอง เครื่องมือส่วนใหญ่ไม่ persist พรอมต์ข้ามเซสชันในรูปแบบที่คุณสามารถค้นหาได้ง่าย ไลบรารีเพลงของ aisonggen บันทึกประวัติการสร้างและพรอมต์ที่ผลิตแต่ละแทร็กโดยอัตโนมัติ ซึ่งลดปริมาณที่คุณต้องจัดการเอง แต่ยังคุ้มค่าที่จะเก็บสำเนาของตัวเองของพรอมต์ที่ผลิตผลลัพธ์ที่ดีที่สุดของคุณ
บันทึกสองอย่างสำหรับแต่ละแทร็กที่ทำงาน: การผสมแท็กแนวเพลง-อารมณ์ที่คุณใช้ และวลีท่าทางใดๆ ที่รู้สึกว่าสร้างสรรค์ ในสิบหรือสิบห้าแทร็ก รูปแบบจะเกิดขึ้น คุณจะพบการผสมแท็กที่เหมาะกับช่วงสร้างสรรค์ของคุณและการวลีที่ผลิตบางอย่างที่คุ้มค่าอย่างน่าเชื่อถือ บันทึกนั้นมีค่ามากกว่าคู่มือใดๆ รวมถึงอันนี้
ถ้าคุณต้องการดูว่าคนอื่นใช้เครื่องมือสร้างก่อนที่จะยืนยันเวิร์กโฟลว์ของตัวเอง หน้ารีวิว แสดงวิธีที่ผู้ใช้จริงเข้าถึงแนวเพลงและกรณีการใช้งานต่างๆ
เป้าหมายไม่ใช่การสร้างดนตรี การสร้างดนตรีเป็นส่วนที่ง่ายในตอนนี้ ใครก็กดปุ่มได้ เป้าหมายคือการเขียนเพลง เพลงที่มีมุมมอง ศูนย์กลางทางอารมณ์เฉพาะ โครงสร้างที่สมควรได้รับการจบ AI คือชั้นการผลิต มันจัดการการจัดเรียง มิกซ์ เสียง คุณยังต้องทำการเขียน ยิ่งคุณนำมาสู่พรอมต์มากเท่าไหร่ คุณก็ยิ่งได้ยินน้อยลงว่ามันขาดหายในเอาต์พุต