AISongGen logoAISongGen

รีวิว MusicGPT — เครื่องมือดนตรีที่ขับเคลื่อนด้วยการสนทนา พร้อมรอยต่อที่แสดงออกมา

รีวิวภาคปฏิบัติของ MusicGPT สิ่งที่ chat UI ทำได้ถูกต้อง สิ่งที่หายไปในการแปล และจุดที่เครื่องมือสร้างโดยตรงชนะ

อ่าน 7 นาที

อินเทอร์เฟซการสนทนามีคำมั่นสัญญาที่ดึงดูดใจ: แค่อธิบายสิ่งที่ต้องการ และมันปรากฏขึ้น สำหรับการเขียน โค้ด รูปภาพ คำมั่นสัญญานั้นค่อนข้างดี สำหรับการสร้างเพลง มันค่อนข้างดีจนกว่าคุณต้องการความเฉพาะเจาะจง แล้วรอยต่อก็เริ่มปรากฏ

MusicGPT ห่อการสร้างเพลงไว้ในอินเทอร์เฟซสไตล์การสนทนา ซึ่งเป็นการออกแบบที่น่าสนใจจริงๆ การสนทนาดีสำหรับการสำรวจ มันพบผู้ใช้ที่พวกเขาอยู่ ลดเกณฑ์ขั้นต่ำในการเริ่มต้น และให้คุณ iterate ในเชิงสนทนาแทนที่จะบังคับให้คุณเข้าสู่เวิร์กโฟลว์ที่ขับเคลื่อนด้วยแบบฟอร์มทันที ปัญหาคือการผลิตดนตรี แม้แต่ในระดับที่ AI ช่วย มักเอียงไปสู่ความแม่นยำค่อนข้างเร็ว Tempo สำคัญ เครื่องดนตรีสำคัญ ช่องว่างระหว่าง "warm acoustic track with a slow build" กับ "fingerpicked guitar at 90 BPM ไม่มีเครื่องเคาะจังหวะจนกว่าจะถึงท่อนที่สอง" คือช่องว่างระหว่างแทร็กพื้นหลังที่น่าพอใจกับบางอย่างที่คุณจะใช้จริงๆ chat UI มักทำให้ช่องว่างนั้นราบเรียบ บางครั้งมีประโยชน์ บางครั้งไม่

รีวิวนี้อธิบายว่า MusicGPT ทำอะไรจริงๆ จุดที่มันช่วยได้จริง และจุดที่ metaphor การสนทนากลายเป็นเพดานแทนที่จะเป็นพื้น

สิ่งที่ MusicGPT ทำ

MusicGPT วางตำแหน่งตัวเองเป็นผู้ช่วย AI ทั่วไปที่มีการสร้างเพลงเป็นหนึ่งในความสามารถที่โดดเด่น ขึ้นอยู่กับเวอร์ชันและแผนที่คุณใช้ มันสามารถจัดการพรอมต์ text-to-music อินพุตแรงบันดาลใจจากภาพ และในบางการกำหนดค่าบริบทเสียงและวิดีโอ pitch คือคุณอธิบายสิ่งที่ต้องการในภาษาธรรมดา และผู้ช่วยตีความและ route ไปยังโมเดลสร้างเพลงด้านล่าง

วลีสุดท้ายนั้น "โมเดลสร้างเพลงด้านล่าง" คุ้มค่าสังเกตตั้งแต่ต้น เพราะมันชี้ให้เห็นบางอย่างที่สำคัญ MusicGPT เป็น ในระดับที่แตกต่างกันขึ้นอยู่กับการกำหนดค่าปัจจุบัน ชั้นการสนทนาบน infrastructure การสร้างอื่นๆ โมเดลที่ทำการสังเคราะห์เสียงจริงอาจเป็นผู้ให้บริการเชิงพาณิชย์ โมเดล open-weights หรืออะไรอย่างอื่นทั้งหมด นี่ไม่ใช่ปัญหาในตัวเอง การ abstraction อาจมีประโยชน์ แต่หมายความว่าสิ่งที่คุณประสบว่า "คุณภาพ MusicGPT" เป็นส่วนหนึ่งของฟังก์ชันของสิ่งที่ขับเคลื่อนมันในขณะนั้น

อินเทอร์เฟซเองเป็นหน้าต่างการสนทนาที่คุ้นเคย: คุณพิมพ์ มันตอบสนองด้วยเอาต์พุตเสียงและมักมีการแสดงความเห็นเบาๆ หรือคำถามติดตาม มีตัวเลือกในการปรับแต่ง ดำเนินการสนทนาต่อ หรือเริ่มใหม่ ประสบการณ์ตั้งใจเป็นแรงเสียดทานต่ำ ซึ่งเป็นหนึ่งในจุดแข็งที่แท้จริงของมัน

ประสบการณ์ภาคปฏิบัติ

เซสชันแรกกับ MusicGPT มักจะน่าพอใจ คุณพิมพ์อะไรบางอย่างเช่น "ทำแทร็ก lo-fi hip hop ที่ uptempo ให้ฉันพร้อม jazzy piano sample และกลองเบาๆ" และในเวลาที่สมเหตุสมผลคุณได้เสียงกลับมา ผลลัพธ์มักพอใช้ได้ บางครั้งดีจริงๆ กระดาษห่อการสนทนาหมายความว่าคุณสามารถ follow up ทันที: "ทำให้กลองเบาลง" หรือ "ลอง tempo ที่ช้ากว่า" ระบบตีความคำขอเหล่านี้และสร้างเวอร์ชันใหม่

สิ่งนี้ทำงานได้ดีสำหรับการ iterate สองสามครั้ง ประสบการณ์เริ่มเสื่อมลงประมาณครั้งที่สามหรือสี่ เมื่อคุณรู้ว่าคุณไม่ได้ปรับพารามิเตอร์จริงๆ แต่ส่งพรอมต์ใหม่ที่ระบบตีความตั้งแต่ต้นทุกครั้ง ไม่มีสถานะถาวรสำหรับ tempo หรือเครื่องดนตรี มีแค่การผ่านการสร้างใหม่ที่ได้รับข้อมูลจากประวัติการสนทนาของคุณ บางครั้งความพยายามครั้งที่สี่ฟังดูไม่เหมือนครั้งที่สองเลย เพราะโมเดลให้น้ำหนักส่วนต่างของคำอธิบายของคุณ

เปรียบเทียบสิ่งนี้กับการทำงานกับอินเทอร์เฟซเครื่องมือสร้างโดยตรง เมื่อคุณมีการควบคุมที่ชัดเจน slider tempo, genre chips, mood tags, toggle เครื่องดนตรี การเปลี่ยนแปลงแต่ละครั้งแม่นยำและแยกออกมา คุณรู้ว่าเปลี่ยนอะไรและทำไมเอาต์พุตจึงเปลี่ยน ด้วยระบบที่ขับเคลื่อนด้วยการสนทนา คุณทำงานผ่านชั้นการตีความเสมอ และชั้นนั้นนำเสนอความแปรปรวนที่คุณไม่สามารถสังเกตหรือควบคุมโดยตรงได้

วง multi-step refine เป็นหนึ่งในจุดเปรียบเทียบที่บอกเล่ามากที่สุด ในเครื่องมือสร้างเฉพาะ การ iterate บนแทร็กรวดเร็ว: ปรับพารามิเตอร์หนึ่ง regenerate ฟัง ทำซ้ำ ในกระบวนการ chat การ iterate แต่ละครั้งเกี่ยวข้องกับการพิมพ์ข้อความใหม่ รอให้ผู้ช่วยวิเคราะห์ แล้วรอการสร้างเสียง ค่าใช้จ่ายด้านเวลาสะสม และค่าใช้จ่ายทางความรู้ในการแปลสัญชาตญาณทางดนตรีเป็นร้อยแก้วก็สะสมเช่นกัน

จุดแข็ง

การออกแบบการสนทนาของ MusicGPT มีคุณค่าจริงสำหรับผู้ใช้เฉพาะประเภทในจุดเฉพาะของการเดินทาง

สำหรับคนที่ไม่เคยลองสร้างเพลง AI และไม่รู้ว่าต้องใช้คำศัพท์อะไร การสนทนาเป็นจุดเริ่มต้นที่ดีจริงๆ คุณสามารถอธิบายอารมณ์ อ้างอิงความรู้สึก ชี้ไปทางแทร็กอ้างอิง และระบบจะพยายามแปลสิ่งนั้นเป็นเสียง ผู้ช่วยมักถามคำถามชี้แจง ซึ่งอาจมีประโยชน์จริงๆ เมื่อคุณยังไม่มีบรีฟเฉพาะ

ประสบการณ์การเริ่มต้นใช้งานเข้าถึงได้ในแบบที่เครื่องมือสร้างที่ขับเคลื่อนด้วยแบบฟอร์มบางครั้งไม่ใช่ ช่องพรอมต์ว่างที่มีปุ่ม generate อาจน่ากลัว การสนทนารู้สึกยืดหยุ่นกว่า คุณสามารถคลุมเครือ สำรวจ และแก้ไขผ่านบทสนทนาแทนที่จะเรียนรู้ syntax พรอมต์เฉพาะ

สำหรับกรณีการใช้งานแบบ casual เพลงพื้นหลังสำหรับโครงการส่วนตัว การสำรวจสร้างสรรค์อย่างรวดเร็ว การทดลองเพื่อดูว่าเป็นไปได้อะไร โมเดล chat มีแรงเสียดทานต่ำและน่าพอใจ ถ้าเป้าหมายคือการค้นพบแทนที่จะส่งมอบ MusicGPT เป็นเครื่องมือที่สมเหตุสมผล

จุดที่ chat UI ต่อสู้กับคุณ

ปัญหาเกิดขึ้นเมื่อความต้องการของคุณกลายเป็นเฉพาะเจาะจง

ความแม่นยำ การสนทนาต้องตีความคุณ เมื่อคุณพูดว่า "มืดกว่าเล็กน้อย" ระบบตัดสินใจว่า "มืดกว่า" หมายความว่าอะไรในแง่ดนตรี ต่ำกว่าไหม? คีย์ไมเนอร์ไหม? Tempo ช้าลงไหม? มิกซ์ที่ขุ่นกว่าไหม? คุณไม่รู้ว่ามันเลือกการตีความใด และไม่มีวิธีจำกัดมัน เครื่องมือสร้างที่มีการควบคุมชัดเจนให้ข้อจำกัดนั้นโดยตรง

การควบคุมพรอมต์ ไม่มี slider ไม่มีตัวเลือกแบบ chip ไม่มี toggle โดยตรงสำหรับ tempo หรือ key หรือเครื่องดนตรี ทุกอย่างรันผ่านภาษาธรรมชาติ ซึ่งหมายความว่าชุดพารามิเตอร์การผลิตดนตรีที่แสดงอย่างเต็มที่ต้องบีบอัดเป็นร้อยแก้ว การบีบอัดบางส่วนนั้นสูญเสีย

ความเร็วในการ iterate การสนทนา multi-step ช้ากว่ารอบ re-render โดยตรง ถ้าต้องทดสอบสิบสองตัวแปรบน hook การทำผ่าน chat loop นั้นไม่มีประสิทธิภาพ เวลาแฝงไม่ใช่แค่เทคนิค แต่เป็นเวลาแฝงของการแต่งข้อความแต่ละข้อ รอให้การตีความ รอการสร้างเสียง และวิเคราะห์ผลลัพธ์

ความทึบแสงของโมเดล ความสัมพันธ์ของ MusicGPT กับชั้นการสร้างด้านล่างไม่โปร่งใสเสมอ เมื่อแทร็กกลับมาฟังดูต่างจากที่คาดหวัง บ่อยครั้งคุณบอกไม่ได้ว่าปัญหาอยู่ที่พรอมต์ของคุณ การตีความของผู้ช่วย หรือโมเดลที่ทำการสังเคราะห์ ในเครื่องมือสร้างโดยตรง คุณอย่างน้อยรู้ว่าระบบใดรับผิดชอบส่วนใดของเอาต์พุต

ความสม่ำเสมอข้ามเซสชัน เพราะการสร้างเป็น stateless ในการกำหนดค่าส่วนใหญ่ พรอมต์เดียวกันสามารถผลิตผลลัพธ์ที่แตกต่างกันอย่างเห็นได้ชัดข้ามเซสชันที่แยกจากกัน นี่เป็นความจริงในระดับหนึ่งสำหรับเครื่องมือเพลง AI ทั้งหมด แต่ chat UI ทำให้ยากขึ้นในการทำซ้ำเอาต์พุตเฉพาะเพราะไม่มีสถานะพารามิเตอร์ที่บันทึกไว้ มีแค่ประวัติการสนทนา

ราคาและแผน

MusicGPT เสนอ free tier พร้อมเครดิตการสร้างที่จำกัดและ paid tier ที่มีการเข้าถึงที่ขยาย รายละเอียดอาจเปลี่ยนแปลง ดังนั้นแหล่งที่ดีที่สุดคือหน้าราคาปัจจุบันโดยตรง เช่นเดียวกับเครื่องมือ AI ส่วนใหญ่ในหมวดหมู่นี้ โมเดลเครดิตและขีดจำกัด tier เปลี่ยนแปลงไปตามกาลเวลาและคุ้มค่าที่จะตรวจสอบก่อนยืนยัน

สำหรับบริบท: เครื่องมือสร้างเพลง AI ส่วนใหญ่ในราคาจุดนี้เสนอการสร้างฟรีระหว่าง 10 ถึง 50 ครั้งต่อเดือนในแผนฟรี แผนชำระเงินมักปลดล็อคขีดจำกัดเอาต์พุตที่สูงขึ้น ความสำคัญของคิวที่ดีขึ้น และการเข้าถึงฟีเจอร์เพิ่มเติมอย่างความยาวแทร็กที่ยาวขึ้นหรือรูปแบบการส่งออกเสียง

ใครที่มันเหมาะสำหรับ

MusicGPT เหมาะสำหรับผู้ที่ใหม่กับการสร้างเพลง AI และต้องการวิธีที่มีความกดดันต่ำในการสำรวจ อินเทอร์เฟซการสนทนามีประโยชน์จริงๆ เมื่อคุณไม่มีบรีฟเฉพาะ คุณสามารถอธิบาย vibe ติดตาม และเรียนรู้ว่าเป็นไปได้อะไรผ่านบทสนทนาแทนที่จะต้องเชี่ยวชาญเครื่องมือก่อน

มันยังทำงานได้ดีสำหรับโครงการส่วนตัว casual ที่ "ดีพอ อย่างรวดเร็ว" คือเป้าหมาย เพลงพื้นหลังสำหรับวิดีโอ essay ธีมที่สร้างอย่างรวดเร็วสำหรับโครงการส่วนตัว การ noodle สำรวจ สิ่งเหล่านี้เป็นกรณีการใช้งานที่ความยืดหยุ่นของโมเดล chat ชนะความขาดความแม่นยำ

ถ้าคุณเป็นประเภทผู้ใช้ที่เรียนรู้โดยการทำและถามคำถาม การสร้าง scaffold การสนทนาของ MusicGPT เหมาะกับวิธีที่คุณทำงาน

ใครที่ไม่ใช่สำหรับ

ถ้าคุณมีบรีฟเฉพาะและ deadline chat UI จะทำให้คุณช้าลง

เมื่อคุณรู้ว่าต้องการอะไร แนวเพลง ช่วง tempo อารมณ์ ความชอบเครื่องดนตรี โครงสร้างหยาบ พื้นผิวเครื่องมือสร้างโดยตรงเร็วกว่าและแม่นยำกว่า เครื่องมือสร้างเพลงของ aisonggen ใช้การควบคุม chip-based ที่ชัดเจนสำหรับแนวเพลง อารมณ์ และสไตล์ ซึ่งหมายความว่าการปรับพารามิเตอร์แต่ละครั้งเป็นเป้าหมายและผลลัพธ์ง่ายต่อการคาดเดาและ iterate คุณไม่ได้แปลความตั้งใจทางดนตรีเป็นร้อยแก้ว แต่เลือกจากชุดตัวเลือกที่มีโครงสร้างซึ่ง map โดยตรงกับพารามิเตอร์การสร้าง

สำหรับเวิร์กโฟลว์ที่เนื้อเพลงนำ ที่เพลงเริ่มเป็นคำและดนตรีต้องรับใช้ข้อความ พื้นผิวเฉพาะอย่าง Lyric Studio ของ aisonggen เหมาะกว่าอินเทอร์เฟซการสนทนาทั่วไป Lyric Studio สร้างขึ้นรอบโครงสร้างของเพลง: ท่อนเพลง คอรัส bridge รูปแบบ rhyme จำนวนพยางค์ การสนทนาสามารถประมาณสิ่งนี้ได้ แต่เครื่องมือที่มีจุดประสงค์เฉพาะทำได้ดีกว่า

ถ้าเป้าหมายของคุณคือการนำเพลงที่มีอยู่และแปลงหรือ re-render มัน ตระกูลเครื่องมือ cover generator ตรงกว่าแนวทางการสนทนา การสร้าง cover มีข้อกำหนดเฉพาะเกี่ยวกับเสียงอ้างอิง การถ่ายโอนสไตล์ และรูปแบบเอาต์พุต สิ่งเหล่านี้ map ได้ไม่ดีกับกระบวนการ chat และดีกว่ามากกับอินเทอร์เฟซเฉพาะ

สำหรับงานเสียงร้องโดยเฉพาะ การบรรยาย เสียงตัวละคร บทนำพอดแคสต์ เครื่องมือ text-to-speech ที่มุ่งเน้นจะผลิตผลลัพธ์ที่ควบคุมได้และสม่ำเสมอมากกว่าการ route คำขอนั้นผ่านผู้ช่วย chat ทั่วไป

บทสรุป

MusicGPT เป็นจุดเข้าเชิงสนทนาที่ออกแบบมาดีสู่การสร้างเพลง AI อินเทอร์เฟซ chat ลดเกณฑ์ขั้นต่ำอย่างมีนัยสำคัญสำหรับผู้ใช้ใหม่ และวง exploratory ที่มันเปิดใช้งานมีคุณค่าจริงเมื่อคุณอยู่ในโหมดค้นพบ ปัญหาเกิดขึ้นที่เพดาน: ความแม่นยำ ความเร็วในการ iterate และความโปร่งใสของโมเดลล้วนถูกประนีประนอมด้วยการ abstraction การสนทนาในแบบที่กลายเป็นสำคัญเมื่อคุณรู้ว่าพยายามทำอะไร

เครื่องมือนั้นซื่อสัตย์ว่าเป็นอินเทอร์เฟซทั่วไป และภายในกรอบนั้นมันส่งมอบตามคำมั่นสัญญา แต่การสร้างเพลงมักดึงผู้ใช้ไปสู่ความเฉพาะเจาะจงค่อนข้างเร็ว และเมื่อสิ่งนั้นเกิดขึ้น พื้นผิวเครื่องมือสร้างโดยตรง พร้อมการควบคุมที่ชัดเจน พารามิเตอร์ที่มองเห็น และวง iterate ที่เร็วขึ้น เป็นตัวเลือกที่ดีกว่า การใช้ MusicGPT ที่ดีที่สุดอาจเป็นในฐานะเครื่องมือการเริ่มต้นใช้งาน: ที่ที่จะหาว่าคุณชอบอะไรก่อนที่จะย้ายไปสู่พื้นผิวที่สร้างมาเพื่อส่งมอบมัน

กำลังมองหาการเปรียบเทียบโดยตรงของเครื่องมือสร้างเพลง AI? ดู hub รีวิวทั้งหมด หรือตรวจสอบ ราคาของ aisonggen สำหรับรายละเอียดสิ่งที่มีให้ในแต่ละ tier

อ่านต่อ

แทร็กถัดไปของคุณห่างเพียง prompt ฟรีเดียว

เปิดสตูดิโอ พิมพ์อารมณ์ ฟังเพลงสำเร็จรูปใน 30 วินาที เริ่มฟรี ส่งงานปลอดค่าลิขสิทธิ์ ไม่ต้องใช้บัตรเครดิต