Lyria 2 của Google DeepMind thực sự là công trình ấn tượng từ một trong những đội nghiên cứu âm thanh nghiêm túc nhất trên hành tinh. Nếu bạn đã nghe các demo, bạn đã biết độ trung thực nhạc cụ rất xuất sắc — có kết cấu, sống động về mặt động, với tính âm nhạc mà nhiều trình tạo thương mại vẫn chưa sánh kịp ở các lớp dàn dựng thấp và trung. Điều đó là thực sự.
Ma sát ở chỗ khác. Tiếp cận Lyria 2 không phải là một form đăng ký và thẻ tín dụng — đó là danh sách chờ đợi, tích hợp đối tác, hoặc bề mặt thực nghiệm bên trong sản phẩm hiện có. Với nhiều người tạo nội dung độc lập và các nhóm nhỏ, "ấn tượng khi bạn có thể tiếp cận" không phải câu trả lời có thể áp dụng khi bạn có thời hạn trong tuần này. Và ngay cả khi bạn có quyền truy cập, lớp sản phẩm hướng đến người tiêu dùng không đồng đều trên các điểm phân phối: đầu ra dạng bài hát, quy trình đầy đủ-lời ca, và màn trình diễn giọng hát dài hơi có mức độ trưởng thành khác nhau tùy thuộc vào bề mặt bạn đang sử dụng. Khoảng cách đó quan trọng trong thực tế.
Bài viết này nhìn thẳng vào những gì Lyria 2 đại diện, nơi nó hiện còn thiếu sót cho công việc sản xuất hàng ngày, và năm trình tạo ra bài hát đầy đủ ngay bây giờ — với các đánh đổi được nêu rõ.
Lyria 2 đại diện cho điều gì
Lyria 2 xây dựng trên một dòng dõi bắt đầu với MusicLM, bài báo đột phá của Google từ đầu năm 2023 đã chứng minh tạo nhạc được điều kiện hóa bằng văn bản ở cấp độ chất lượng báo hiệu nghiên cứu đã theo kịp tham vọng. Bản thân Lyria đã được vận chuyển đầu tiên như xương sống cung cấp năng lượng cho thử nghiệm Dream Track của YouTube, nơi một số nghệ sĩ để giọng của họ được tổng hợp thành các clip ngắn. Lyria 2 mở rộng mô hình đáng kể: chất lượng mẫu cao hơn, khả năng đa ngôn ngữ tốt hơn, và hiểu biết mạnh hơn về dàn dựng nhạc cụ.
Góc độ đa ngôn ngữ đáng chú ý cụ thể. Nhiều trình tạo nhạc thương mại được đào tạo chủ yếu trên các kho dữ liệu tiếng Anh, vì vậy tạo giọng hát không phải tiếng Anh thường không ổn định hoặc kỳ lạ về phong cách. Quy mô và tài nguyên dữ liệu của Google có nghĩa là Lyria 2 xử lý nhiều bộ âm vị và truyền thống âm nhạc với độ tin cậy hơn. Với các nhà nghiên cứu xây dựng các quy trình âm thanh đa ngôn ngữ, điều này quan trọng rất nhiều.
Tạo nhạc cụ là nơi mô hình có lẽ cho thấy trần của mình rõ ràng nhất. Kết cấu giao hưởng dày đặc, hành vi rhythm section chính xác về thể loại, và các micro-dynamics làm cho một bản nhạc được sản xuất cảm thấy "thực" thay vì tổng hợp — đây là những khu vực nơi các demo của Lyria 2 luôn thực hiện ở hoặc gần đỉnh của lĩnh vực. Nếu bạn cần một đoạn nhạc không lời ba mươi giây cho một nguyên mẫu nghiên cứu hoặc một thử nghiệm có kiểm soát, khó có thể chê chất lượng đầu ra.
Khi nào Lyria 2 chưa phù hợp
Các hạn chế có tính cấu trúc, không phải ngẫu nhiên, và đáng được gọi rõ ràng thay vì bỏ qua.
Mức độ trưởng thành của ứng dụng hướng đến người tiêu dùng. Không có trải nghiệm "vào lyria2.google.com, đăng ký, bắt đầu tạo nhạc". Các tuyến đường truy cập tính đến đầu năm 2026 bao gồm các thử nghiệm AI Studio, tích hợp đối tác, và các bề mặt Dream Track kế thừa — không cái nào cung cấp cho bạn môi trường tạo nhạc nhất quán, đầy đủ tính năng. Nếu bạn đang xây dựng dự án phụ thuộc vào quyền truy cập lặp đi lặp lại vào một công cụ, mô hình phân phối của Lyria 2 giới thiệu rủi ro.
Quy trình lời ca đầy đủ. Đầu ra dạng bài hát — nghĩa là bản nhạc có verse, pre-chorus, chorus, bridge và outro được ánh xạ vào lời ca bạn thực sự viết — ít trưởng thành hơn những gì các sản phẩm thương mại tập trung vào bài hát đã xây dựng. Lyria 2 xuất sắc trong tạo nhạc được điều kiện hóa từ các câu lệnh ngắn; nó không được thiết kế chủ yếu để thực thi một bản nhạc lời ca có cấu trúc trên bốn phút với đặc tính và năng lượng nhất quán. Các công cụ được mô tả dưới đây được xây dựng đặc biệt cho trường hợp sử dụng đó.
Màn trình diễn giọng hát dài hơi. Tạo giọng hát ngắn hơi là nơi mô hình mạnh nhất. Các bản nhạc dài hơi có xu hướng cho thấy nhiều phương sai hơn về tính tự nhiên của giọng hát, thời gian cụm từ, và vị trí hơi thở. Các trình tạo thương mại chạy hàng nghìn bản hoàn chỉnh bài hát đầy đủ mỗi ngày đã điều chỉnh cụ thể cho chế độ thất bại này. Lyria 2 chưa có vòng phản hồi đó.
Quyền truy cập có thể đoán trước và giá minh bạch. Một người tạo nội dung độc lập hoặc studio nhỏ cần biết chi phí tạo nhạc là bao nhiêu, liệu họ có hạn ngạch vào ngày mai không, và các tùy chọn của họ là gì khi đạt đến giới hạn. Lyria 2 không có cấp giá được công bố trả lời những câu hỏi này một cách đơn giản.
Năm lựa chọn thay thế ra bài hát ngay hôm nay
Suno
Suno là một trong những trình tạo cấp người tiêu dùng đầu tiên làm cho bài hát đầy đủ — giọng hát, nhạc cụ, sản xuất — cảm thấy thực sự có thể sử dụng được bởi người không phải nhạc sĩ. Mô hình v4 đặc biệt đã đẩy tính tự nhiên của giọng hát về phía trước đáng chú ý: phát âm sạch hơn, vibrato có kiểm soát hơn, và đường cung cảm xúc của lời ca có xu hướng đáp xuống nhất quán hơn các phiên bản trước đây.
Giao diện được thiết kế xung quanh vòng lặp nhanh. Bạn mô tả một tâm trạng, dán hoặc viết lời ca, chọn thẻ phong cách, và nhận nhiều lần hoàn thiện trong vòng chưa đến một phút. Tạo ảnh bìa được bao gồm, và các tính năng chia sẻ đã trưởng thành. Với những người tạo nội dung muốn nhanh chóng từ ý tưởng đến một liên kết có thể chia sẻ, tốc độ lặp lại của Suno khó đánh bại.
Điểm yếu là khả năng dự đoán trên các ràng buộc thể loại cụ thể. Nếu bạn cần thứ gì đó ngồi chính xác trong một tiểu thể loại hẹp — giả sử soul cổ điển với một bộ kèn cụ thể — đầu ra có thể trôi về phiên bản trung bình hơn của phong cách. Mô hình tối ưu hóa cho sức hấp dẫn rộng nhiều hơn là độ chính xác nghiêm ngặt ở các rìa thể loại.
Udio
Sự khác biệt của Udio nằm ở lớp chi tiết sản xuất. Mô hình có xu hướng tạo ra các bản nhạc nơi các quyết định mix — vị trí reverb, độ rộng stereo, không khí tần số cao — cảm thấy có chủ ý hơn nhiều đối thủ. Nếu bạn đang nghe đầu ra trên loa tốt hoặc tai nghe và hỏi "đây có cảm thấy như một bản nhạc thực sự không?", Udio thường thắng câu hỏi cụ thể đó.
Quy trình lời ca thành bài hát đòi hỏi một chút kỹ thuật câu lệnh thủ công hơn một số trình tạo, nhưng sự kiểm soát nó trả lại cho bạn là có ý nghĩa. Bạn có thể điều khiển năng lượng, thời gian drop, và mật độ sản xuất thông qua cấu trúc câu lệnh theo những cách cảm thấy phản hồi thay vì ngẫu nhiên.
Quyền truy cập có qua đăng ký với giá cấp rõ ràng. Tốc độ tạo nhạc vừa phải — không nhanh như một số, nhưng tính nhất quán đầu ra có xu hướng cao hơn mỗi lần thử.
aisonggen
Trình tạo nhạc của aisonggen là sản phẩm người tiêu dùng đầy đủ được xây dựng cho chính xác quy trình mà Lyria 2 để lại khoảng trống: tạo bài hát có cấu trúc với lời ca bạn kiểm soát, giao diện sản xuất thực sự, và quyền truy cập có thể đoán trước. Chế độ Thông minh xử lý phần nặng khi bạn có ý tưởng đại khái và muốn hệ thống điền vào các quyết định thể loại, tempo và dàn dựng; Chế độ Tùy chỉnh cung cấp điều khiển trực tiếp khi bạn biết mình muốn gì.
Mỗi lần tạo nhạc tạo ra năm biến thể song song, có nghĩa là bạn đang so sánh các tùy chọn thay vì cam kết với một đầu ra duy nhất. Lyric Studio là công cụ riêng biệt trong cùng sản phẩm để xử lý một lời ca đầy đủ trước khi tạo nhạc — nó hỗ trợ cấu trúc verse/chorus/bridge và bao gồm chức năng Mở rộng và Rút gọn để khớp các dòng với độ dài mục tiêu. Trình tạo cover xử lý tác phẩm nghệ thuật mà không cần chuyển sang dịch vụ riêng. Giá được công bố rõ ràng với chi phí tín dụng mỗi lần tạo hiển thị trước khi bạn bắt đầu.
Lưu ý trung thực: aisonggen được đào tạo theo quy mô của một sản phẩm thương mại tập trung, không phải phòng nghiên cứu tiên tiến với tài nguyên tính toán của Google. Ở cạnh trên của tính tự nhiên giọng hát — khoảnh khắc giọng nói ngừng nghe như được tạo ra và bắt đầu nghe như bản ghi âm — Suno và Udio đôi khi vẫn có lợi thế trên một câu lệnh nhất định, đặc biệt cho pop tiếng Anh và R&B nơi các mô hình đó đã tinh chỉnh nhiều nhất. Với hầu hết các thể loại và hầu hết các trường hợp sử dụng, khoảng cách không nghe được với người nghe bình thường. Với các chuyên gia đánh giá trần tuyệt đối, đáng thử thể loại cụ thể của bạn trực tiếp.
Mureka
Mureka định vị mình trong phân khúc chuyên nghiệp và cấp phép đồng bộ hóa của thị trường. Mô hình được đào tạo với sự chú ý đặc biệt đến các trường hợp sử dụng thương mại — các bản nhạc nơi sáng tác cần ngồi dưới hội thoại, khớp tempo hình ảnh, hoặc tránh xung đột tần số với giọng nói. Nếu bạn đang tạo nhạc cho nội dung video thay vì nghe âm nhạc đầu tiên, đầu ra của Mureka thường sẵn sàng cho sản xuất hơn ngay lập tức trong bối cảnh đó.
Giao diện có cấu trúc hơn các trình tạo ưu tiên người tiêu dùng, điều này có thể cảm thấy như chi phí nếu bạn muốn kết quả nhanh nhưng thực sự hữu ích nếu bạn đang xây dựng thư viện tài sản có thể cấp phép. Xuất stem — nhận các tệp riêng biệt cho trống, bass, giai điệu và giọng hát — là tính năng mà Mureka hỗ trợ mà nhiều đối thủ không cung cấp ở cùng cấp độ.
Sự đánh đổi là sự biểu đạt giọng hát cho nghe nhạc thuần túy đầu tiên ít được ưu tiên hơn trong Suno hay Udio. Mô hình được tối ưu hóa cho đầu ra sạch, có thể đoán trước, có thể cấp phép thay vì các khoảnh khắc cảm xúc cao.
Stable Audio
Stable Audio, từ Stability AI, áp dụng một cách tiếp cận triết học khác: mô hình được xây dựng với nhận thức mạnh về dữ liệu đào tạo sạch về bản quyền, điều này quan trọng đáng kể cho các trường hợp sử dụng chuyên nghiệp nơi quyền âm nhạc là một phần của cuộc trò chuyện. Nếu bạn đang tạo nội dung cho thương hiệu, đại lý, hoặc nền tảng với các chính sách cấp phép âm thanh nghiêm ngặt, dòng dõi đào tạo của Stable Audio là điểm khác biệt có ý nghĩa.
Phiên bản hiện tại xử lý tạo nhạc cụ đặc biệt tốt — nó có thể tạo ra sản xuất chính xác về thể loại cho nhiều phong cách điện tử và acoustic. Tạo giọng hát đầy đủ với lời ca ít trưởng thành hơn công việc nhạc cụ, vì vậy Stable Audio mạnh nhất khi bạn cần giường âm nhạc, nhạc nền, hoặc nhạc không lời thay vì bài hát hoàn chỉnh với giọng hát chính.
Tính chất open-weight của một số mô hình Stable Audio cũng có nghĩa là các quy trình tự lưu trữ hoặc tích hợp API là tùy chọn cho các nhóm có năng lực kỹ thuật, điều không thường gặp trong không gian này.
Cách chọn theo thời gian biểu của bạn
- Cần công bố thứ gì đó trong tuần này — Suno hoặc aisonggen. Cả hai đều có tạo tài khoản tức thì, giá được công bố, và có thể tạo ra các bản nhạc có thể chia sẻ trong vòng chưa đến năm phút từ câu lệnh. Không có danh sách chờ, không có chi phí tích hợp.
- Có thể dành một tuần đánh giá — chạy cùng một câu lệnh qua Suno, Udio và aisonggen và nghe đầu ra so với thể loại và cấu trúc lời ca cụ thể của bạn. Câu trả lời đúng thay đổi theo trường hợp sử dụng nhiều hơn là theo xếp hạng chất lượng chung.
- Ưu tiên tính tự nhiên giọng hát tuyệt đối trên tất cả mọi thứ — Suno và Udio hiện là mạnh nhất trên chiều kích này cho pop tiếng Anh và các thể loại chính thống. Thử cả hai trên phong cách cụ thể của bạn trước khi cam kết.
- Cần nhạc cho video, thương hiệu, hoặc cấp phép đồng bộ hóa — Mureka hoặc Stable Audio. Cả hai đều được xây dựng với quy trình đặt nhạc thương mại trong tâm trí và có câu trả lời rõ ràng hơn cho các câu hỏi quyền mà sử dụng chuyên nghiệp đặt ra.
- Xây dựng quy trình sản xuất dài hơn với lời ca, cover và chia sẻ — bộ công cụ tích hợp của aisonggen (trình tạo nhạc, Lyric Studio, trình tạo cover, và chuyển văn bản thành giọng nói) có nghĩa là ít chuyển ngữ cảnh hơn trong một phiên sản xuất đầy đủ.
Kế hoạch thử nghiệm đơn giản
- Viết một điệp khúc bốn dòng trong bất kỳ thể loại nào bạn quan tâm. Sử dụng lời ca thực với một mục tiêu cảm xúc cụ thể — không phải placeholder. Đây là đầu vào nhất quán của bạn.
- Chạy nó qua ba trình tạo trong danh sách ngắn của bạn. Giữ tất cả các biến khác (mô tả phong cách, gợi ý tempo) giống hệt nhau trong các lần chạy.
- Nghe bằng tai nghe mà không nhìn vào công cụ nào tạo ra bản nhạc nào. Chấm điểm mỗi cái về: giọng hát có cảm thấy tự nhiên không, sản xuất có phù hợp với thể loại không, năng lượng có khớp với ý định cảm xúc của lời ca không.
- Chạy lần tạo thứ hai của người thực hiện hàng đầu với thẻ phong cách hơi khác. Nếu đầu ra thay đổi theo hướng hữu ích, mô hình phản hồi với điều khiển của bạn; nếu nó nghe về cơ bản giống nhau, bạn đã tìm thấy trần của nó cho trường hợp sử dụng của bạn.
- Kiểm tra rằng công cụ đã chọn của bạn có cấp giá và mô hình sử dụng phù hợp với khối lượng của bạn — chi phí mỗi lần tạo, giới hạn hàng tháng, và điều gì xảy ra khi bạn vượt quá chúng đều là những điều bạn muốn xác nhận trước khi tích hợp công cụ vào dự án nghiêm túc.
Lyria 2 có thể sẽ quan trọng hơn như sản phẩm người tiêu dùng theo thời gian. Google có chiều sâu nghiên cứu và cơ sở hạ tầng phân phối để thu hẹp các khoảng cách lớp sản phẩm. Nhưng "sẽ quan trọng cuối cùng" và "là công cụ phù hợp cho dự án tuần tới" là những câu hỏi khác nhau, và năm công cụ ở trên là câu trả lời trung thực cho câu hỏi thứ hai ngay bây giờ. Thử nghiệm với nội dung thực của bạn, không phải demo tiêu chuẩn, và chọn cái giải quyết vấn đề cụ thể của bạn.