Yapay zeka müziği gibi duyulmayan yapay zeka müziği nasıl yapılır

Yapay zeka müziği yapmanın zor yanı butona basmak değildir. Zor yanı, basmadan önce ne koyacağınızı bilmek, geri geleni herhangi bir anlayışla okumak ve devam etmek mi yoksa durmak mı gerektiğine karar vermektir. Yapay zeka müziğini "jenerik" olarak nitelendiren insanların çoğu yanlış değildir — sadece süreçte çok erken durdular ya da gerçekte ne yapmaya çalıştıkları konusunda yeterli netlik olmadan başladılar.

Bu, birkaç yüz kez geçirdiğim sürecin bir rehberidir. Üretimi, otomat makinesi işlemi olarak değil, iterasyon olarak ele alır. İşe yaradığında, çıktı bir makinenin yazdığı gibi duyulmaz. Başarısız olduğunda, tam olarak hangi kararı gözden geçireceğinizi bileceksiniz.

Gerçekten ne tür bir şarkı istediğinize karar verin

Herhangi bir aracı açmadan önce, tek bir soruyla oturun: bu şarkı kimin deneyimi içinde yaşıyor? "Hangi tür" değil ve "hangi vibe" değil — bunlar daha sonra gelir. Perspektifle başlayın, sonra yer, sonra ağırlığın duygusal merkezi.

Bunun için basit bir çerçeve:

[KİM'in] [NE YAPTIĞI], [DÖNÜM NOKTASININ] tam öncesindeki an. Altındaki duygu [HİS], [YÜZEY HİSSİ] değil. [TEK TON SÖZCÜK] tutun.

Yüzey hissi ile altındaki his arasındaki ayrım bir yazma egzersizi değildir — bir üreteci talimatıdır. "Yas" hakkındaki bir şarkı bir şekilde duyulur; bir cenazede ağlayamamanın belirli sinirinden bahseden bir şarkı tamamen farklı bir albüm gibi duyulur. Özgüllük, tür etiketlerinin yapamayacağı şekillerde üretimde kendine yer bulur.

Hâlâ kağıt üzerinde düşünürken, uzunluğa karar verin. İki dakikalık bir parça ve dört dakikalık bir parça farklı yapısal tercihler gerektirir ve üreteci hedef olmadan sürüklenecektir. Hareket etmeden önce birini seçin.

1. Adım: bir doku değil, bir duruş tanımlayan istem yazın

İlk istemlerin çoğu sesi tanımlar: "lo-fi ritim, sıcak tuşlar, melankolik." Bu, duygudan üç adım uzaklaşmış bir dinleyiciye parçanın nasıl hissettirmesi gerektiğini açıklar. Duruş, performansçının bedeni ve dikkatiyle ne yaptığını tanımlar.

Şu ikisini karşılaştırın:

Doku istemi: "Yavaş R&B, yumuşak falsetto, gece geç saatleri, özlem."
Duruş istemi: "Silmeye söz verdiği eski mesajları okuyan biri. Okumaya devam ediyor. Vokal, kimsenin duymasını istemiyormuş gibi sessiz."

İkisi de benzer duygusal bir hedefe işaret ediyor. Duruş istemi modele performans yapacak bir şey verir. Doku istemi ona sonik bir referans ve başka hiçbir şey vermez. Sonuçlar eşdeğer değildir.

Duruş istemlerini üç veya dört cümleyle sınırlı tutun. Tavan düşündüğünüzden daha düşük — beş cümleden sonra model, üzerinde inşa etmek yerine talimatlar arasında ortalama almaya başlar.

2. Adım: alternatifleri karşılaştırmanıza olanak tanıyan bir üretici seçin

Tek kayıt üreticiler, iterasyonu belirli bir sinir bozucu şekilde yavaşlatır: bir sonuç alırsınız, neredeyse doğru, küçük bir değişiklikle yeniden oluşturursunuz ve yeni kayıt, paylaşılan bir çapa olmadığından tamamen farklı bir yöne iner. "Neredeyse doğruydu" olan orijinal kaydın peşinde altı döngü geçirirsiniz.

Paralel varyantları çalıştırmak bunu çözer. Aisonggen'in müzik üreteci, aynı istemden eş zamanlı olarak beş kayıt render eder, böylece bir yöne taahhütte bulunmadan önce bunları yan yana karşılaştırabilirsiniz. Beşin ikisi doğru bölgedeyse, yeniden oluşturma döngüsünün büyük kısmını zaten atladınız.

Adil bir not: beş kayıt bir yerine daha fazla kredi maliyeti taşır. Çok sıkı bir kredi bütçeniz varsa, beş yerine iki kayıt çalıştırın ve birini referans olarak kullanın. Önemli olan en az bir karşılaştırmaya sahip olmaktır, beş değil.

3. Adım: önce sözlerinizi yazın veya birlikte yazın

Üreticinin söz alanı küçük bir metin kutusudur ve arkasında çalışan model, ne verirseniz onu korumanın güçlü bir eğilimindedir — orijinal satır sayısı, orijinal kafiye şeması, hatta orijinal hece örüntüsü. Bu alana sözler yazarsanız ve sonradan bir köprü eklemek isterseniz, her yeniden oluşturmada modele karşı mücadele edeceksiniz.

Yapıştırmadan önce sözleri ayrıca taslak haline getirin. Söz Stüdyosu, yazdığınızı gerçekten görmek için yeterli alan sağlar. Tam bir kıtayı revize edebilir, farklı bir nakarat kancası deneyebilir, bir nakarat öncesini yapısal hale gelmeden önce hareket ettirebilirsiniz — hepsini üreticiye herhangi bir şey vermeden önce.

Önce sözler aynı zamanda üreticinin yapamayacağı bir şeyi kontrol etmenizi sağlar: sözün bir şarkıcının gerçekten tutturabileceği doğal bir konuşma ritmine sahip olup olmadığını. Nakaratınızı yüksek sesle okuyun. Tökezlerseniz, model de tökezler.

Sözü müzikle birlikte etkileşimli olarak oluşturuyorsanız — önce istem, sonra sözleri rafine etme — bu iş akışı da geçerlidir. Önemli olan söz düzenlemenin gerçek bir düzenleme alanında gerçekleşmesidir, üreticinin metin kutusunda değil.

4. Adım: stil kontrollerini bilinçli olarak seçin

Tür etiketleri tohumdur, sözleşme değil. "Indie folk", çıktıyı herhangi bir spesifik prodüksiyon stiline kilitlemez — modeli o etiketle ilişkili ses kümesine yönlendirir; bu bir başlangıç noktasıdır, garanti değildir. Taahhütte bulunmadan önce modelin bu etiketleri nasıl yorumladığını anlamak istiyorsanız, tür etiketleri rehberi on dakikanıza değer.

Çıktıyı daha güvenilir biçimde kısıtlayan şeyler:

Kesin olarak adlandırılmış ruh hali. "Acı tatlı" ve "vazgeçmiş" aynı tür etiketi içinde bile farklı iner.
Sahne veya ortam. "Gece yarısında boş bir otopark" karıştırma mühendisine (burada model) reverb ve uzay için görsel bir referans verir.
Vokal cinsiyet ve ses perdesi. Çoğu üretici burada açık talimatları kabul eder ve varsayılan sözünüz için her zaman doğru değildir.

BPM'i biliyorsanız ayarlayın. Bir aralık değil — bir sayı. "Yaklaşık 90" modele çok fazla yer bırakır. "88 BPM" ona bir saat verir. Parça uzunluğuyla da aynı şekilde: varsayılana bırakmak yerine hedef süreyi açıkça yazın.

5. Adım: render edin, sonra sahip olduğunuz en kötü hoparlörde dinleyin

Yapay zeka tarafından üretilen parçaların bilinen bir başarısızlık modu vardır: hak ettiklerinden daha iyi kulaklıklarda duyulurlar. Stereo alan genellikle geniştir, düşük frekanslar kontrollüdür, karışım yalnızca kışkırtıcı bir şeyde yapay olarak ortaya çıkan bir şekilde temizdir.

İlk renderdan sonra telefon hoparlörünüze geçin. Ya da dahili laptop hoparlörüne. Ya da erişiminiz varsa, pencereleri açık bir araba stereo sistemine. Bu hoparlörler stereo alanı çökertiyor, düşük-orta frekans çamurunu ortaya çıkarıyor ve üst orta aralıkta sertliği yüzeye çıkarıyor. Parça hâlâ bir parça gibi duyuluyorsa — mutlaka iyi değil, ancak tutarlı — üzerinde çalışmaya değer bir şeyiniz var.

Çamuruna dönüşüyorsa, bu her zaman yeniden oluşturmanın işareti değildir. Stil kontrollerinize bakmanın işaretidir. Düşük frekans ağır bir tür etiketi artı sıcak oda ayarı artı yavaş BPM genellikle seyahat etmeyen bir parça üretir. Üçünü değil, bir değişkeni ayarlayın.

6. Adım: cover yapın, yeniden render edin veya durdurun

Ne zaman duracağını bilmek, gönderenleri dört yüz kaydedilmiş taslağı olan ve playlistinde hiçbir şey olmayan insanlardan ayıran beceridir.

Bir kaydın tamamlandığının üç işareti:

Nakarat gerçekten çekiyor. Düşünmeden önce gelişi hissediyorsunuz. Nakaratın neden işlediğini kendinize anlatmanız gerekiyorsa, işlemiyordur.
Vokal yerli yerine oturuyor. Şarkıcı bu notlara ulaşabildiklerini gösteriyor değil, bu şarkıyı söylüyor gibi duyuluyor. Yapay zeka vokalleri genellikle ünsüzleri aşırı artiküle eder — iyi bir kayıt bunu yapmaz.
Üçüncü dinlemede fark ettiğiniz yapay zeka izi kalmadı. Çok metronom temizliğinde davul desenleri. Hız değişimi olmayan akor geçişleri. Hiç nefes almayan uzun nota. Bunlar izlerdir. Bunların biri genellikle kabul edilebilir. Üçü fazladır.

Kayıt üçten ikisini geçiyorsa, durdurun ve taslak deyin. Üçünü de geçiyorsa, durdurun ve tamamlandı deyin.

Yeniden render, spesifik bir parametre yanlış olduğunda ve bunu adlandırabildiğinizde mantıklıdır. "Vokal söz için çok parlak" bir yeniden render talimatıdır. "Bir şeyler yanlış hissettiriyor" değildir — bu bir dinleme problemidir, üretim problemi değil ve daha fazla kayıt düzeltemez.

Yaygın hatalar

İstem çok kısa. Tek cümle istem değildir; karakter bir cümle sarmalayıcıyla tür etiketidir. Üç cümle, herhangi bir karakterle sonuç için minimaldür.
İstem çok uzun. Sekiz cümle ayrıntılı dünya inşaası, modele aynı anda çok fazla kısıtlama uygular. Bunları ortalar ve hiçbir şey üretmez.
Iterasyon ortasında araç değiştirme. Her üreticinin farklı bir iç modeli vardır ve "aynı istem" araçlar arasında yapısal olarak farklı sonuçlar üretir. Oturum ortasında değiştirirseniz, karşılaştırma temel noktanızı sıfırlar ve iterasyon geçmişini kaybedersiniz. Parça başına bir araç seçin ve orada kalın.
Aynı girişlerle yeniden oluşturma ve farklı sonuç bekleme. Özdeş istemler için çıktılardaki varyasyon gerçek ama sınırlıdır. Ardışık üç kayıt aynı şekilde yanlışsa, sorun rastgele tohum değil istemdir.
Vokal uyuşmazlığını görmezden gelme. Sözleriniz tarafından ima edilen vokal tını, ses perdesi ve enerji, modelin seçtiği sesle uyumlu olmalıdır. Hafif bir tenor tarafından seslendirilen, kısık bir bariton için yazılmış sözler bir döküm hatasıdır ve hiçbir yeniden render dökümü düzeltemez.

İşe yarayan ilk parçadan sonra

Araç stem sunuyorsa indirin. Karıştırmayı planlamasanız bile, vokal ve enstrümentali ayrı bulundurmak daha sonra yeniden seslendirmenize ya da enstrümentali sıfırdan başlamadan gerçek bir şarkıcıya vermenize olanak tanır.

İstemi tam olarak çalıştığı haliyle kaydedin. Üzerinde iterasyon yaptığınız sürümü değil — son sürümü. Bir not dosyasına, elektronik tabloya, aracın kendisinin dışında herhangi bir yere kopyalayın. Çoğu araç, kolayca arama yapabileceğiniz bir biçimde oturumlar arasında istemleri sürdürmez. Aisonggen'in müzik kütüphanesi, üretim geçmişinizi ve her parçayı üreten istemleri otomatik olarak kaydeder; bu da bunları kendiniz ne kadar yönetmeniz gerektiğini azaltır, ancak en iyi sonuçlarınızı üreten istemlerin kendi kopyasını tutmaya değer.

İşe yarayan her parça için iki şey kaydedin: kullandığınız tür-ruh hali etiketi kombinasyonu ve üretici hissettiren herhangi bir duruş ifadesi. On veya on beş parça üzerinden örüntüler ortaya çıkar — yaratıcı aralığınıza uyan etiket kombinasyonlarını ve tutarlı biçimde saklı tutmaya değer bir şey üreten ifadeleri bulacaksınız. Bu günlük herhangi bir rehberden daha değerlidir, bunu dahil.

Kendi iş akışınıza taahhütte bulunmadan önce başkalarının üreticiyi nasıl kullandığını görmek istiyorsanız, incelemeler sayfası gerçek kullanıcıların farklı türlere ve kullanım senaryolarına nasıl yaklaştığını gösterir.

Amaç müzik üretmek değildir. Müzik üretmek artık kolay kısmıdır — herkes butona basabilir. Amaç şarkı yazmaktır. Bir bakış açısına, belirli bir duygusal merkeze, sonunu hak eden bir yapıya sahip şarkılar. Yapay zeka prodüksiyon katmanıdır: düzenleme, karışım, ses konularını halleder. Yazmayı hâlâ siz yapmanız gerekiyor. Bunu isteme ne kadar getirirseniz, çıktıda o kadar az eksik duyarsınız.

Yapay zeka müziği gibi duyulmayan yapay zeka müziği nasıl yapılır

Gerçekten ne tür bir şarkı istediğinize karar verin

1. Adım: bir doku değil, bir duruş tanımlayan istem yazın

2. Adım: alternatifleri karşılaştırmanıza olanak tanıyan bir üretici seçin

3. Adım: önce sözlerinizi yazın veya birlikte yazın

4. Adım: stil kontrollerini bilinçli olarak seçin

5. Adım: render edin, sonra sahip olduğunuz en kötü hoparlörde dinleyin

6. Adım: cover yapın, yeniden render edin veya durdurun

Yaygın hatalar

İşe yarayan ilk parçadan sonra

Okumaya devam edin

Remix gibi duyulmayan yapay zeka cover şarkıları nasıl yapılır

Metin-konuşma dönüşümünü ödev okuyan bir robot gibi duyulmaktan çıkarmak için nasıl kullanılır

Bir parçayı gerçekten yerinden oynatan şarkı yazımı prompt'ları

Bir sonraki parçanız bir ücretsiz prompt uzakta