مولد موسيقى AI المتقدم من Suno هو مثير للإعجاب تقنيًا ، لكنه لا يزال يحل

عندما لا تحاول يمنع حالات من علامة التسجيل الرئيسية ، لا تزال Sano تعمل على تحسين معدات بناء موسيقى AI. أحدث طراز ، Suno V5 ، هو تحسن فني واضح في نسخته السابقة ، v4.5+. ولكن قد لا يبدو أنه لا يتجنب العيب الذي يسبب معظم فن الذكاء الاصطناعي.

هناك بعض الترقية المتقاطعة في جودة الصوت بلا منازع ، مثل الفصل الواضح بين القطع الأثرية المنخفضة والمعدات. بعض المسارات التي تم إنتاجها باستخدام V4.5+ Smoage جميع الأجزاء اللحن في وقت واحد ، حيث تكون الخطوط بين الجيتار والباس والسينثا هي الأفضل. ولكن مع V5 ، فإن المزيج أكثر نظافة.

خلال عرض تجريبي ، أشار هنري فيبس ، مدير منتجات Sano ، إلى أغنية ، أنتجت نموذجًا تضمنت مجموعة شبيهة بالفلوت ، بدا وكأنه تأثير تأخر بينج بونج: “لم أسمع من قبل في النموذج السابق … وهو صوت مختلف يحتاج إلى إحياء أجزاء مختلفة.” نظرًا لأن Suno لا ينفذ التأثير بالمعنى التقليدي ، فهذا يعني أن النموذج يحدد جهازًا معينًا ويتوقع صوت تأخير ستيريو لأنه من المؤكد ما يبدو عليه.

لا يوجد حافة لأي غناء الشمس. كل شيء يستحم بتردد ، وذئاب ، وعلى أرض الملعب تمامًا. حتى لو طلبت بوضوح عدم القيام بهذه الأشياء ، فإن النموذج يتجاهلك فقط.

يدعي Sano أيضًا أن V5 لديه فهم أفضل للأناقة ، على الرغم من أن هذا الادعاء يبدو مشبوهًا من اختباري. مع بعض علاماتي مثل “Avant R&B الحديثة مع بريق ، ولكن الطبول غير التقليدية ، والأجزاء الشنيعة في الغلاف الجوي ، ونغمة التنفس” ، لا يشعر V5 أو V4.5+ بأنه كل ما فعلته ، كان فائزًا واضحًا في الوفاء بما فعلته تفكني، اقترب كلاهما ، مما أعطاني مسارًا للهدوء مع بعض الحوض المزاجي ، لكنهما كان لديهم نقص في الغريب الذي كنت أتوقعه.

لم يكن من الممكن أن يقترح Sano أنه تم تسجيله على مسجل كاسيت 4 مسار مع صخرة إندي منخفضة في التسعينيات ، والتي كانت مع غناء كبير وخرج قليلاً من الجيتار “مع إما مع أي منهما ، كان من المرتبطة بالضوضاء الفضفاضة. مائل وفتت لم يتم العثور عليها في أي مكان. بدلاً من ذلك ، حصلت على تفجير صخري “Indie” مع الحكام المكتنزة وحبل الطاقة النظيف. واصل Suno V5 تقديم الأغاني التي تشبه القرود في القطب الشمالي مقارنة بأي شيء صدر قبل نهاية القرن.

وبالمثل ، في اختباري ، بدا أن V5 تكافح عدة مرات من أجل الصراع مع العصر العصر أو العلامات الخاصة بالعقد. عندما طلبت “Crocrocrock في أواخر السبعينيات” ، v4.5+ في الأصل الأظافر من الغناء (لاحقًا). لكن V5 غالبًا ما يوزع syntapops المشبعة والمسارات في الثمانينيات المحددة لتبدو أكثر حداثة ، حتى لو كان لديهم بعض الحمض النووي الكلاسيكي.

ما أود قوله هو أن نظام صنع نماذج Suno V5 معقدة للغاية. بالمقارنة مع V4.5+، فإن الفواكه الموسيقية الأكثر موحدة تمنع الأشياء من الحصول على الكثير من التكرار وهياكل الأغاني الأكثر تنوعًا. عندما يحتوي V4.5+ عادةً على مواد للالتزام بهيكل الموجة الأساسية للقصيدة (مع جسر لتدابير جيدة) ، فإن V5 غالبًا ما يكون له كارات مسبقة ، أو العديد من الجسور أو الأعطال ، وعادة ما تصنع على مدار المسار الذي يوفر أقواس أكثر من الفصول المختلفة فقط.

في بعض الأحيان يتم إعطاء نتائج مثيرة للاهتمام أثناء إعادة تعزيز المسارات الحالية. لقد قمت بتحميل أغنية من EP تم إصدارها قبل بضع سنوات (والتي ربما كان ينبغي تعزيزها إلى مرشح حقوق الطبع والنشر الخاصة بي) ونظرت ، أنا لا أكذب ، لقد أحببتها بالطريقة التي تنقل بها أجزاء من جيتاري إلى شكل توليف متكرر وأحولت وسادات الحبل الكبيرة إلى Arpeggios.

لكن ما كان مفقودًا في كل أغلفة أغنيتي ، والتي طلبت أن تصنع Suno مسجل في غرفة المعيشة الخاصة بي في الساعة 3 منذ حوالي ست سنوات. وهذا نوع من الموضوع الجري. في حين أن Suno يمكن أن يحاكي بعض الخصائص السطحية للأداء البشري مثل التسجيل القديم أو الشريط الظهر أو التنفس ، إلا أنه يبدو دائمًا غير إنساني.

يفترض Phipps أنهم لم يسمعوا العيوب الفريدة للأداء البشري الحقيقي للنموذج الصوتي. في رسالته الأولية حول V5 ، قام Suno بتأجيل “حرف العلة العاطفي” و “العمق الذي يشبه الإنسان” ، لكن هذا التنقيب غائب الآن عن أي مادة متعلقة بالجمهور. بدلاً من ذلك ، اختارت الشركة الآن وصف الغناء بأنه “طبيعي ، أصيل” ، والذي يتبع تغييرات في “اختيار الأسلوب”.

ولكن حتى يبدو وكأنه امتداد. بينما ، نعم ، تشعر حروف العلة ببشر أكثر من V4.5+، فهي لا تزال قاسية. ذكرت Phipps أنه “عندما نعتبر صوتًا من Suno (v4.5) مسطحًا عاطفيًا ، أعتقد أنه فقط لأنه مجرد بعض التفاصيل التي تمنحها لتلك الحافة” ، وأن الولاء العالي لنموذج V5 يوزع تلك التفاصيل.

من الصعب المجادلة مع الجوانب الفنية لهذا الادعاء – العروض الصوتية أكثر واسعة – لكنها لا تزال مؤلمة. يبدو أن كل روك يبدو وكأنه صوتي تخيل Dragon أو Mamford & Sons ، كل أغنية R&B مثل Sleepwalking Edel أو Ariana Grande بدون جاذبية.

لا يوجد حافة لأي غناء الشمس. كل شيء يستحم بتردد ، وذئاب ، وعلى أرض الملعب تمامًا. حتى لو طلبت بوضوح عدم القيام بهذه الأشياء ، فإن النموذج يتجاهلك فقط. سألت V5 “منفردة عاطفية غير مجهزة مع أداء صوتي للإناث Capele دون أي تردد ، لا وئام ، لا تأثير ، فقط طلبت لهجة جافة.” تم استحمام الأغاني التي تم تقديمها لها في تردد ، والتي تضمنت مغنيين إضافيين يوصون مع الأول ، وبدا واحدة واحدة وكأنها sangat باس. (على الرغم من أنه يمكن أن يكون صوت باس يقدر.) لكن Phipps لم يفاجأ. وقال: “لا تفهم النماذج بعد تفاصيل التأثيرات المحددة وتقنيات التسجيل. الطريقة التي يتأثر بها الأداء الصوتي بالأغنية والمزاج العادي”.

لذلك ، أطعمت الأغاني التي كانت الآن! يختلف عن الحجر المتداول “مأوى Gimmeو حقوق الطبع والنشر لتجنب العلم للانتهاكات. في الفرشاة الأولى ، بدا أن هناك جميع العناصر التي تجعل الأصل مدمراً للغاية. تصرخ مغنية قوية على نظام كامل وحزين ، ولكن كان كل هذا التأثير العاطفي لكتاب أسنان.

عندما أستمع إلى “Gimme Shelter” ،و هذه هي طريق ماري كلايتون تشققات الصوت عندما “اغتصاب وقتل” أثناء الجسر ، مما يجعلني أخنقني. هذا هو روبرت سميث تماما -من -الأتور.لماذا لا يمكنك أن تكون“وقبل أن أعطت السطر الأخير في السطر الأخير” “قبل أن يتنفس كورت كوبين في التنفس” مباشرة “أين نمت الليلة الماضية“يخبرك أنه رجل يكافح مع شياطين حقيقيين.

بشكل عام ، تحاول Suno جعل الصوت “سيئًا” – من النغمة ، المفتاح الخام ، المغلق ، القذر – كان غير مثمر. كل أشياء الشركة حول كيفية ظهور صوت النموذج “الطبيعي” الجديد الذي يؤدي إلى العيوب التي تؤدي غالبًا إلى الوزن العاطفي للأداء. ما زال المطران الظاهريون في سانو مختلفون. يمكن أن يفهم النموذج V5 أن أغنية معينة يجب أن تكون غير سعيدة ، ولكن ليس لها علاقة عاطفية حقيقية بالكلمات ، لأنها كومة من الكود ، وليس الفنان.

اتبع الموضوعات والكتاب لمشاهدة المزيد في تغذية صفحتك الرئيسية من هذه القصة والحصول على تحديثات البريد الإلكتروني.


رابط المصدر

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *