الذكاء الاصطناعي الذي دعا VALL-E يحتاج إلى 3 ثوان لتقليد صوت أي شخص

شبكة الرؤية الإخبارية المصرية:- أظهرت Microsoft أن الذكاء الاصطناعي يمكنه تقليد أي صوت بشري. تسمى VALL-E ، تمامًا مثل خوارزمية DALL-E السابقة. إذا كنت تعلم، فإن الأخير ينشئ صورة بناءً على نص.

الذكاء الاصطناعي الذي دعا VALL-E يحتاج إلى 3 ثوان لتقليد صوت أي شخص|||
|||

يمكن لـ VALL-E تقليد الجرس وطريقة الكلام من خلال الاستماع إلى صوت شخص حقيقي في ثلاث ثوانٍ فقط. على الرغم من أن الصوت يشبه إلى حد ما صوت الروبوت، إلا أن النتيجة لا تزال مثيرة للإعجاب.

أطلقت عليه مايكروسوفت اسم “نموذج لغة الترميز العصبي”. تم إنشاء VALL-E على أساس EnCodec (برنامج ترميز صوتي يستخدم تقنيات التعلم الآلي) ، الذي طورته Meta قبل عام، في عام 2022.

 

VALL-E يقلد صوت أي شخص

تأخذ طرق تحويل النص إلى كلام الأخرى في الاعتبار أشكال الموجة. لكن VALL-E تنشئ برامج ترميز صوتية منفصلة عن النص والصوت.

في الواقع، يحلل كيف يبدو الشخص. بعد ذلك، يقوم بتقسيم هذه المعلومات إلى أجزاء منفصلة (تسمى “الرموز المميزة”) عبر EnCodec.

وفي النهاية، يستخدم بيانات التدريب لمطابقة ما “يعرفه” حول كيفية ظهور هذا الصوت إذا تحدث بعبارات أخرى خارج عينة الثلاث ثوانٍ.

تم تدريس VALL-E باستخدام خاص مكتبة. يحتوي الأخير على 60.000 ساعة من الكلام باللغة الإنجليزية لأكثر من 7000 شخص.

يقترح المطورون أنه يمكن استخدام الطريقة لتطبيقات تحويل النص إلى كلام عالية الجودة. على سبيل المثال، يمكنك استخدامه لتحرير تسجيلات الكلام حيث يُسمح بتغيير الكلمات البشرية.

نتيجة لذلك، يمكنك إنشاء محتوى صوتي (مثل التعليقات الصوتية للكتب الصوتية) والمزيد.

بالطبع، يمكن أن تحمل هذه التقنية أيضًا خطرًا معينًا. عاجلاً أم آجلاً ، سوف يجعل المستخدمون “أعوياء” من هذه الأداة أداة ابتزاز.