نظام لتحويل “النص إلى كلام” قادر على تقليد الصوت البشري بدقة ولحظياً

أعلنت شركة “بايدو” الصينية عن إطلاق الجيل الثاني لنظام تحويل النص لكلام التابع لها “ديب فويس”، وذلك بعد ثلاثة أشهر فقط من إطلاق الجيل الأول.

ليأتي “ديب فويس 2” مع تحسينات كبيرة تُبشر بمساعدات رقمية تتفاعل مع المستخدمين كما لو كانت أناس حقيقيين.

وكانت “بايدو” قد أطلقت في شهر شباط الماضي “ديب فويس 1″، وهو نظام لتوليد الأصوات البشرية الاصطناعية تماماً باستخدام الشبكات العصبية العميقة.

وقالت “بايدو” إنّه وعلى عكس أنظمة تحويل النص إلى كلام العصبية البديلة، عمل “ديب فويس 1” بالوقت الحقيقي، إذ يُجمِّع الصوت بأسرع ما يمكن لتشغيله.

وهذا ما يجعله قابلاً للاستخدام في التطبيقات التفاعلية مثل الإعلام وواجهات المحادثة، مثل المساعدات الرقمية.

ومن خلال تدريب الشبكات العصبية العميقة القادرة على التعلم من البيانات والميزات البسيطة، أنشأت نظاماً مرناً بشكلٍ لا يصدق لتوليف صوت عالي الجودة بالوقت الحقيقي.

ومع أن نظام “ديب فويس 1” كان قادراً على إنتاج كلام لا يمكن تمييزه تقريباً من صوت الإنسان الفعلي في أول استماع.

إلا أن قدرات النظام كانت محدودة بالتعلم من صوتٍ واحد فقط في المرة الواحدة، ويتطلب ساعات طويلة من الصوت لبناء عينة.

أما “ديب فويس 2”، وبثلاثة أشهر، تمّ توسيع نطاقه من 20 ساعة كلام وصوت واحد لمئات الساعات والمئات من الأصوات مع القدرة على تقليدها تماماً.

هذا بالإضافة إلى قدرة النظارة على التعلم من مئات الأصوات الفريدة في أقل من نصف ساعة من البيانات لكل متكلم مع تحقيق جودة صوت عالية.

وأوضحت الشركة أن “ديب فويس 2” قادر على التعلم لتوليد خطاب من خلال إيجاد الصفات المشتركة بين الأصوات المختلفة.

وعلى عكس جميع أنظمة تحويل النص لكلام السابقة، يتعلم “ديب فويس 2” هذه الصفات من الصفر، دون أيّ توجيه بشأن ما يجعل الأصوات قابلة للتمييز.

سنمار الإخباري