
أعلنت شركة شاومي رسميًا عن فتح المصدر لنموذجها الجديد لتحويل النص إلى صوت (TTS) باسم OmniVoice، والذي طوره فريق الذكاء الاصطناعي داخل مختبرات Xiaomi AI Lab.
ويهدف النموذج الجديد إلى تقديم تجربة متقدمة في توليد الأصوات واستنساخها، مع دعم واسع لمئات اللغات واللهجات، في خطوة تعكس توسع شاومي في مجال الذكاء الاصطناعي التوليدي.
دعم ضخم لمئات اللغات
أحد أبرز مزايا OmniVoice هو قدرته على دعم عدد هائل من اللغات، بما في ذلك اللغات ذات الموارد المحدودة، وهي اللغات التي تفتقر إلى بيانات تدريب كافية على الإنترنت.
وبحسب شاومي، يستطيع النموذج توليد صوت طبيعي في “تقريبًا أي لغة يمكن تخيلها”، مما يجعله واحدًا من أوسع نماذج تحويل النص إلى صوت من حيث التغطية اللغوية.
كما تؤكد الشركة أنه أول نموذج مفتوح المصدر لاستنساخ الأصوات يغطي مئات اللغات.
تفوق في الاختبارات متعددة اللغات
أوضحت شاومي أن النموذج حقق نتائج قوية خلال الاختبارات متعددة اللغات، حيث تفوق على عدة أنظمة تجارية في 24 لغة من حيث وضوح النطق وتشابه الصوت.
كما أظهرت الاختبارات عبر 102 لغة أن جودة الصوت الناتج كانت قريبة جدًا من الصوت البشري الحقيقي، بل وتفوقت عليه في بعض الحالات من حيث الوضوح.
استنساخ صوتي متقدم وتخصيص كامل
يتيح OmniVoice للمستخدمين إنشاء أصوات مخصصة فقط عبر وصفها نصيًا، مثل:
- العمر
- الجنس
- طبقة الصوت
- اللهجة
- أسلوب التحدث
كما يمكن للنموذج توليد أنماط صوتية مختلفة مثل الهمس والتعبيرات الخاصة دون الحاجة إلى ملف صوتي مرجعي.
معالجة ذكية للضوضاء
من الميزات العملية المهمة قدرة النموذج على إزالة الضوضاء تلقائيًا من التسجيلات الصوتية المستخدمة كمرجع، مما يساعد في استخراج الخصائص الصوتية بدقة أعلى وتحسين جودة استنساخ الصوت.
تعبيرات صوتية أكثر واقعية
يدعم النموذج التحكم في النبرة والتعبير الصوتي، بما يشمل:
- الضحك
- التنهد
- تغيير أسلوب الإلقاء
- التحكم في الانفعالات
وهو ما يجعل الصوت الناتج أكثر طبيعية وقربًا من المحادثات البشرية.
بنية أبسط وسرعة أعلى
تعتمد شاومي في نموذج OmniVoice على بنية مبسطة باستخدام شبكة Transformer ثنائية الاتجاه، بدلًا من الأنظمة المعقدة متعددة المراحل.
هذا التصميم ساعد على:
- تدريب النموذج على 100 ألف ساعة صوتية خلال يوم واحد
- تشغيله بسرعة تصل إلى 40 ضعف الزمن الحقيقي باستخدام PyTorch
ما يجعله أكثر كفاءة وأسهل في الدمج داخل التطبيقات والخدمات.
تحسين النطق ودقة الأسماء
يوفر النموذج أدوات يدوية لتصحيح النطق للكلمات المعقدة، بما يشمل:
- الكلمات متعددة النطق
- الأسماء الأجنبية
- المصطلحات الخاصة
وذلك لتحسين دقة المخرجات الصوتية في الاستخدامات الواقعية.
لماذا هذا مهم؟
فتح المصدر لنموذج مثل OmniVoice يمنح المطورين والشركات فرصة بناء تطبيقات صوتية متقدمة بسهولة أكبر، سواء في:
- المساعدات الذكية
- الكتب الصوتية
- الدبلجة
- إنشاء المحتوى
- الترجمة الصوتية
- خدمات الوصول لذوي الاحتياجات الخاصة
تواصل شاومي توسيع حضورها في مجال الذكاء الاصطناعي، وهذه المرة عبر نموذج صوتي متقدم قد يشكل منافسة قوية للحلول التجارية الحالية، خصوصًا مع دعمه الواسع للغات، وقدرات استنساخ الصوت، وسرعة الأداء العالية.





