شاومي تفتح المصدر لنموذج OmniVoice الجديد.. استنساخ صوتي ودعم مئات اللغات بالذكاء الاصطناعي

غيث09/05/2026

أعلنت شركة شاومي رسميًا عن فتح المصدر لنموذجها الجديد لتحويل النص إلى صوت (TTS) باسم OmniVoice، والذي طوره فريق الذكاء الاصطناعي داخل مختبرات Xiaomi AI Lab.

ويهدف النموذج الجديد إلى تقديم تجربة متقدمة في توليد الأصوات واستنساخها، مع دعم واسع لمئات اللغات واللهجات، في خطوة تعكس توسع شاومي في مجال الذكاء الاصطناعي التوليدي.

دعم ضخم لمئات اللغات

أحد أبرز مزايا OmniVoice هو قدرته على دعم عدد هائل من اللغات، بما في ذلك اللغات ذات الموارد المحدودة، وهي اللغات التي تفتقر إلى بيانات تدريب كافية على الإنترنت.

وبحسب شاومي، يستطيع النموذج توليد صوت طبيعي في “تقريبًا أي لغة يمكن تخيلها”، مما يجعله واحدًا من أوسع نماذج تحويل النص إلى صوت من حيث التغطية اللغوية.

كما تؤكد الشركة أنه أول نموذج مفتوح المصدر لاستنساخ الأصوات يغطي مئات اللغات.

تفوق في الاختبارات متعددة اللغات

أوضحت شاومي أن النموذج حقق نتائج قوية خلال الاختبارات متعددة اللغات، حيث تفوق على عدة أنظمة تجارية في 24 لغة من حيث وضوح النطق وتشابه الصوت.

كما أظهرت الاختبارات عبر 102 لغة أن جودة الصوت الناتج كانت قريبة جدًا من الصوت البشري الحقيقي، بل وتفوقت عليه في بعض الحالات من حيث الوضوح.

استنساخ صوتي متقدم وتخصيص كامل

يتيح OmniVoice للمستخدمين إنشاء أصوات مخصصة فقط عبر وصفها نصيًا، مثل:

العمر
الجنس
طبقة الصوت
اللهجة
أسلوب التحدث

كما يمكن للنموذج توليد أنماط صوتية مختلفة مثل الهمس والتعبيرات الخاصة دون الحاجة إلى ملف صوتي مرجعي.

معالجة ذكية للضوضاء

من الميزات العملية المهمة قدرة النموذج على إزالة الضوضاء تلقائيًا من التسجيلات الصوتية المستخدمة كمرجع، مما يساعد في استخراج الخصائص الصوتية بدقة أعلى وتحسين جودة استنساخ الصوت.

تعبيرات صوتية أكثر واقعية

يدعم النموذج التحكم في النبرة والتعبير الصوتي، بما يشمل:

الضحك
التنهد
تغيير أسلوب الإلقاء
التحكم في الانفعالات

وهو ما يجعل الصوت الناتج أكثر طبيعية وقربًا من المحادثات البشرية.

بنية أبسط وسرعة أعلى

تعتمد شاومي في نموذج OmniVoice على بنية مبسطة باستخدام شبكة Transformer ثنائية الاتجاه، بدلًا من الأنظمة المعقدة متعددة المراحل.

هذا التصميم ساعد على:

تدريب النموذج على 100 ألف ساعة صوتية خلال يوم واحد
تشغيله بسرعة تصل إلى 40 ضعف الزمن الحقيقي باستخدام PyTorch

ما يجعله أكثر كفاءة وأسهل في الدمج داخل التطبيقات والخدمات.

تحسين النطق ودقة الأسماء

يوفر النموذج أدوات يدوية لتصحيح النطق للكلمات المعقدة، بما يشمل:

الكلمات متعددة النطق
الأسماء الأجنبية
المصطلحات الخاصة

وذلك لتحسين دقة المخرجات الصوتية في الاستخدامات الواقعية.

لماذا هذا مهم؟

فتح المصدر لنموذج مثل OmniVoice يمنح المطورين والشركات فرصة بناء تطبيقات صوتية متقدمة بسهولة أكبر، سواء في:

المساعدات الذكية
الكتب الصوتية
الدبلجة
إنشاء المحتوى
الترجمة الصوتية
خدمات الوصول لذوي الاحتياجات الخاصة

تواصل شاومي توسيع حضورها في مجال الذكاء الاصطناعي، وهذه المرة عبر نموذج صوتي متقدم قد يشكل منافسة قوية للحلول التجارية الحالية، خصوصًا مع دعمه الواسع للغات، وقدرات استنساخ الصوت، وسرعة الأداء العالية.

المصدر

الوسوم

غيث09/05/2026

دعم ضخم لمئات اللغات

تفوق في الاختبارات متعددة اللغات

استنساخ صوتي متقدم وتخصيص كامل

معالجة ذكية للضوضاء

تعبيرات صوتية أكثر واقعية

بنية أبسط وسرعة أعلى

تحسين النطق ودقة الأسماء

لماذا هذا مهم؟

اقرا أيضاً ...

شاومي مي مكس فولد 5 – Xiaomi Mix Fold 5 قادم بشاشة متطورة وكاميرا 200 ميجابكسل لكن بسعر أعلى

هايبر او اس 4 – HyperOS 4 كشف تفاصيل هامة حول تحديث شاومي القادم!

ريدمي نوت 17 – Redmi Note 17 كشف تغييرات كبيرة في سلسلة الهواتف الأكثر مبيعًا من شاومي

شاومي تعيد تصميم مشغل النظام في واجهة HyperOS وتكشف عن تحسينات بصرية وتقنية متقدمة هامة للغاية

شاومي 18 برو سيحصل على ترقية كبيرة في الشاشة الخلفية مع تحسينات غير مسبوقة في التجربة البصرية!

شاومي 18 برو ماكس Xiaomi 18 Pro Max يقترب بقوة مع كاميرا قد تعيد تعريف التصوير المحمول