الذكاء الاصطناعي aiجوجل

نموذج Gemini 3.1 Flash TTS لتحويل النص إلى صوت بذكاء وتحكم غير مسبوق رسميًا!

جوجل تُطلق Gemini 3.1 Flash TTS: نقلة نوعية في تحويل النص إلى صوت بذكاء وتحكم غير مسبوق!

أعلنت جوجل عن إطلاق نموذجها الجديد Gemini 3.1 Flash TTS، في خطوة تعكس تسارع استثماراتها في تقنيات الذكاء الاصطناعي الصوتي. ويأتي هذا النموذج ضمن عائلة Gemini 3.1 Flash Audio، مع تركيز واضح على جودة الصوت، مرونة التحكم، وقابلية التوسع لتلبية احتياجات المطورين والشركات.

نموذج متقدم مبني على Gemini 3 Pro

يعتمد Gemini 3.1 Flash TTS على بنية Gemini 3 Pro، وتم تصميمه خصيصًا لتحويل النصوص إلى صوت طبيعي وواقعي.

قدرات النموذج:

  • إدخال نصوص حتى 16 ألف Token
  • إخراج صوتي حتى 32 ألف Token

كما توفر جوجل إصدارًا أكثر تقدمًا تحت اسم Flash Live يدعم:

  • إدخال متعدد الوسائط (صوت، صور، فيديو، نص) حتى 128 ألف Token
  • إخراج صوت ونص حتى 64 ألف Token

ما يجعله مناسبًا للتجارب التفاعلية المعقدة والتطبيقات متعددة الوسائط.

جودة صوت تنافسية وأداء متوازن

يحقق النموذج قفزة ملحوظة في جودة الصوت، حيث:

  • يقدم صوتًا طبيعيًا أكثر تعبيرًا
  • سجل تقييم 1211 على مقياس Elo في منصة Artificial Analysis

كما تم تصنيفه ضمن النماذج التي تحقق توازنًا مثاليًا بين الجودة والتكلفة، وهو عنصر حاسم لتطبيقات الإنتاج واسعة النطاق.

تحكم متقدم عبر “Audio Tags”

من أبرز نقاط القوة في Gemini 3.1 Flash TTS هي أدوات التحكم الدقيقة، حيث يمكن:

  • تحديد نبرة الصوت وأسلوب الإلقاء
  • التحكم في سرعة الكلام والتعبير
  • إدراج أوامر مباشرة داخل النص لتوجيه الأداء الصوتي

وهذا يفتح المجال لإنشاء تجارب صوتية مخصصة بدقة عالية.

دعم المحادثات متعددة الأصوات

يوفر النموذج إمكانيات متقدمة لإنشاء حوارات صوتية واقعية، تشمل:

  • دعم أكثر من متحدث داخل نفس المقطع
  • تخصيص خصائص صوتية مستقلة لكل شخصية
  • الحفاظ على اتساق السلوك الصوتي عبر الحوار

كما يدعم ما يُعرف بـ توجيه المشهد (Scene Direction) لضبط سياق التفاعل.

مرونة داخل الجملة نفسها

يتيح النموذج أيضًا:

  • تغيير أسلوب الصوت داخل نفس الجملة
  • استخدام أوامر مدمجة لضبط التعبير بشكل لحظي

وهي ميزة مهمة لإنشاء محتوى صوتي ديناميكي مثل القصص أو الإعلانات.

أدوات احترافية للمطورين

توفر Google بيئة تطوير متكاملة تشمل:

  • Google AI Studio للتحكم التفصيلي في الصوت
  • Gemini API لتصدير الإعدادات واستخدامها داخل التطبيقات

ما يمنح المطورين مرونة كبيرة في بناء حلول صوتية متقدمة.

دعم لغوي واسع وانتشار عالمي

  • يدعم أكثر من 70 لغة
  • يوفر تخصيصًا محليًا لكل لغة
  • مصمم للعمل على نطاق عالمي عبر مختلف الاستخدامات

حماية المحتوى عبر SynthID

يعتمد النموذج على تقنية SynthID، والتي:

  • تضيف علامة مائية رقمية داخل الصوت
  • تُمكّن من التعرف على المحتوى المُنشأ بالذكاء الاصطناعي
  • تساعد في الحد من إساءة الاستخدام

التوفر

بدأ طرح Gemini 3.1 Flash TTS بنسخة تجريبية، وهو متاح عبر:

  • للمطورين: من خلال Gemini API وGoogle AI Studio
  • للشركات: عبر Vertex AI
  • للمستخدمين: ضمن Google Workspace عبر Google Vids

يمثل Gemini 3.1 Flash TTS خطوة متقدمة نحو تجارب صوتية أكثر واقعية وذكاءً، حيث يجمع بين جودة عالية، تحكم دقيق، ودعم واسع للغات، إلى جانب أدوات تطوير قوية.

ومع هذا الإطلاق، تواصل Google ترسيخ مكانتها في سباق الذكاء الاصطناعي، خاصة في مجال الصوت التفاعلي الذي يُتوقع أن يشهد نموًا كبيرًا خلال الفترة القادمة.

المصدر

زر الذهاب إلى الأعلى