نموذج GPT-Realtime-2 من OpenAI يصل رسميًا بمزايا خرافية!

شركة OpenAI تطلق GPT-Realtime-2 ونماذج صوتية جديدة لتحويل الذكاء الاصطناعي إلى تفاعل صوتي فوري متكامل!

غيث08/05/2026

أعلنت شركة OpenAI عن إطلاق جيل جديد من نماذج الصوت عبر واجهة البرمجة (API)، يهدف إلى نقل الذكاء الاصطناعي إلى مستوى أكثر تقدمًا من التفاعل الصوتي الفوري، بحيث لا يقتصر على الردود التقليدية، بل يصبح قادرًا على الفهم، التحليل، الترجمة، وتنفيذ المهام أثناء المحادثة بشكل لحظي.

وتشمل الإصدارات الجديدة ثلاثة نماذج رئيسية:
GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper، والتي تمثل خطوة مهمة نحو تطوير أنظمة صوتية تعمل كمساعدين أذكياء متكاملين.

أولًا: GPT-Realtime-2.. جيل جديد من الذكاء الصوتي الفوري

يُعد نموذج GPT-Realtime-2 الأكثر تطورًا في السلسلة، حيث يأتي بقدرات تفكير على مستوى GPT-5 موجهة خصيصًا للاستخدام الصوتي المباشر.

ويستهدف النموذج سيناريوهات تتطلب استجابة فورية مع استمرار الحوار دون انقطاع، حيث يمكنه التفكير والتنفيذ واستخدام الأدوات في نفس الوقت.

أبرز القدرات:

معالجة الطلبات الصوتية متعددة الخطوات في الوقت الفعلي
الحفاظ على سياق المحادثة بشكل مستمر
تنفيذ الأدوات أثناء الحوار دون قطع المحادثة
دعم عبارات طبيعية أثناء المعالجة مثل “لحظة من فضلك”
تنفيذ عمليات متوازية مع شفافية صوتية (مثل “جاري التحقق من التقويم”)
تحسين آلية التعامل مع الأخطاء واستكمال الحوار بشكل طبيعي
توسيع نافذة السياق إلى 128 ألف رمز
فهم أفضل للمصطلحات التقنية والأسماء الخاصة
دعم نبرات صوتية مختلفة (هادئ، متعاطف، نشط)
مستويات تفكير قابلة للتخصيص من منخفض إلى مرتفع جدًا

كما حقق النموذج تحسينات أداء ملحوظة، أبرزها:

+15.2% في اختبارات الفهم الصوتي
+13.8% في اتباع التعليمات الصوتية

ثانيًا: GPT-Realtime-Translate.. ترجمة صوتية فورية

يقدم هذا النموذج تجربة تواصل متعددة اللغات في الوقت الفعلي، حيث يقوم بترجمة الكلام مباشرة أثناء الحديث مع الحفاظ على المعنى وسلاسة الإيقاع.

المميزات الأساسية:

دعم أكثر من 70 لغة إدخال
إخراج الترجمة إلى 13 لغة
ترجمة فورية أثناء الكلام
عرض نصي مباشر (Transcription) بالتوازي مع الترجمة
التعامل مع اللهجات وتغيرات النطق
الحفاظ على السياق أثناء المقاطعات الطبيعية

استخدامات مهمة:

دعم العملاء متعدد اللغات
التعليم والتدريس
الاجتماعات الدولية
المحتوى الإعلامي والبث المباشر

ثالثًا: GPT-Realtime-Whisper.. تحويل الصوت إلى نص لحظيًا

يعد هذا النموذج تطويرًا مباشرًا لتقنيات التعرف على الكلام، حيث يقوم بتحويل الصوت إلى نص بشكل فوري أثناء التحدث.

أبرز الخصائص:

تحويل الكلام إلى نص لحظيًا
بث تسميات (Captions) بزمن منخفض جدًا
فهم مستمر للمحادثات المباشرة
مناسب للتطبيقات التفاعلية السريعة

حالات الاستخدام:

تلخيص الاجتماعات
التعليم والمحاضرات
البث المباشر
مراكز الدعم الفني
الرعاية الصحية والتوظيف

الذكاء الصوتي كواجهة مستقبلية

تؤكد OpenAI أن الصوت أصبح واحدًا من أهم أساليب التفاعل مع الأنظمة الذكية، لأنه يسمح بإنجاز المهام دون الحاجة إلى الكتابة، مثل طلب المساعدة أثناء القيادة أو إدارة المهام أثناء التنقل.

لكن الشركة تشير إلى أن تطوير أنظمة صوتية فعالة يتطلب أكثر من السرعة، بل يحتاج إلى:

فهم نية المستخدم
الحفاظ على سياق المحادثة
تنفيذ المهام أثناء الحوار
التعامل مع الانقطاعات بسلاسة
الاستجابة وفقًا للسياق والنبرة

أنماط استخدام جديدة للذكاء الصوتي

طرحت OpenAI ثلاث توجهات رئيسية لتطبيقات الصوت:

Voice-to-action: تنفيذ المهام مباشرة من الأوامر الصوتية
Systems-to-voice: تحويل بيانات الأنظمة إلى إرشادات صوتية
Voice-to-voice: ترجمة وتواصل صوتي مباشر بين المستخدمين

الأمان والتوافر

تتضمن المنصة أنظمة مراقبة لحظية تمنع الاستخدامات الضارة، مع أدوات إضافية للمطورين لضبط الأمان، بالإضافة إلى التزام بسياسات الخصوصية ودعم الامتثال الإقليمي.

كما أن النماذج متاحة حاليًا عبر واجهة Realtime API بأسعار مختلفة حسب نوع النموذج، مع إمكانية تجربتها من خلال بيئة التطوير الخاصة بـ OpenAI.

يمثل هذا الإطلاق خطوة مهمة نحو مستقبل يعتمد على الذكاء الصوتي التفاعلي، حيث يتحول الذكاء الاصطناعي من مجرد مساعد نصي إلى نظام قادر على الحوار، التفكير، والتنفيذ في الوقت الحقيقي.

المصدر

الوسوم