رئيس التحرير
عصام كامل

Gemini 3.1 Flash TTS، نموذج جديد من جوجل يرفع جودة الصوت بالذكاء الاصطناعي

جوجل تطلق Gemini
جوجل تطلق Gemini 3.1 Flash TTS، فيتو
18 حجم الخط

كشفت جوجل عن إصدارها الأحدث Gemini 3.1 Flash TTS، وهو نموذج متطور لتحويل النص إلى كلام، يركز على تقديم صوت أكثر واقعية مع أدوات تحكم دقيقة تتيح للمستخدمين توجيه الأداء الصوتي بشكل احترافي.

 

Gemini 3.1 Flash TTS.. نقلة في جودة الصوت الاصطناعي

يمثل النموذج الجديد Gemini 3.1 Flash TTS تطورًا ملحوظًا في مستوى جودة الصوت، حيث أصبح أقرب إلى النطق البشري من حيث النبرة والتعبير.

وبحسب بيانات تقييم “Artificial Analysis”، سجل النموذج أداءً قويًا يعكس تفضيل المستخدمين له مقارنة بإصدارات سابقة، خاصة من حيث الوضوح والتفاعل الصوتي.

كما يجمع النموذج بين الأداء العالي والتكلفة المنخفضة، ما يجعله خيارًا مناسبًا لتطبيقات الذكاء الاصطناعي على نطاق واسع.

إتاحة تدريجية للمطورين والشركات

بدأت جوجل طرح النموذج بشكل تجريبي عبر عدة منصات، تشمل واجهة Gemini API ومنصة Google AI Studio للمطورين، إضافة إلى Vertex AI لقطاع الأعمال، فضلًا عن دمجه في خدمة Google Vids ضمن حزمة Workspace.

أحد أبرز الابتكارات في هذا الإصدار هو إدخال “الوسوم الصوتية”، التي تسمح بالتحكم في طريقة الإلقاء عبر أوامر نصية بسيطة، ويمكن للمستخدم تحديد سرعة الكلام، ونبرة الصوت، وحتى الأسلوب التعبيري، مباشرة داخل النص.

وتتيح هذه الميزة بناء مشاهد صوتية متكاملة، من خلال تحديد بيئة الحوار وتوجيه الشخصيات، ما يساعد على إنتاج محتوى صوتي غني وأكثر تفاعلية.


يتميز النموذج أيضًا بقدرته على إدارة حوارات تضم أكثر من متحدث بشكل طبيعي، مع إمكانية تخصيص صوت مستقل لكل شخصية من حيث اللهجة والنبرة، كما يمكن تغيير أسلوب الأداء داخل الجملة الواحدة، ما يعزز واقعية التجربة الصوتية.

 

أكثر من 70 لغة لتجربة عالمية

يدعم Gemini 3.1 Flash TTS أكثر من 70 لغة، مع تحسينات ملحوظة في التحكم في اللهجات والإيقاع، وهو ما يمنح المطورين القدرة على إنشاء محتوى صوتي مخصص لمستخدمين من ثقافات وأسواق مختلفة.


يوفر النموذج بيئة متقدمة تتيح للمطورين تصميم التجربة الصوتية كما لو كانوا “مخرجين”، حيث يمكن إعداد الشخصيات وتحديد سلوكها الصوتي، ثم تصدير هذه الإعدادات ككود برمجي لضمان ثبات الأداء عبر التطبيقات المختلفة.

 

حماية المحتوى باستخدام تقنية SynthID

ضمن جهود الحد من إساءة استخدام الذكاء الاصطناعي، أكدت جوجل أن جميع المقاطع الصوتية المنتجة عبر النموذج تحمل علامة مائية رقمية غير مرئية باستخدام تقنية SynthID، ما يسهل التعرف على المحتوى المُولد آليًا.

الجريدة الرسمية