Gemini 3.1 Flash TTS، نموذج جديد من جوجل يرفع جودة الصوت بالذكاء الاصطناعي

الأربعاء 15/أبريل/2026 - 07:54 م

18 حجم الخط

كشفت جوجل عن إصدارها الأحدث Gemini 3.1 Flash TTS، وهو نموذج متطور لتحويل النص إلى كلام، يركز على تقديم صوت أكثر واقعية مع أدوات تحكم دقيقة تتيح للمستخدمين توجيه الأداء الصوتي بشكل احترافي.

Gemini 3.1 Flash TTS.. نقلة في جودة الصوت الاصطناعي

يمثل النموذج الجديد Gemini 3.1 Flash TTS تطورًا ملحوظًا في مستوى جودة الصوت، حيث أصبح أقرب إلى النطق البشري من حيث النبرة والتعبير.

وبحسب بيانات تقييم “Artificial Analysis”، سجل النموذج أداءً قويًا يعكس تفضيل المستخدمين له مقارنة بإصدارات سابقة، خاصة من حيث الوضوح والتفاعل الصوتي.

كما يجمع النموذج بين الأداء العالي والتكلفة المنخفضة، ما يجعله خيارًا مناسبًا لتطبيقات الذكاء الاصطناعي على نطاق واسع.

Today we launched Gemini 3.1 Flash TTS, our most expressive and controllable text-to-speech model yet.

This launch [excitement] includes audio tags! 🗣🏷 Audio tags [explanatory] are a seamless way to guide vocal style, pace, and delivery using natural language commands embedded… pic.twitter.com/hNeHreY7N3
— Google AI (@GoogleAI) April 15, 2026

إتاحة تدريجية للمطورين والشركات

بدأت جوجل طرح النموذج بشكل تجريبي عبر عدة منصات، تشمل واجهة Gemini API ومنصة Google AI Studio للمطورين، إضافة إلى Vertex AI لقطاع الأعمال، فضلًا عن دمجه في خدمة Google Vids ضمن حزمة Workspace.

أحد أبرز الابتكارات في هذا الإصدار هو إدخال “الوسوم الصوتية”، التي تسمح بالتحكم في طريقة الإلقاء عبر أوامر نصية بسيطة، ويمكن للمستخدم تحديد سرعة الكلام، ونبرة الصوت، وحتى الأسلوب التعبيري، مباشرة داخل النص.

وتتيح هذه الميزة بناء مشاهد صوتية متكاملة، من خلال تحديد بيئة الحوار وتوجيه الشخصيات، ما يساعد على إنتاج محتوى صوتي غني وأكثر تفاعلية.

يتميز النموذج أيضًا بقدرته على إدارة حوارات تضم أكثر من متحدث بشكل طبيعي، مع إمكانية تخصيص صوت مستقل لكل شخصية من حيث اللهجة والنبرة، كما يمكن تغيير أسلوب الأداء داخل الجملة الواحدة، ما يعزز واقعية التجربة الصوتية.

أكثر من 70 لغة لتجربة عالمية

يدعم Gemini 3.1 Flash TTS أكثر من 70 لغة، مع تحسينات ملحوظة في التحكم في اللهجات والإيقاع، وهو ما يمنح المطورين القدرة على إنشاء محتوى صوتي مخصص لمستخدمين من ثقافات وأسواق مختلفة.

يوفر النموذج بيئة متقدمة تتيح للمطورين تصميم التجربة الصوتية كما لو كانوا “مخرجين”، حيث يمكن إعداد الشخصيات وتحديد سلوكها الصوتي، ثم تصدير هذه الإعدادات ككود برمجي لضمان ثبات الأداء عبر التطبيقات المختلفة.

حماية المحتوى باستخدام تقنية SynthID

ضمن جهود الحد من إساءة استخدام الذكاء الاصطناعي، أكدت جوجل أن جميع المقاطع الصوتية المنتجة عبر النموذج تحمل علامة مائية رقمية غير مرئية باستخدام تقنية SynthID، ما يسهل التعرف على المحتوى المُولد آليًا.

Gemini 3 1 Flash TTS ذكاء اصطناعي جوجل Gemini تحويل النص إلى صوت Gemini 3 تكنولوجيا الصوت

Gemini 3.1 Flash TTS، نموذج جديد من جوجل يرفع جودة الصوت بالذكاء الاصطناعي

Gemini 3.1 Flash TTS.. نقلة في جودة الصوت الاصطناعي

إتاحة تدريجية للمطورين والشركات

أكثر من 70 لغة لتجربة عالمية

حماية المحتوى باستخدام تقنية SynthID

90 جنيها زيادة في سعر جرام الذهب اليوم الأربعاء

فخ الـ100% استكمال، بالمستندات تفاصيل سحب 522 قطعة أرض بالإسكان المميز في مدينة السادات

بث مباشر للمؤتمر الصحفي لرئيس الاتحاد الأفريقي لكرة القدم

ارتفاع أسعار الذهب في الإمارات اليوم الأربعاء

موعد ظهور نتيجة الثانوية الأزهرية 2026، رابط الاستعلام وخطوات الحصول عليها

من الحديد إلى الأدوية والرخام، كيف تمددت ظاهرة "المستريحين" في 2026؟

الصحة تكشف حقيقة إغلاق وحدة الغسيل الكلوي بحميات إمبابة

جامعة الفيوم تنظم قافلة طبية مجانية شاملة بقرية اللاهون

الأولين يواصل الارتفاع، أسعار الزيت اليوم الأربعاء في الأسواق

90 جنيها زيادة في سعر جرام الذهب اليوم الأربعاء

ارتفاع في البلدي 3 جنيهات، سعر الفراخ اليوم الأربعاء 22 يوليو 2026 (آخر تحديث)

ارتفاع أسعار الذهب في الإمارات اليوم الأربعاء

بعد القيود الأوروبية.. من يستورد ذهب السودان؟ (إنفوجراف)

كم عدة المرأة التي توفي زوجها قبل الدخول بها؟ الإفتاء تجيب

موعد أذان المغرب اليوم الأربعاء في القاهرة والمحافظات

ما حكم التبرع للمستشفيات والمؤسسات الطبية من مال الزكاة؟ دار الإفتاء تجيب