مايكروسوفت تطلق 3 نماذج ذكاء اصطناعي جديدة لتوليد النص والصوت والصورة (فيديو)
أعلنت مايكروسوفت عن إطلاق ثلاثة نماذج متقدمة متعددة الوسائط، قادرة على إنتاج النصوص والصوتيات والمحتوى المرئي، ضمن استراتيجية أوسع لبناء منظومة ذكاء اصطناعي متكاملة تنافس بها كبار اللاعبين في القطاع.
نماذج متعددة الاستخدامات تدعم 25 لغة وتولد الصوت والفيديو
تشمل الإصدارات الجديدة مجموعة من النماذج التي تغطي مجالات مختلفة من الذكاء الاصطناعي:
MAI-Transcribe-1: نموذج متخصص في تحويل الكلام إلى نص، يدعم 25 لغة، ويقدم أداءً أسرع مقارنة بالخدمات الحالية.
MAI-Voice-2: نموذج متطور لتوليد الصوت، يمكنه إنشاء مقاطع صوتية طويلة خلال وقت قياسي، مع إمكانية تخصيص الأصوات.
MAI-Image-3: نموذج لإنشاء الصور والفيديو، تم طرحه مبدئيًا عبر منصة اختبار قبل تعميمه رسميًا.
إتاحة النماذج عبر منصات مايكروسوفت
أوضحت الشركة أن النماذج الجديدة أصبحت متوفرة عبر منصة مايكروسوفت فاوندري، إلى جانب إتاحتها جزئيًا على بيئة MAI Playground، التي تتيح للمطورين تجربة قدرات الذكاء الاصطناعي واختبارها.
تم تطوير هذه التقنيات بواسطة فريق “MAI Superintelligence”، بقيادة مصطفى سليمان، الذي يقود جهود مايكروسوفت للذكاء الاصطناعي منذ تأسيسه في أواخر 2025.
وأكد سليمان أن الشركة تعتمد نهجًا يركز على “الذكاء الإنساني”، أي تطوير تقنيات تتماشى مع طبيعة تفاعل البشر واحتياجاتهم اليومية، مع التركيز على التطبيقات العملية.
تسعير تنافسي لمواجهة عمالقة التكنولوجيا
ضمن سعيها لجذب المطورين والشركات، طرحت مايكروسوفت نماذجها بأسعار تنافسية مقارنة بمنافسيها مثل جوجل وOpenAI.
وتبدأ الأسعار من:
0.36 دولار لكل ساعة لاستخدام نموذج تحويل الصوت إلى نص.
- 22 دولارًا لكل مليون حرف في نموذج الصوت.
- 5 دولارات لكل مليون رمز نصي و33 دولارًا لمخرجات الصور.
ورغم إطلاق نماذجها الخاصة، شددت مايكروسوفت على استمرار تعاونها مع OpenAI، التي استثمرت فيها أكثر من 13 مليار دولار.
وتعكس هذه الخطوة استراتيجية مزدوجة تتبعها الشركة، تقوم على تطوير تقنياتها الداخلية بالتوازي مع الاستفادة من الشراكات، بما يعزز موقعها في سوق يشهد تنافسًا متسارعًا في تقنيات الذكاء الاصطناعي.
