به گزارش دلچسب
سلب مسئولیت: دیجیاتو فقط نمایشدهنده این متن تبلیغاتی است و تحریریه مسئولیتی درمورد محتوای آن ندارد.
در طی کنفرانس هوش مصنوعی ۲۰۲۵ روسیه که از ۲۸ تا ۳۰ آبان ۱۴۰۴ در مسکو برگزار شد، اسبربانک روسیه از انتشار کردن معماری و پارامترهای دو مدل گسترش یافتهی تازه مدلهای MoE در سری محصولات گیگاچت (GigaChat) خود، با نامهای «اولترا پریویو» (Ultra Preview) و «لایتنینگ» (Lightning) خبر داد؛ مدلهایی که از ابتدا برای انجام ماموریت های به زبان روسی آموزش داده شدهاند. این چنین نسل تازه مدلهای متنبازِ تشخیص گفتار با نام گیگا اِیاِم نسخه ۳ (GigaAM-v3) که توانایی بالایی در منفعت گیری از علائم نگارشی و بهینهسازی متن دارد نیز انتشار شده است.
علاوه بر این، همه مدلهای تشکیل عکس و ویدئو از خانوادهی تازه کاندینسکی ۵.۰ (Kandinsky 5.0) شامل ویدئو لایت (Video Lite)، ویدئو پرو (Video Pro) و ایمیج لایت (Image Lite) اکنون بهصورت عمومی در دسترس قرار گرفتهاند. این مدلهای پیشرفته، فهمیدن بومی از پرامپتهای روسی دارند، از دانش عرصهای مرتبط با فرهنگ روسیه منفعت میبرند و قادرند متون سیریلیک را با دقت بالا در تصاویر و ویدئوها تشکیل کنند.
این چنین مدلهای K-VAE 1.0 برای رمزگذاری و بازسازی محتوای بصری که برای آموزش مدلهای تولیدکننده عکس حیاتی بوده و از برترین مدلهای متنباز جهان محسوب خواهد شد، انتشار شدهاند.
همه این مدلها همراه با کد و پارامترها، تحت مجوز MIT اراعه خواهد شد و منفعت گیریی تجاری از آنها آزاد است.
اظهارات مدیر ارشد فناوری و هوش مصنوعی اسبربانک
آندری بلفتسف (Andrey Belevtsev)، معاون ارشد و رئیس قسمت فناوری و هوش مصنوعی اسبربانک او گفت: «ما باور داریم که ساخت هوش مصنوعی در کلاس جهانی به دو چیز نیاز دارد: «منبع های عظیم و تیمهای تحقیقاتی در سطح جهانی. اسبربانک هر دو را دارد. اما مهمتر از همه، روحیه اشتراکگذاری است، نه محدودسازی فناوری. استراتژی ما تبدیل شدن به زیربنایی متنباز، برای نوآوری در سراسر سرزمین است؛ به همین علت وزن مدلها را انتشار میکنیم. این یک لحظهی سرنوشتساز است. هر شرکت روسی، از بانکها تا استارتاپها، میتواند این مدلها را در سیستمهای داخلی خود نصب کرده، آنها را روی دادههای محرمانهی خود بهصورت آفلاین بهینهسازی (فاینتیون) کند و کنترل کامل دادهها را در اختیار داشته باشد.»
او در ادامه گفت: «این همان مفهوم واقعی «حاکمیت فناوری» است: هوش مصنوعی متعلق به کل سرزمین است و نیروی محرکهی تحول کسبوکار و رشد اقتصادی خواهد می بود. این چنین باید اشاره کنم که مدل Ultra بهزودی برای مشتریان سازمانی با هزینهی بهینهتر برای استقرار داخلی اراعه خواهد شد.»

آپدیت دو مدل گیگا چت اولترا و گیگا چت لایتنینگ
سری مدلهای گیگاچت اکنون با گیگاچت اولترا پریویو (GigaChat Ultra Preview) و گیگاچت لایتنینگ (GigaChat Lightning) گسترش یافته است.
گیگاچت اولترا پریویو بزرگترین و قدرتمندترین مدل این مجموعه و نخستین مدل در این مقیاس در روسیه است. این مدل که تا این مدت در حال آموزش است، اکنون نیز از نظر کیفیت پردازش زبان روسی در بنچمارک MERA رتبه اول را کسب کرده و مدلهایی همانند دیپ سیک ورژن V3.1 را پشت سر گذاشته است. شدت آن نیز با وجود اندازه جهشی، هم چنان بالاست و سریع تر از مدل پرچمدار قبلی یعنی GigaChat 2 Max عمل میکند.
انتشار کردن آزاد پارمترهای اولترا پریویو این امکان را به گسترشدهندگان میدهد که مدل را بهصورت آفلاین و در محیطهای کاملاً امن سازمانی روی دادههای حساس خود شخصیسازی کنند.
مدل دیگر، گیگاچت لایتنینگ، نسخهای کوچکتر و فوقسریع است که برای اجرا روی لپتاپها و تکرار محصولی سریع بهصورت محلی بهینه شده است.
از نظر کیفیت، لایتنینگ در بین مدلهای متنباز جهانی رقابتی ظاهر شده و در ماموریت های زبان روسی بهتر از Qwen3-4B عمل میکند و در قابلیت مکالمه، تحلیل اسناد و کاربردهای تجاری نیز در سطح آن قرار میگیرد.
اسبربانک علاوه بر پارامترها، تکنیکهای تسریع استنتاج را نیز انتشار کرده است. لایتنینگ با وجود ابعادی بزرگتر، تقریباً با شدت Qwen3-1.7B اجرا میشود.
هر دو مدل بهطور کامل به ابزارهای خارجی متصل خواهد شد و دو قابلیت کلیدی را برجسته میکنند:
- کد: ابزاری برای اجرای کد، تحلیل و نمایش محاسبات، ترسیم نمودار، تست فرضیهها و پردازش برنامهنویسی در زمان واقعی.
- حافظه: سیستمی برای تعامل شخصیسازیشده که اهداف، ترجیحات و سابقهی گفتگو را نگه میدارد. دادههای قدیمی یا حساس حذف خواهد شد و کاربر میتواند این «حافظه» را ویرایش کند.
بهروزرسانیهایی از مدل گیگا ایام نسخه ۳
گیگا ایام وی۳ شامل پنج مدل متنباز تازه تشخیص گفتار برای کاربردهای صنعتی و تجاری است؛ از جمله دستیارهای صوتی، مراکز تماس، تحلیل مکالمات، تجمیع مطلبهای صوتی و عاملهای چندوجهی (Multimodal agents).
در نسخه تازه، حجم پیشآموزش از ۵۰ هزار ساعت به ۷۰۰ هزار ساعت صوت افزایش یافته است. افزوده شدن حمایتاز علائم نگارشی و نرمالسازی متون علتشده که این مدل در شرایط برابر، با مدل ویسپر (Whisper) از اپنایآی رقابت کند و در عین حال از نظر کیفیت تشخیص صورت، زیاد بهتر عمل کند.
بر پایه مدل بنیادی منحصر به فرد GigaAM-v3، هر فناوری مبتنی بر گفتار میتواند پیادهسازی شود. در شرکت اسبر این مدل زیرساختی برای طیف وسیعی از فناوریهای صوتی از جمله تشخیص گفتار، سنتز گفتار یا تبدیل متن به گفتار منفعت گیری میشود و گیگاچت را قادر به پردازش صوت و عکس میکند.
آپدیتهای مدل کاندینسکی ۵.۰
خانواده کاندینسکی ۵.۰ مجموعهای پیشرفته از مدلهای تشکیل عکس و ویدئو است:
- ایمیج لایت برای تشکیل تصاویر باکیفیت و ویرایش عکس
- ویدئو لایت و ویدئو پرو برای تشکیل ویدئو از متن یا انیمیشنسازی تصاویر
مدل ایمیج لایت تصاویر HD با جزئیات بالا میسازد، فهمیدن عمیقی از فضای فرهنگی روسیه دارد و از پرامپتهای روسی و انگلیسی حمایتمیکند. این مدل این چنین قادر به تشکیل متن لاتین و سیریلیک در عکس است.
مدل ویدئو پرو، ویدئوهای ۱۰ ثانیهای HD با نرخ ۲۴ فریم تشکیل کرده و بر پایه برسیها از مدلهایی همانند Wan-2.2-A14B پیشی گرفته و به کیفیت مدل اختصاصی Veo 3 نزدیک شده است.
برای اجرای سبکتر، نسخهی ویدئو لایت برای کارتهای گرافیک مصرفی با حداقل ۱۲ گیگابایت VRAM انتشار شده است.
آموزش خانواده کاندینسکی ۵.۰ با منفعت گیری از یک میلیارد عکس و ۳۰۰ میلیون ویدئو انجام شده و مجموعهای از راه حلهای نوآورانه برای پردازش این دادههای عظیم گسترش یافته است. مرحله نهایی آموزش نیز با دیتاستی دقیق که توسط طراحان و هنرمندان حرفهای تهیه شده، کیفیت ترکیببندی و سبک خروجی را ضمانت کرده است.
این مدلها ابزارهای جدیدی برای تشکیل محتوای شخصیسازیشده، انیمیشن، داستانپردازی بصری، تبلیغات و پروژههای تجاری در اختیار گسترشدهندگان، کسبوکارها و متخصصان خلاق قرار خواهند داد. انتشار کردن Kandinsky 5.0 گامی مهم در گسترشی اکوسیستم متنباز مولد روسیه است.
رونمایی از مدل K-VAE 1.۰ برای تشکیل تصاویر و ویدئو
مدلهای مولد (Generative models) همانند «کاندینسکی ۵.۰» محتوای رسانهای را در فضاهای نهفته (latent spaces) تشکیل میکنند – فضاهایی که برای چشم انسان نامرئی می باشند. کار در این بازنماییهای نهان، امکان آموزش و استقرار سریع تر، سبکتر و زیاد مقیاسپذیرتر مدلها را فراهم میکند.
اسبر اکنون مدلهای رمزگذار خودکار (autoencoder) اختصاصی خود را که از پایه آموزش دیدهاند، با نامهای K-VAE 1.0 برای تصاویر (دوبعدی) و ویدیوها (سهبعدی) معارفه میکند. این مدلها دادههای بصری را به بازنماییهای نهفته تبدیل میکنند و سپس آنها را با وفاداری بسیارای بازسازی (reconstruct) میکنند. مدلهای K-VAE 1.0 بهترین در نوع خود در بین معادلهای متنباز (open-source) جهانی می باشند. در دسترس قرار گرفتن عمومی آنها، فناوریهای هوش مصنوعی مولد را به سطح جدیدی از کیفیت ارتقا خواهد داد.
گفتنی است کنفرانس هوش مصنوعی روسیه با نام «سفر هوش مصنوعی» یا AI Journey، از ۱۹ تا۲۱ نوامبر امسال مصادف با ۲۸ تا۳۰ آذرماه در مسکو روسیه برگزار شد.
دسته بندی مطالب