اسبربانک مجموعه‌ای از گسترش یافتهترین شبکه‌های عصبی هوش مصنوعی روسی را انتشار کرد_دلچسب

به گزارش دلچسب

سلب مسئولیت: دیجیاتو فقط نمایش‌دهنده این متن تبلیغاتی است و تحریریه مسئولیتی درمورد محتوای آن ندارد.

در طی کنفرانس هوش مصنوعی ۲۰۲۵ روسیه که از ۲۸ تا ۳۰ آبان ۱۴۰۴ در مسکو برگزار شد، اسبربانک روسیه از انتشار کردن معماری و پارامترهای دو مدل گسترش یافتهی تازه مدل‌های MoE در سری محصولات گیگاچت (GigaChat) خود، با نام‌های «اولترا پریویو» (Ultra Preview) و «لایتنینگ» (Lightning) خبر داد؛ مدل‌هایی که از ابتدا برای انجام ماموریت های به زبان روسی آموزش داده شده‌اند. این چنین نسل تازه مدل‌های متن‌بازِ تشخیص گفتار با نام گیگا اِی‌اِم نسخه ۳ (GigaAM-v3) که توانایی بالایی در منفعت گیری از علائم نگارشی و بهینه‌سازی متن دارد نیز انتشار شده است.

علاوه بر این، همه مدل‌های تشکیل عکس و ویدئو از خانواده‌ی تازه کاندینسکی ۵.۰ (Kandinsky 5.0) شامل ویدئو لایت (Video Lite)، ویدئو پرو (Video Pro) و ایمیج لایت (Image Lite) اکنون به‌صورت عمومی در دسترس قرار گرفته‌اند. این مدل‌های پیشرفته، فهمیدن بومی از پرامپت‌های روسی دارند، از دانش عرصه‌ای مرتبط با فرهنگ روسیه منفعت می‌برند و قادرند متون سیریلیک را با دقت بالا در تصاویر و ویدئوها تشکیل کنند.

این چنین مدل‌های K-VAE 1.0 برای رمزگذاری و بازسازی محتوای بصری که برای آموزش مدل‌های تولیدکننده عکس حیاتی بوده و از برترین مدل‌های متن‌باز جهان محسوب خواهد شد، انتشار شده‌اند.
 همه این مدل‌ها همراه با کد و پارامترها، تحت مجوز MIT اراعه خواهد شد و منفعت گیری‌ی تجاری از آن‌ها آزاد است.

اظهارات مدیر ارشد فناوری و هوش مصنوعی اسبربانک

آندری بلفتسف (Andrey Belevtsev)، معاون ارشد و رئیس قسمت فناوری و هوش مصنوعی اسبربانک او گفت: «ما باور داریم که ساخت هوش مصنوعی در کلاس جهانی به دو چیز نیاز دارد: «منبع های عظیم و تیم‌های تحقیقاتی در سطح جهانی. اسبربانک هر دو را دارد. اما مهم‌تر از همه، روحیه‌  اشتراک‌گذاری است، نه محدودسازی فناوری. استراتژی ما تبدیل شدن به زیربنایی متن‌باز، برای نوآوری در سراسر سرزمین است؛ به همین علت وزن مدل‌ها را انتشار می‌کنیم. این یک لحظه‌ی سرنوشت‌ساز است. هر شرکت روسی، از بانک‌ها تا استارتاپ‌ها، می‌تواند این مدل‌ها را در سیستم‌های داخلی خود نصب کرده، آن‌ها را روی داده‌های محرمانه‌ی خود به‌صورت آفلاین بهینه‌سازی (فاین‌تیون) کند و کنترل کامل داده‌ها را در اختیار داشته باشد.»

او در ادامه گفت: «این همان مفهوم واقعی «حاکمیت فناوری» است: هوش مصنوعی متعلق به کل سرزمین است و نیروی محرکه‌ی تحول کسب‌وکار و رشد اقتصادی خواهد می بود. این چنین باید اشاره کنم که مدل Ultra به‌زودی برای مشتریان سازمانی با هزینه‌ی بهینه‌تر برای استقرار داخلی اراعه خواهد شد.»

اسبربانک مجموعه‌ای از گسترش یافتهترین شبکه‌های عصبی هوش مصنوعی روسی

 

آپدیت دو مدل گیگا چت اولترا و گیگا چت لایتنینگ

سری مدل‌های گیگاچت اکنون با گیگاچت اولترا پریویو (GigaChat Ultra Preview) و گیگاچت لایتنینگ (GigaChat Lightning) گسترش یافته است.
گیگاچت اولترا پریویو بزرگ‌ترین و قدرتمندترین مدل این مجموعه و نخستین مدل در این مقیاس در روسیه است. این مدل که تا این مدت در حال آموزش است، اکنون نیز از نظر کیفیت پردازش زبان روسی در بنچمارک MERA رتبه اول را کسب کرده و مدل‌هایی همانند دیپ سیک ورژن V3.1 را پشت سر گذاشته است. شدت آن نیز با وجود اندازه جهشی، هم چنان بالاست و سریع تر از مدل پرچمدار قبلی یعنی GigaChat 2 Max عمل می‌کند.

انتشار کردن آزاد پارمترهای اولترا پریویو این امکان را به گسترش‌دهندگان می‌دهد که مدل را به‌صورت آفلاین و در محیط‌های کاملاً امن سازمانی روی داده‌های حساس خود شخصی‌سازی کنند.

مدل دیگر، گیگاچت لایتنینگ، نسخه‌ای کوچک‌تر و فوق‌سریع است که برای اجرا روی لپ‌تاپ‌ها و تکرار محصولی سریع به‌صورت محلی بهینه شده است.
از نظر کیفیت، لایتنینگ در بین مدل‌های متن‌باز جهانی رقابتی ظاهر شده و در ماموریت های زبان روسی بهتر از Qwen3-4B عمل می‌کند و در قابلیت مکالمه، تحلیل اسناد و کاربردهای تجاری نیز در سطح آن قرار می‌گیرد.

اسبربانک علاوه بر پارامترها، تکنیک‌های تسریع استنتاج را نیز انتشار کرده است. لایتنینگ با وجود ابعادی بزرگ‌تر، تقریباً با شدت Qwen3-1.7B اجرا می‌شود.

هر دو مدل به‌طور کامل به ابزارهای خارجی متصل خواهد شد و دو قابلیت کلیدی را برجسته می‌کنند:

  • کد: ابزاری برای اجرای کد، تحلیل و نمایش محاسبات، ترسیم نمودار، تست فرضیه‌ها و پردازش برنامه‌نویسی در زمان واقعی.
  •  حافظه: سیستمی برای تعامل شخصی‌سازی‌شده که اهداف، ترجیحات و سابقه‌ی گفتگو را نگه می‌دارد. داده‌های قدیمی یا حساس حذف خواهد شد و کاربر می‌تواند این «حافظه» را ویرایش کند.

 

به‌روزرسانی‌هایی از مدل گیگا ای‌ام نسخه ۳

گیگا ای‌ام وی۳ شامل پنج مدل متن‌باز تازه تشخیص گفتار برای کاربردهای صنعتی و تجاری است؛ از جمله دستیارهای صوتی، مراکز تماس، تحلیل مکالمات، تجمیع مطلب‌های صوتی و عامل‌های چندوجهی (Multimodal agents).

در نسخه تازه، حجم پیش‌آموزش از ۵۰ هزار ساعت به ۷۰۰ هزار ساعت صوت افزایش یافته است. افزوده شدن حمایتاز علائم نگارشی و نرمال‌سازی متون علتشده که این مدل در شرایط برابر، با مدل ویسپر (Whisper) از اپن‌ای‌آی رقابت کند و در عین حال از نظر کیفیت تشخیص صورت، زیاد بهتر عمل کند.

بر پایه مدل بنیادی منحصر به فرد GigaAM-v3، هر فناوری مبتنی بر گفتار می‌تواند پیاده‌سازی شود. در شرکت اسبر این مدل زیرساختی برای طیف وسیعی از فناوری‌های صوتی از جمله تشخیص گفتار، سنتز گفتار یا تبدیل متن به گفتار منفعت گیری می‌شود و گیگاچت را قادر به پردازش صوت و عکس می‌کند.

آپدیت‌های مدل کاندینسکی ۵.۰

خانواده کاندینسکی ۵.۰ مجموعه‌ای پیشرفته از مدل‌های تشکیل عکس و ویدئو است:

  • ایمیج لایت برای تشکیل تصاویر باکیفیت و ویرایش عکس
  • ویدئو لایت و ویدئو پرو برای تشکیل ویدئو از متن یا انیمیشن‌سازی تصاویر

مدل ایمیج لایت تصاویر HD با جزئیات بالا می‌سازد، فهمیدن عمیقی از فضای فرهنگی روسیه دارد و از پرامپت‌های روسی و انگلیسی حمایتمی‌کند. این مدل این چنین قادر به تشکیل متن لاتین و سیریلیک در عکس است.
مدل ویدئو پرو، ویدئوهای ۱۰ ثانیه‌ای HD با نرخ ۲۴ فریم تشکیل کرده و بر پایه برسی‌ها از مدل‌هایی همانند Wan-2.2-A14B پیشی گرفته و به کیفیت مدل اختصاصی Veo 3 نزدیک شده است.

برای اجرای سبک‌تر، نسخه‌ی ویدئو لایت برای کارت‌های گرافیک مصرفی با حداقل ۱۲ گیگابایت VRAM انتشار شده است.

آموزش خانواده کاندینسکی ۵.۰ با منفعت گیری از یک میلیارد عکس و ۳۰۰ میلیون ویدئو انجام شده و مجموعه‌ای از راه حلهای نوآورانه برای پردازش این داده‌های عظیم گسترش یافته است. مرحله نهایی آموزش نیز با دیتاستی دقیق که توسط طراحان و هنرمندان حرفه‌ای تهیه شده، کیفیت ترکیب‌بندی و سبک خروجی را ضمانت کرده است.

این مدل‌ها ابزارهای جدیدی برای تشکیل محتوای شخصی‌سازی‌شده، انیمیشن، داستان‌پردازی بصری، تبلیغات و پروژه‌های تجاری در اختیار گسترش‌دهندگان، کسب‌وکارها و متخصصان خلاق قرار خواهند داد. انتشار کردن Kandinsky 5.0 گامی مهم در گسترش‌ی اکوسیستم متن‌باز مولد روسیه است.

رونمایی از مدل K-VAE 1.۰ برای تشکیل تصاویر و ویدئو

مدل‌های مولد (Generative models) همانند «کاندینسکی ۵.۰» محتوای رسانه‌ای را در فضاهای نهفته (latent spaces) تشکیل می‌کنند – فضاهایی که برای چشم انسان نامرئی می باشند. کار در این بازنمایی‌های نهان، امکان آموزش و استقرار سریع تر، سبک‌تر و زیاد مقیاس‌پذیرتر مدل‌ها را فراهم می‌کند.

اسبر اکنون مدل‌های رمزگذار خودکار (autoencoder) اختصاصی خود را که از پایه آموزش دیده‌اند، با نام‌های K-VAE 1.0 برای تصاویر (دوبعدی) و ویدیوها (سه‌بعدی) معارفه می‌کند. این مدل‌ها داده‌های بصری را به بازنمایی‌های نهفته تبدیل می‌کنند و سپس آن‌ها را با وفاداری بسیار‌ای بازسازی (reconstruct) می‌کنند. مدل‌های K-VAE 1.0 بهترین در نوع خود در بین معادل‌های متن‌باز (open-source) جهانی می باشند. در دسترس قرار گرفتن عمومی آن‌ها، فناوری‌های هوش مصنوعی مولد را به سطح جدیدی از کیفیت ارتقا خواهد داد.

گفتنی است کنفرانس هوش مصنوعی روسیه با نام «سفر هوش مصنوعی» یا AI Journey، از ۱۹ تا۲۱ نوامبر امسال مصادف با ۲۸ تا۳۰ آذرماه در مسکو روسیه برگزار شد.

دسته بندی مطالب

اخبار فرهنگی

اخبار فناوری

خبر های اقتصادی

خبرهای ورزشی

اخبار کسب وکار

اخبار پزشکی

پیشنهاد ما به شما

گوشی تاشو سه‌تکه سامسونگ شاید با قیمتی کمتر از پیش‌بینی‌ها روانه بازار شود 

گوشی تاشو سه‌تکه سامسونگ احتمالا با قیمتی کمتر از پیش‌بینی‌ها روانه بازار شود _دلچسب

به گزارش دلچسب انتظار می‌رود سامسونگ به‌زودی از گوشی تاشو سه‌تکه خود با نام گلکسی …