مدل‌های زبانی می‌توانند با داده‌های صوتی و حرکتی تشخیص دهند چه کار می‌کنید_دلچسب

به گزارش دلچسب

اپل تحقیق جدیدی انتشار کرده که مشخص می کند مدل‌های زبانی بزرگ (LLM) چطور می‌توانند داده‌های صوتی و حرکتی را تحلیل کنند تا دید بهتری از فعالیت‌های کاربر به دست آورند.

یک مقاله تازه با گفتن «منفعت گیری از LLMها برای ادغام چند حسی سنسورها در تشخیص فعالیت» اطلاعاتی درمورد این که اپل چطور امکان پذیر از تحلیل LLM در کنار داده‌های سنتی سنسورها برای فهمیدن دقیق‌تر فعالیت کاربر منفعت گیری کند، اراعه می‌دهد. به حرف های محققان، این روش پتانسیل بالایی برای افزایش دقت تحلیل فعالیت‌ها حتی در شرایطی که داده‌های کافی از سنسور حاضر نیست، دارد.

مدل‌های زبانی بزرگ می‌توانند با داده‌های کمتر نوع فعالیت کاربر را اشکار کنند

در این تحقیق اشکار شد که مدل‌های زبانی بزرگ توانایی زیاد قابل‌توجهی در استنباط فعالیت‌های کاربر از طریق سیگنال‌های صوتی و حرکتی دارند، حتی اگر به‌صورت خاص برای این کار آموزش ندیده باشند. این چنین هنگامی تنها یک مثال به آنها داده می‌شود، دقتشان حتی زیاد تر هم می‌شود.

یک تفاوت مهم این است که در این مطالعه، LLM خود فایل صوتی واقعی را دریافت نکرده می بود، بلکه توضیحات مختصر متنی تولیدشده توسط مدل‌های صوتی و یک مدل حرکتی مبتنی بر IMU به آن داده شد. IMU یا دستگاه سنجش لختی (اینرسی) حرکت را از طریق داده‌های شتاب‌سنج و ژیروسکوپ جستوجو می‌کند.

در این مقاله، محققان توضیح داده‌اند که از Ego4D (یک مجموعه داده عظیم از رسانه‌هایی که با دیدگاه اول‌شخص ضبط شده) منفعت گیری کرده‌اند. این داده‌ها شامل هزاران ساعت اطلاعات از محیط‌ها و موقعیت‌های واقعی از کارهای خانه گرفته تا فعالیت‌های فضای باز می باشند.

محققان داده‌های صوتی و حرکتی را از طریق مدل‌های کوچک‌تر عبور دادند که زیرنویس متنی و پیش‌بینی کلاس‌ها را تشکیل می‌کردند، سپس این خروجی‌ها را به مدل‌های گوناگون LLM همانند جمینای ۲.۵ پرو و Qwen-32B دادند تا ببینند چه مقدار می‌توانند فعالیت‌ها را شناسایی کنند.

اپل کارکرد این مدل‌ها را در دو حالت گوناگون قیاس کرد؛ یکی وقتی که لیست ۱۲ فعالیت ممکن برای انتخاب در اختیارشان قرار گرفت و فرد دیگر وقتی که هیچ گزینه‌ای داده نشد.

محققان در آخر اشاره می‌کنند که نتایج این مطالعه اطلاعات جالبی درمورد نحوه ترکیب چند مدل برای تحلیل داده‌های فعالیت و سلامت اراعه می‌دهد، به‌اختصاصی در مواردی که داده‌های خام سنسورها به تنهایی کافی نیستند تا عکس راحتی از فعالیت کاربر اراعه دهند.

تازه‌ترین اخبار و تحلیل‌ها درباره انتخابات، سیاست، اقتصاد، ورزشی، حوادث، فرهنگ وهنر و گردشگری و سلامتی را در وب سایت خبری دلچسب بخوانید.

دسته بندی مطالب

اخبار فرهنگی

اخبار فناوری

خبر های اقتصادی

خبرهای ورزشی

اخبار کسب وکار

اخبار پزشکی

پیشنهاد ما به شما

گوشی تاشو سه‌تکه سامسونگ شاید با قیمتی کمتر از پیش‌بینی‌ها روانه بازار شود 

گوشی تاشو سه‌تکه سامسونگ احتمالا با قیمتی کمتر از پیش‌بینی‌ها روانه بازار شود _دلچسب

به گزارش دلچسب انتظار می‌رود سامسونگ به‌زودی از گوشی تاشو سه‌تکه خود با نام گلکسی …