[ad_1]
به گزارش دلچسب
دو دانشجوی کارشناسی که تخصصی بسیاری نیز در عرصه هوش مصنوعی ندارند ادعا میکنند توانستهاند مدل هوش مصنوعی تازهای بسازند که قادر است محتواهایی به سبک پادکست شبیه NotebookLM گوگل خلق کند.
به گزارش تک کرانچ، «توبی کیم»، یکی از بنیانگذاران Nari Labs که این مدل تازه گفتاری را انتشار کرده، او گفت او و یکی دیگر از همکارانش حدوداً ۳ ماه پیش اغاز به یادگیری درمورد مدلهای هوش مصنوعی گفتاری کردند. این تیم با الهام از NotebookLM گوگل میخواستند مدلی بسازند که کنترل بیشتری روی صداهای تولیدشده و آزادی در سناریو را به کاربران اراعه دهد.
تیم سازنده ادعا میکند این مدل توانایی رقابت با NotebookLM گوگل را دارد
به حرف های توبی کیم، آنها از برنامه TPU Research Cloud گوگل برای ساخت این مدل منفعت گیری کردهاند تا بتوانند مدل Nari با نام Dia را آموزش دهند. این برنامه امکان دسترسی رایگان به تراشههای هوش مصنوعی TPU گوگل را برای محققان فراهم میکند.
مدل Dia با منفعت گیری از ۱.۶ میلیارد پارامتر میتواند دیالوگها را از روی یک اسکریپت تشکیل کند. این چنین این مدل به کاربران این امکان را میدهد تا لحن سخنران را سفارشی کرده و مواردی همچون ناهماهنگیها، سرفهها، خندهها و دیگر نشانههای غیرکلامی را اضافه کنند.
مدل Dia هماکنون از طریق پلتفرمهای Hugging Face و GitHub در دسترس علاقهمندان قرار دارد. این مدل میتواند روی اکثر رایانههای شخصی مدرن با حداقل ۱۰ گیگابایت VRAM اجرا شود. این چنین Dia قادر است تا در صورتی که دستورالعملهای خاصی دریافت نکند، بهصورت رندوم عمل به ساخت یک صدای اتفاقی کند. علاوهبراین، Dia توانایی پیروی صدای افراد را دارد.
بااینحال، همانند تعداد بسیاری از مدلهای صوتی، Dia نیز حفاظت زیاد مقداری در برابر سوءاستفادههای احتمالی دارد و سازندگان حرف هایاند که مسئولیتی را دراینباره قبول نمیکنند. این چنین Nari Labs آشکار نکرده که از چه دیتاهایی برای آموزش این مدل منفعت گیری کرده است. این گمان وجود دارد که از دیتاهای دارای حق کپی رایت برای آموزش Dia منفعت گیری شده باشد.
دسته بندی مطالب