دیتاست‌های رایگان برای توسعه سامانه‌های تشخیص گفتار

کنسرسیوم غیرانتفاعی MLCommons با‌ عرضه عمومی دو سری داده صوتی بسیار جامع، این فرصت را در اختیار همه توسعه‌دهندگان سامانه‌های تشخیص گفتار مبتنی بر یادگیری عمیق قرار داده است تا به دیتاست‌های مفصلی دسترسی داشته باشند. با این اقدام، به نوعی انحصار شرکت‌های بزرگ در این حوزه شکسته می‌شود. توسعه مدل‌های جدید یادگیری ماشین، وابسته به حجم بسیار زیادی از داده است و این دو دیتا‌ست که از جمله غنی‌ترین دیتاست‌های موجود در رده خود هستند کمک زیادی به این حوزه خواهند کرد.

مدتی است که فناوری‌های تشخیص گفتار، مورد توجه بسیاری از شرکت‌ها قرار گرفته‌اند بطوریکه شمار زیادی از شرکت‌ها اعلام کرده‌اند که استفاده از چنین فناوری را در دستور کار خود دارند. یکی از ملزومات مهم برپایی سامانه‌های تشخیص گفتار مبتنی بر یادگیری عمیق، در اختیار داشتن دیتا‌ست‌ها یا داده‌های آموزشی جامع و مفصل است. معمولاً چنین دیتا‌ست‌هایی در اختیار افراد عادی و حتی بسیاری از شرکت‌ها و سازمان‌ها نبوده و همین باعث می‌شود فقط شرکت‌هایی نظیر گوگل بتوانند با تکیه بر داده‌های عظیمی که در اختیار دارند در این حوزه پیشرو باشند.

MLCommons کنسرسیوم غیرانتفاعی که در زمینه عرضه منابع و ابزارهای توسعه رایگان برای هوش مصنوعی فعالیت می‌کند دو دیتاست بسیار غنی گفتار صوتی را در اختیار عموم قرار داده است. این دو دیتاست یعنی People’s Speech Dataset و Multilingual Spoken Words Corpus یا به اختصار MSWC نتیجه تحقیقاتی است که توسط گروهی زیر نظر این کنسرسیوم و از سال ۲۰۱۸ به منظور ایجاد یک دیتاست کاربردی از ۵۰ زبان پرکاربرد دنیا تشکیل شد. محققانی از مراکز تحقیقاتی نظیر دانشگاه‌های هاروارد و میشگان و نیز شرکت‌هایی نظیر علی‌بابا، اوراکل، گوگل، اینتل و بایدو در این تلاش شرکت داشته‌اند.

هدف دیتاست People’s Speech Dataset شناسایی گفتار است و بیش از سی هزار ساعت گفتار صوتی که تحت لایسنس Creative Commons قرار دارد را شامل می شود. از این دیتاست برای استفاده در ساختن مدل‌های شناسایی گفتاری که در دستیارهای صوتی و نرم‌افزارهای ترجمه کاربرد دارند می‌توان استفاده کرد. هدف MSWC نیز شناسایی کلمات کلیدی در یک گفتار است. MSWC شامل ۳۴۰ هزار کلمه کلیدی با بیش از ۲۳ میلیون مثال بوده که طیفی وسیعی از زبان‌های رایج دنیا را پوشش می‌دهد. این دیتاست در کاربردهایی نظیر ساخت دستگاه‌های هوشمند و برپایی مراکز تلفن کاربرد دارد. بنابر ادعای این کنسرسیوم،People’s Speech Dataset از جمله جامع‌ترین دیتاست‌های گفتار انگلیسی است که حق‌استفاده دانشگاهی و تجاری از آن آزاد است. MSWC نیز یکی از بزرگترین دیتا‌ست‌های گفتار صوتی است که کلمات کلیدی به ۵۰ زبان دنیا را پوشش می‌دهد.

مدت‌هاست دیتا‌ست‌های رایگانی نظیر TED-LIUM و LibriSpeech به منظور آموزش دادن و آزمودن سامانه‌های تشخیص گفتار، در دسترس توسعه‌دهندگان قرار دارند. ولی دسترسی به برخی نظیر Fisher و Switchboard نیازمند تهیه کسب حق‌استفاده ( لایسنس) بوده و یا استفاده از آن‌ها هزینه زیادی دارد. این امر سبب می‌شود که حتی سازمان‌هایی که بودجه زیادی نسبت به شرکت‌های کوچک‌تر دارند از نظر دسترسی به دیتاست‌ها در مقابل شرکت‌های بزرگی همچون گوگل، اپل و آمازون کم بیاورند. این امر سبب عقب افتادن آن‌ها در توسعه سامانه‌های تشخیص گفتار مبتنی بر یادگیری عمیق می‌شود. شرکت‌هایی نظیر گوگل به واسطه ابزارهایی نظیر اسمارت‌فون‌ها و بلندگوهای هوشمند، به حجم زیادی از داده‌های آموزشی دسترسی دارند. این امکان در اختیار همه شرکت‌ها و سازمان‌ها نیست. بعنوان مثال چهار سال قبل زمانیکه محققان موزیلا توسعه یک سامانه تشخیص گفتار انگلیسی موسوم به DeepSpeech را آغاز کردند، مجبور شدند برای تکمیل داده‌های مورد نیازشان به ایستگاه‌های تلویزیونی و رادیویی و دپارتمان‌های زبان دانشگاه‌ها مراجعه کنند. انتظار می‌رود که با آزاد شدن استفاده از People’s Speech Dataset و MSWC، محققان بیشتری بتوانند بر روی توسعه سامانه‌های تشخیص گفتار کار کنند.

People’s Speech Dataset به نوعی تکمیل‌کننده Common Voice است که از سوی موزیلا عرضه شده و یکی دیگر از بزرگترین دیتاست‌های گفتار در جهان است. بطوریکه بیش از ۹ هزار ساعت داده صوتی به ۶۰ زبان دنیا دارد. شرکت انویدیا به تازگی اعلام کرده است که ۱.۵ میلیون دلار در Common Voice سرمایه‌گذاری می‌کند تا با جلب توجه سایرین، از این ایده پشتیبانی شود.

مطالب پربازدید

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین

کتاب الکترونیک +Network راهنمای شبکه‌ها

برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

منبع:

ونچر‌بیت

برچسب:

به اشتراک گذاری مطلب:

Telegram Twitter Print HTML

پربازدیدترین مطالب

MySQL چیست و چه تفاوتی با MariaDB دارد؟

دیتاست‌های رایگان برای توسعه سامانه‌های تشخیص گفتار

مطالب پربازدید

کتاب الکترونیک +Network راهنمای شبکه‌ها

کتاب الکترونیک دوره مقدماتی آموزش پایتون

هوش مصنوعی چه نقشی در دنیای مالی دارد؟

هوش مصنوعی در عصر پهپادها

پیش‌پردازش متن و عبارات باقاعده در پردازش زبان طبیعی

نظر شما چیست؟

متاورس

متاورس می‌تواند پایانی بر گوشی‌ها و تبلت‌های هوشمند باشد؟

10 روند برتر تجارت و فناوری در سال 2022

آیا طوفان متاورس زندگی همه ما را برای همیشه تغییر خواهد داد

آیا ورود ایرانیان به دنیای متاورس امکان‌پذیر است؟ چگونه؟

خرید زمین 4.3 میلیون دلاری در متاورس (چند متر زمین مجازی)

متاورس چیست و چگونه زندگی مردم در جهان دیجیتال را متحول خواهد کرد؟

آخرین مطالب

MySQL چیست و چه تفاوتی با MariaDB دارد؟

شماره 284 ماهنامه شبکه با پرونده ویژه هوش مصنوعی و فین‌تک منتشر شد

شماره 283 ماهنامه شبکه با پرونده ویژه انقلاب صنعتی پنجم منتشر شد

بهترین نرم افزار حسابداری برای شرکت های تولیدی 1403

هایپرلوپ، نقشی از حمل و نقل آینده

حضور بیشتر شرکت‌های بزرگ در دنیای ارزهای دیجیتال: آینده چیست؟

هاست وردپرس، آینده‌ای روشن برای وب‌سایت‌های در حال رشد

فرق کابل cat5 با cat6 چیست

شماره 282 ماهنامه شبکه با پرونده ویژه هوشمندسازی منتشر شد

Lazy Learning چیست؟ تعلیق تعمیم تا لحظه پرسش

تبلیغات لینکی

پربازدیدترین مطالب

مطالب پربازدید

کتاب الکترونیک +Network راهنمای شبکه‌ها

کتاب الکترونیک دوره مقدماتی آموزش پایتون

مطالب مرتبط

نظر شما چیست؟

متاورس

آخرین مطالب

تبلیغات لینکی