مدتی است که فناوریهای تشخیص گفتار، مورد توجه بسیاری از شرکتها قرار گرفتهاند بطوریکه شمار زیادی از شرکتها اعلام کردهاند که استفاده از چنین فناوری را در دستور کار خود دارند. یکی از ملزومات مهم برپایی سامانههای تشخیص گفتار مبتنی بر یادگیری عمیق، در اختیار داشتن دیتاستها یا دادههای آموزشی جامع و مفصل است. معمولاً چنین دیتاستهایی در اختیار افراد عادی و حتی بسیاری از شرکتها و سازمانها نبوده و همین باعث میشود فقط شرکتهایی نظیر گوگل بتوانند با تکیه بر دادههای عظیمی که در اختیار دارند در این حوزه پیشرو باشند.
MLCommons کنسرسیوم غیرانتفاعی که در زمینه عرضه منابع و ابزارهای توسعه رایگان برای هوش مصنوعی فعالیت میکند دو دیتاست بسیار غنی گفتار صوتی را در اختیار عموم قرار داده است. این دو دیتاست یعنی People’s Speech Dataset و Multilingual Spoken Words Corpus یا به اختصار MSWC نتیجه تحقیقاتی است که توسط گروهی زیر نظر این کنسرسیوم و از سال ۲۰۱۸ به منظور ایجاد یک دیتاست کاربردی از ۵۰ زبان پرکاربرد دنیا تشکیل شد. محققانی از مراکز تحقیقاتی نظیر دانشگاههای هاروارد و میشگان و نیز شرکتهایی نظیر علیبابا، اوراکل، گوگل، اینتل و بایدو در این تلاش شرکت داشتهاند.
هدف دیتاست People’s Speech Dataset شناسایی گفتار است و بیش از سی هزار ساعت گفتار صوتی که تحت لایسنس Creative Commons قرار دارد را شامل می شود. از این دیتاست برای استفاده در ساختن مدلهای شناسایی گفتاری که در دستیارهای صوتی و نرمافزارهای ترجمه کاربرد دارند میتوان استفاده کرد. هدف MSWC نیز شناسایی کلمات کلیدی در یک گفتار است. MSWC شامل ۳۴۰ هزار کلمه کلیدی با بیش از ۲۳ میلیون مثال بوده که طیفی وسیعی از زبانهای رایج دنیا را پوشش میدهد. این دیتاست در کاربردهایی نظیر ساخت دستگاههای هوشمند و برپایی مراکز تلفن کاربرد دارد. بنابر ادعای این کنسرسیوم،People’s Speech Dataset از جمله جامعترین دیتاستهای گفتار انگلیسی است که حقاستفاده دانشگاهی و تجاری از آن آزاد است. MSWC نیز یکی از بزرگترین دیتاستهای گفتار صوتی است که کلمات کلیدی به ۵۰ زبان دنیا را پوشش میدهد.
مدتهاست دیتاستهای رایگانی نظیر TED-LIUM و LibriSpeech به منظور آموزش دادن و آزمودن سامانههای تشخیص گفتار، در دسترس توسعهدهندگان قرار دارند. ولی دسترسی به برخی نظیر Fisher و Switchboard نیازمند تهیه کسب حقاستفاده ( لایسنس) بوده و یا استفاده از آنها هزینه زیادی دارد. این امر سبب میشود که حتی سازمانهایی که بودجه زیادی نسبت به شرکتهای کوچکتر دارند از نظر دسترسی به دیتاستها در مقابل شرکتهای بزرگی همچون گوگل، اپل و آمازون کم بیاورند. این امر سبب عقب افتادن آنها در توسعه سامانههای تشخیص گفتار مبتنی بر یادگیری عمیق میشود. شرکتهایی نظیر گوگل به واسطه ابزارهایی نظیر اسمارتفونها و بلندگوهای هوشمند، به حجم زیادی از دادههای آموزشی دسترسی دارند. این امکان در اختیار همه شرکتها و سازمانها نیست. بعنوان مثال چهار سال قبل زمانیکه محققان موزیلا توسعه یک سامانه تشخیص گفتار انگلیسی موسوم به DeepSpeech را آغاز کردند، مجبور شدند برای تکمیل دادههای مورد نیازشان به ایستگاههای تلویزیونی و رادیویی و دپارتمانهای زبان دانشگاهها مراجعه کنند. انتظار میرود که با آزاد شدن استفاده از People’s Speech Dataset و MSWC، محققان بیشتری بتوانند بر روی توسعه سامانههای تشخیص گفتار کار کنند.
People’s Speech Dataset به نوعی تکمیلکننده Common Voice است که از سوی موزیلا عرضه شده و یکی دیگر از بزرگترین دیتاستهای گفتار در جهان است. بطوریکه بیش از ۹ هزار ساعت داده صوتی به ۶۰ زبان دنیا دارد. شرکت انویدیا به تازگی اعلام کرده است که ۱.۵ میلیون دلار در Common Voice سرمایهگذاری میکند تا با جلب توجه سایرین، از این ایده پشتیبانی شود.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟