قدرتمندترین الگوریتم‌های کارآمد در حوزه تشخیص گفتار
آشنایی با برترین روش‌های تشخیص گفتار خودکار (ASR)
ساده‌ترین مکانیزمی که انسان‌ها برای برقراری ارتباط با یک‌دیگر از آن استفاده می‌کنند صحبت کردن است. در دنیای فناوری اطلاعات، تشخیص گفتار (Speech Recognition) به توانایی سامانه‌ها در درک محاوره‌های انسانی، پردازش، تفسیر و تبدیل گفتار به متن اشاره دارد. تشخیص گفتار زیرشاخه‌ای از زبان‌شناسی محاسباتی (Computational Linguistic) است. این زیرشاخه در ارتباط با فناوری‌هایی است که داده‌های صوتی را به‌عنوان ورودی دریافت و تجزیه‌وتحلیل می‌کنند. تشخیص گفتار از فناوری‌های مهمی است که شرکت‌های بزرگی در حال کار روی آن هستند. هدف این است که تعامل با کامپیوترها از حالت دیجیتالی و غیر‌منعطف خارج شده و سامانه‌ها بتوانند مفهوم جملات ما را درک کرده و همانند یک انسان به ما پاسخ دهند. امروزه ابزارهای تشخیص احساسات (Scenes Recognition) در کارهای مختلفی مثل نوشتن پیام متنی، پخش موسیقی، دستیارهای مجازی و غیره استفاده می‌شوند.

همان‌گونه که اشاره شد، در دنیای دیجیتال، تشخیص گفتار، فرآیندی است که یک برنامه کامپیوتری معنا و مفهوم گفتار را درک می‌کند. الگوریتم‌های تشخیص گفتار به کاربران اجازه می‌دهند از گفتار به‌عنوان نوعی مکانیزم ارتباطی ساده‌ و کارآمد برای تعامل با برنامه‌های کاربردی هوشمند استفاده کنند. 

فناوری تشخیص گفتار خودکار (ASR) سرنام Automatic Speech Recognition قدمت زیادی دارد و تاکنون پیشرفت‌های زیادی کرده است؛ به‌طوری که برنامه‌های کاربردی در مقایسه با گذشته، بهتر صحبت‌ها را درک می‌کنند و پاسخ‌های انسانی‌تری ارائه می‌کنند. تمامی این دستاوردها به‌لطف کلان داده‌ها و پردازش موثر آن‌ها به‌دست آمده است، هرچند نباید از نقش پردازنده‌های مرکزی قدرتمندی که وظیفه تحلیل اطلاعات را دارند غافل شد. تعاملات و جست‌وجوی صوتی با گوشی‌های هوشمند از طریق ابزارهایی مثل سیری اپل، بینگ مایکروسافت در پلتفرم ویندوز، Google Now در سیستم‌‌عامل اندروید، کنترل‌های صوتی در سیستم‌هایی مثل آلکسا آمازون و هوم گوگل همگی بر پایه پردازش اطلاعات و گفتار کاربران کار می‌کنند. 

این الگوریتم‌های هوشمند مستقر در برنامه‌های کاربردی و محصولات سخت‌افزاری ضمن آن‌که قادر به درک گفتار هستند، توانایی تصحیح اشتباهات املائی را دارند و بدون مشکل قادر به برقراری ارتباط با کاربران خانگی در منازل یا حتا ماشین‌های خودران هستند، زیرا دستورات صوتی را دریافت کرده و آن‌ها را به کدهای اجرایی تبدیل می‌کنند که عمل خاصی مثل روشن و خاموش کردن چراغ‌ها، باز و بسته کردن درب‌ها، کنترل لوازم خانگی و موارد مشابه را انجام می‌دهند. در تمامی این موارد، نیازی به استفاده از دستان و چشمان خود ندارید و تمامی کارها از طریق پردازش گفتار انجام می‌شود که مزیت بزرگی برای افرادی است که ناتوانی‌های جسمانی دارند. تشخیص گفتار خودکار با بهره‌گیری از الگوریتمی که توسط یک برنامه کامپیوتری استفاده می‌شود، سیگنال‌ها یا به عبارت دقیق‌تر آواهای صوتی را به یک سری متوالی از کلمات تبدیل می‌کند. در ادامه با مشهورترین الگوریتم‌های ASR که انقلابی در عرصه تشخیص گفتار پدید آورده‌اند و متخصصان هوش مصنوعی در طراحی برنامه‌های کاربردی قادر به استفاده از آن‌ها هستند آشنا می‌شویم. 

روش آکوستیک-آوایی (Acoustic-Phonetic Approach)

روش آکوستیک-آوایی بر پایه آواشناسی صوتی(Acoustic Phonetics) است و بیان می‌کند که زبان گفتاری دارای واحدهای آوایی متناهی و متمایز است و به همین دلیل خواص صوتی (Acoustic Properties) واحدهای آوایی در سیگنال گفتاری یا طیف آن در طول زمان آشکار می‌شود. روش آکوستیک‌-آوایی با تجزیه‌و‌تحلیل طیفی گفتار آغاز می‌شود و در ادامه روی تشخیص و شناسایی آواها متمرکز می‌شود تا خصوصیات طیفی را به ویژگی‌های آوایی منحصربه‌فرد تبدیل کند. بعد از تکمیل این مرحله، نوبت به تفکیک و برچسب‌گذاری می‌رسد. سیگنال گفتار به نواحی آکوستیک پایدار تقسیم می‌شود و به هر ناحیه تقسیم‌شده یک یا چند برچسب آوایی اختصاص داده می‌شود و به این شکل خصوصیات مجموعه‌ای از آواهای مربوط به گفتار مشخص می‌شود. بعد از ایجاد یک توالی از آواهای تقسیم‌بندی و برچسب‌گذاری‌شده، در آخرین فرآیند، ساخت کلمات یا عبارات معنادار انجام می‌شود.

روش تشخیص الگو(Pattern Recognition Approach)

آموزش و مقایسه الگو دو مرحله مهم و حیاتی در فرآیند تطبیق الگوها هستند. در مرحله مقایسه الگو، گفتارهای مبهم و نامشخص ‌به‌طور مستقیم با هر الگوی ‌به‌دست‌آمده در مرحله آموزش مقایسه می‌شوند تا گفتار مبهم بر اساس نزدیک بودن به الگو تشخیص داده شود. روش فوق از یک چارچوب ریاضی یا به عبارت دقیق‌تر مجموعه‌ای از قوانین ریاضی برای ایجاد بازنمایی الگوی گفتاری یکپارچه بر مبنای مجموعه‌ای از نمونه‌های آموزشی برچسب‌گذاری‌شده استفاده می‌کند. هدف این است که فرآیند مقایسه و تطابق الگوها با بالاترین قابلیت اطمینان انجام شود. تشخیص الگو می‌تواند به‌عنوان دسته‌بندی داده‌های ورودی در کلاس‌های شناخته‌شده از طریق استخراج ویژگی‌های مهم یا صفات داده تعریف شود. یک کلاس الگو، یک دسته متمایزشده از طریق برخی صفات و ویژگی‌های مشترک است. ویژگی‌های یک کلاس الگو، صفات نوعی هستند که بین همه الگوهای متعلق به آن کلاس مشترک هستند. ویژگی‌هایی که تفاوت‌های بین کلاس‌های الگو را بیان می‌کنند، اغلب به‌عنوان ویژگی‌های اینترست (Interest Pattern) شناخته می‌شوند. یک الگو توصیفی از یکی از اعضای دسته است که ارائه‌دهنده کلاس الگو است. در بیشتر موارد و برای سهولت، الگوها از طریق یک بردار نمایش داده می‌شوند. در شش دهه گذشته، تطابق الگو مشهورترین روش تشخیص گفتار بوده است.

روش هوش مصنوعی (Artificial Intelligence Approach)

در رویکرد هوش مصنوعی ترکیبی از روش‌های آکوستیک-آوایی و تشخیص الگو و مفاهیم مرتبط با دو روش فوق استفاده می‌شود. در تشخیص گفتار خودکار، دو روش اصلی برای تطابق الگو وجود دارد که تطابق الگوی قطعی با استفاده از کش و قوس‌های زمانی پویا (مکانیزم انطباق زمانی پویا) و تطابق الگوی تصادفی با استفاده از مدل‌های پنهان مارکوف (Hidden Markov models) هستند.

در روش فوق یک یا چند الگو، نشان‌دهنده کلاس‌هایی هستند که باید بر مبنای مکانیزم انطباق زمانی پویا (DTW) سرنام Dynamic Time Warping شناسایی شوند. همچنین، برای بهبود عملکرد مدل در فرآیند تشخیص تلفظ‌ها و محاوره‌ها، بیش از یک الگوی مرجع در هر کلاس استفاده می‌شود تا فرآیند شناسایی با کمترین ضریب خطا انجام شود. فاصله بین یک توالی گفتار دریافت‌شده و الگوهای کلاس در زمان شناسایی محاسبه می‌شود. مکانیزم انطباق زمانی پویا، راهکاری است که بهینه‌ترین تطبیق بین دو دنباله زمانی با محدودیت‌های معین را شناسایی می‌کند و مشکل عدم تطابق بین الگوهای آزمایشی و ارجاعی را حل می‌کند. دنباله‌ها به‌صورت غیر‌خطی در محور زمان کش و قوس پیدا می‌کنند تا معیاری برای شباهت آن‌ها مستقل از برخی تغییرات غیرخطی در محور زمان به‌دست آید. این روش تنظیم دنباله گاهی‌اوقات در دسته‌بندی سری زمانی استفاده می‌شود. به‌طور معمول، این روش مبتنی بر تشخیص کلمات کلیدی در یک فایل گفتاری است که مبتنی بر حالت پیوسته و گسسته است. در هر دو حالت تشخیص کلمات کلیدی در گفتار پیوسته و گسسته، از روش انطباق زمانی پویا استفاده می‌شود که با سیستم‌هایی که مبتنی بر مدل پنهان مارکوف هستند و امروزه از آن‌ها استفاده می‌شود تفاوت‌هایی دارد. روش تشخیص کلمات کلیدی در حالت پیوسته منطبق بر انطباق زمانی پویا یک روش ابتدایی برای محاسبه میزان شباهت دو دنباله متغیر با زمان است. در مرحله پردازش، سیگنال گفتار به فریم‌هایی با طول کم تقسیم می‌شوند که هر فریم در قالب یک بردار کوانتیزه‌شده از ویژگی‌ها نشان داده می‌شود. در حالت تشخیص کلمات کلیدی گسسته ابتدا از نمونه‌های مختلف از یک کلمه کلیدی خاص که توسط یک یا چند گوینده بیان شده‌اند و دارای طول متفاوت هستند، بردارهای ویژگی استخراج می‌شود و کلمه‌ای که کوچک‌ترین طول را دارد به‌عنوان نمونه مرجع انتخاب می‌شود. در ادامه، مسیر هم‌تراز با نمونه مرجع و دیگر نمونه‌ها شناسایی می‌شوند و بر مبنای این مسیر، ابعاد ماتریس ویژگی نمونه‌های دیگر بر مبنای نمونه مرجع ساخته می‌شود. در سیستم‌های مدرن روش تطابق الگو مدل پنهان مارکوف بر انطباق زمانی پویا ترجیح داده می‌شود، به‌دلیل این‌که از ویژگی‌های تعمیم‌پذیر به‌شکل بهتری پشتیبانی می‌کند و نیازمند حافظه کمتری است. 

روش یادگیری مولد (Generative Learning Approach)

مدل‌های پنهان مارکوف مبتنی بر مدل‌های آمیخته گوسی (Gaussian Mixture) رایج‌ترین روش یادگیری مولد در سیستم‌های تشخیص گفتار ASR هستند و  مدت‌زمان زیادی است که از آن‌ها استفاده می‌شود. مدل‌ آمیخته گوسی از معروف‌ترین الگوریتم‌های خوشه‌بندی است. در الگوریتم خوشه‌بندی آمیخته گوسی، مفروض است هر خوشه از داده‌ها بر مبنای توزیع گوسی (نرمال) ایجاد شوند و داده‌ها نمونه‌ای از توزیع آمیخته گوسی باشند. این مدل با هدف تخمین پارامترهای توزیع هر یک از خوشه‌ها و تعیین برچسب برای مشاهدات استفاده می‌شود. به این ترتیب مشخص می‌شود که هر مشاهده به چه خوشه‌ای اختصاص دارد. 

مدل آمیخته گوسی از طریق ساختار متوالی از سیگنال‌های گفتاری که مبتنی بر مدل پنهان مارکوف هستند، نشان داده می‌شوند. با توجه به این‌که سیگنال گفتاری می‌تواند به‌عنوان سیگنال ایستای تکه‌تکه یا سیگنال ایستای کوتاه‌مدت دیده شود، از مدل‌های پنهان مارکوف در تشخیص گفتار استفاده می‌شود. در روش فوق، گفتار می‌تواند به‌عنوان فرآیند ایستا در یک مقیاس کوتاه‌مدت تخمین زده شود. به‌طور کلی، هر یک از حالات مدل پنهان مارکوف، یک نمایش طیفی از موج صوتی هستند که با استفاده از مدل آمیخته گوسی نشان داده می‌شوند. 

مدل‌های پنهان مارکوف به‌دلیل این‌که می‌توانند به‌سادگی توالی‌های داده‌ای با متغیرهای طولی که بر مبنای تغییر ترتیب کلمات، سرعت گفتار و لهجه ایجاد می‌شوند را تشخیص و کنترل کنند، مورد توجه متخصصان قرار دارند. با این‌که روش مدل آمیخته گوسی پنهان مارکوف به استانداردی در صنعت تشخیص گفتار خودکار تبدیل شده، مزایا و معایب خود را دارد. سیستم‌های تشخیص گفتار مبتنی بر مدل آمیخته گوسی پنهان مارکوف ساده و به‌طور خودکار آموزش‌پذیر هستند. با این‌حال، یکی از معایب مدل‌های آمیخته گوسی این است که به‌لحاظ آماری، مدل‌سازی داده‌ها روی یا نزدیک Manifold غیرخطی در فضای داده ناکارآمد است.

یادگیری مبتنی بر تمایز (Discriminative Learning)

استفاده از مدل متمایزگر روی مدل مولد از پارادایم‌های بارز یادگیری متمایزکننده است. در دهه 1990 میلادی، استفاده از شبکه‌های عصبی به‌شکل پرسپترون چندلایه (MLP) با تابع غیرخطی softmax در لایه نهایی مورد توجه بسیاری از کارشناسان قرار گرفت. هنگامی‌که خروجی پرسپترون چندلایه به یک مدل پنهان مارکوف وارد می‌شود، این امکان وجود دارد تا یک مدل توالی متمایز خوب یا ترکیبی MLP-HMM ایجاد کرد، زیرا خروجی را می‌توان به‌عنوان احتمال شرطی تفسیر کرد. پژوهشگران تحقیقات زیادی روی این حوزه انجام دادند تا شبکه عصبی پرسپترون چندلایه بتواند به ساده‌ترین شکل زیرمجموعه‌ای از ویژگی‌ها را در ترکیب با ویژگی‌های قدیمی و سنتی و برای مولد مدل پنهان مارکوف تولید ‌کند. اواخر دهه 80 میلادی، شبکه‌های عصبی آموزش‌داده‌شده با مکانیزم پس‌انتشارخطا (Back Propagation) (الگوریتمی در حوزه یادگیری نظارتی شبکه عصبی با استفاده از گرادیان کاهشی است. در روش مذکور، برای یک شبکه عصبی مصنوعی و تابع خطای مشخص، گرادیان تابع خطا نسبت به وزن‌های شبکه عصبی محاسبه می‌شود.) تبدیل به محبوب‌ترین روش مدل‌سازی آکوستیک به‌منظور تشخیص گفتار شدند. بر عکس مدل پنهان مارکوف، شبکه‌های عصبی هیچ تصوری درباره خصوصیات آماری از ویژگی‌ها ندارند.

یادگیری عمیق (Deep learning)

یادگیری عمیق که به‌عنوان یادگیری ویژگی (Feature Learning) نظارت‌نشده یا یادگیری ارائه (Representation Learning) نیز شناخته می‌شود، شاخه نسبتا جدیدی از یادگیری ماشین است. یادگیری عمیق به‌سرعت در حال تبدیل شدن به فناوری استاندارد برای تشخیص گفتار است و با موفقیت جایگزین روش‌هایی مثل آمیخته گوسی برای تشخیص گفتار و کدگذاری ویژگی‌ها در مقیاس بزرگ شده است. معماری‌های مولد عمیق می‌توانند گونه اول خواص همبستگی یا توزیع‌های آماری مشارکتی با داده‌های قابل رؤیت و کلاس‌های مرتبط با آن‌ها را تشخیص دهند. در این‌جا، قانون بیز می‌تواند برای ساخت این نوع از معماری متمایزگر استفاده شود. از کدگذارهای خودکار عمیق، ماشین‌های بولتزمن عمیق، شبکه‌های Sum-Product، شبکه باور عمیق اصلی (Deep Belief Network) و غیره می‌توان برای این منظور استفاده کرد.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟