همانگونه که اشاره شد، در دنیای دیجیتال، تشخیص گفتار، فرآیندی است که یک برنامه کامپیوتری معنا و مفهوم گفتار را درک میکند. الگوریتمهای تشخیص گفتار به کاربران اجازه میدهند از گفتار بهعنوان نوعی مکانیزم ارتباطی ساده و کارآمد برای تعامل با برنامههای کاربردی هوشمند استفاده کنند.
فناوری تشخیص گفتار خودکار (ASR) سرنام Automatic Speech Recognition قدمت زیادی دارد و تاکنون پیشرفتهای زیادی کرده است؛ بهطوری که برنامههای کاربردی در مقایسه با گذشته، بهتر صحبتها را درک میکنند و پاسخهای انسانیتری ارائه میکنند. تمامی این دستاوردها بهلطف کلان دادهها و پردازش موثر آنها بهدست آمده است، هرچند نباید از نقش پردازندههای مرکزی قدرتمندی که وظیفه تحلیل اطلاعات را دارند غافل شد. تعاملات و جستوجوی صوتی با گوشیهای هوشمند از طریق ابزارهایی مثل سیری اپل، بینگ مایکروسافت در پلتفرم ویندوز، Google Now در سیستمعامل اندروید، کنترلهای صوتی در سیستمهایی مثل آلکسا آمازون و هوم گوگل همگی بر پایه پردازش اطلاعات و گفتار کاربران کار میکنند.
این الگوریتمهای هوشمند مستقر در برنامههای کاربردی و محصولات سختافزاری ضمن آنکه قادر به درک گفتار هستند، توانایی تصحیح اشتباهات املائی را دارند و بدون مشکل قادر به برقراری ارتباط با کاربران خانگی در منازل یا حتا ماشینهای خودران هستند، زیرا دستورات صوتی را دریافت کرده و آنها را به کدهای اجرایی تبدیل میکنند که عمل خاصی مثل روشن و خاموش کردن چراغها، باز و بسته کردن دربها، کنترل لوازم خانگی و موارد مشابه را انجام میدهند. در تمامی این موارد، نیازی به استفاده از دستان و چشمان خود ندارید و تمامی کارها از طریق پردازش گفتار انجام میشود که مزیت بزرگی برای افرادی است که ناتوانیهای جسمانی دارند. تشخیص گفتار خودکار با بهرهگیری از الگوریتمی که توسط یک برنامه کامپیوتری استفاده میشود، سیگنالها یا به عبارت دقیقتر آواهای صوتی را به یک سری متوالی از کلمات تبدیل میکند. در ادامه با مشهورترین الگوریتمهای ASR که انقلابی در عرصه تشخیص گفتار پدید آوردهاند و متخصصان هوش مصنوعی در طراحی برنامههای کاربردی قادر به استفاده از آنها هستند آشنا میشویم.
روش آکوستیک-آوایی (Acoustic-Phonetic Approach)
روش آکوستیک-آوایی بر پایه آواشناسی صوتی(Acoustic Phonetics) است و بیان میکند که زبان گفتاری دارای واحدهای آوایی متناهی و متمایز است و به همین دلیل خواص صوتی (Acoustic Properties) واحدهای آوایی در سیگنال گفتاری یا طیف آن در طول زمان آشکار میشود. روش آکوستیک-آوایی با تجزیهوتحلیل طیفی گفتار آغاز میشود و در ادامه روی تشخیص و شناسایی آواها متمرکز میشود تا خصوصیات طیفی را به ویژگیهای آوایی منحصربهفرد تبدیل کند. بعد از تکمیل این مرحله، نوبت به تفکیک و برچسبگذاری میرسد. سیگنال گفتار به نواحی آکوستیک پایدار تقسیم میشود و به هر ناحیه تقسیمشده یک یا چند برچسب آوایی اختصاص داده میشود و به این شکل خصوصیات مجموعهای از آواهای مربوط به گفتار مشخص میشود. بعد از ایجاد یک توالی از آواهای تقسیمبندی و برچسبگذاریشده، در آخرین فرآیند، ساخت کلمات یا عبارات معنادار انجام میشود.
روش تشخیص الگو(Pattern Recognition Approach)
آموزش و مقایسه الگو دو مرحله مهم و حیاتی در فرآیند تطبیق الگوها هستند. در مرحله مقایسه الگو، گفتارهای مبهم و نامشخص بهطور مستقیم با هر الگوی بهدستآمده در مرحله آموزش مقایسه میشوند تا گفتار مبهم بر اساس نزدیک بودن به الگو تشخیص داده شود. روش فوق از یک چارچوب ریاضی یا به عبارت دقیقتر مجموعهای از قوانین ریاضی برای ایجاد بازنمایی الگوی گفتاری یکپارچه بر مبنای مجموعهای از نمونههای آموزشی برچسبگذاریشده استفاده میکند. هدف این است که فرآیند مقایسه و تطابق الگوها با بالاترین قابلیت اطمینان انجام شود. تشخیص الگو میتواند بهعنوان دستهبندی دادههای ورودی در کلاسهای شناختهشده از طریق استخراج ویژگیهای مهم یا صفات داده تعریف شود. یک کلاس الگو، یک دسته متمایزشده از طریق برخی صفات و ویژگیهای مشترک است. ویژگیهای یک کلاس الگو، صفات نوعی هستند که بین همه الگوهای متعلق به آن کلاس مشترک هستند. ویژگیهایی که تفاوتهای بین کلاسهای الگو را بیان میکنند، اغلب بهعنوان ویژگیهای اینترست (Interest Pattern) شناخته میشوند. یک الگو توصیفی از یکی از اعضای دسته است که ارائهدهنده کلاس الگو است. در بیشتر موارد و برای سهولت، الگوها از طریق یک بردار نمایش داده میشوند. در شش دهه گذشته، تطابق الگو مشهورترین روش تشخیص گفتار بوده است.
روش هوش مصنوعی (Artificial Intelligence Approach)
در رویکرد هوش مصنوعی ترکیبی از روشهای آکوستیک-آوایی و تشخیص الگو و مفاهیم مرتبط با دو روش فوق استفاده میشود. در تشخیص گفتار خودکار، دو روش اصلی برای تطابق الگو وجود دارد که تطابق الگوی قطعی با استفاده از کش و قوسهای زمانی پویا (مکانیزم انطباق زمانی پویا) و تطابق الگوی تصادفی با استفاده از مدلهای پنهان مارکوف (Hidden Markov models) هستند.
در روش فوق یک یا چند الگو، نشاندهنده کلاسهایی هستند که باید بر مبنای مکانیزم انطباق زمانی پویا (DTW) سرنام Dynamic Time Warping شناسایی شوند. همچنین، برای بهبود عملکرد مدل در فرآیند تشخیص تلفظها و محاورهها، بیش از یک الگوی مرجع در هر کلاس استفاده میشود تا فرآیند شناسایی با کمترین ضریب خطا انجام شود. فاصله بین یک توالی گفتار دریافتشده و الگوهای کلاس در زمان شناسایی محاسبه میشود. مکانیزم انطباق زمانی پویا، راهکاری است که بهینهترین تطبیق بین دو دنباله زمانی با محدودیتهای معین را شناسایی میکند و مشکل عدم تطابق بین الگوهای آزمایشی و ارجاعی را حل میکند. دنبالهها بهصورت غیرخطی در محور زمان کش و قوس پیدا میکنند تا معیاری برای شباهت آنها مستقل از برخی تغییرات غیرخطی در محور زمان بهدست آید. این روش تنظیم دنباله گاهیاوقات در دستهبندی سری زمانی استفاده میشود. بهطور معمول، این روش مبتنی بر تشخیص کلمات کلیدی در یک فایل گفتاری است که مبتنی بر حالت پیوسته و گسسته است. در هر دو حالت تشخیص کلمات کلیدی در گفتار پیوسته و گسسته، از روش انطباق زمانی پویا استفاده میشود که با سیستمهایی که مبتنی بر مدل پنهان مارکوف هستند و امروزه از آنها استفاده میشود تفاوتهایی دارد. روش تشخیص کلمات کلیدی در حالت پیوسته منطبق بر انطباق زمانی پویا یک روش ابتدایی برای محاسبه میزان شباهت دو دنباله متغیر با زمان است. در مرحله پردازش، سیگنال گفتار به فریمهایی با طول کم تقسیم میشوند که هر فریم در قالب یک بردار کوانتیزهشده از ویژگیها نشان داده میشود. در حالت تشخیص کلمات کلیدی گسسته ابتدا از نمونههای مختلف از یک کلمه کلیدی خاص که توسط یک یا چند گوینده بیان شدهاند و دارای طول متفاوت هستند، بردارهای ویژگی استخراج میشود و کلمهای که کوچکترین طول را دارد بهعنوان نمونه مرجع انتخاب میشود. در ادامه، مسیر همتراز با نمونه مرجع و دیگر نمونهها شناسایی میشوند و بر مبنای این مسیر، ابعاد ماتریس ویژگی نمونههای دیگر بر مبنای نمونه مرجع ساخته میشود. در سیستمهای مدرن روش تطابق الگو مدل پنهان مارکوف بر انطباق زمانی پویا ترجیح داده میشود، بهدلیل اینکه از ویژگیهای تعمیمپذیر بهشکل بهتری پشتیبانی میکند و نیازمند حافظه کمتری است.
روش یادگیری مولد (Generative Learning Approach)
مدلهای پنهان مارکوف مبتنی بر مدلهای آمیخته گوسی (Gaussian Mixture) رایجترین روش یادگیری مولد در سیستمهای تشخیص گفتار ASR هستند و مدتزمان زیادی است که از آنها استفاده میشود. مدل آمیخته گوسی از معروفترین الگوریتمهای خوشهبندی است. در الگوریتم خوشهبندی آمیخته گوسی، مفروض است هر خوشه از دادهها بر مبنای توزیع گوسی (نرمال) ایجاد شوند و دادهها نمونهای از توزیع آمیخته گوسی باشند. این مدل با هدف تخمین پارامترهای توزیع هر یک از خوشهها و تعیین برچسب برای مشاهدات استفاده میشود. به این ترتیب مشخص میشود که هر مشاهده به چه خوشهای اختصاص دارد.
مدل آمیخته گوسی از طریق ساختار متوالی از سیگنالهای گفتاری که مبتنی بر مدل پنهان مارکوف هستند، نشان داده میشوند. با توجه به اینکه سیگنال گفتاری میتواند بهعنوان سیگنال ایستای تکهتکه یا سیگنال ایستای کوتاهمدت دیده شود، از مدلهای پنهان مارکوف در تشخیص گفتار استفاده میشود. در روش فوق، گفتار میتواند بهعنوان فرآیند ایستا در یک مقیاس کوتاهمدت تخمین زده شود. بهطور کلی، هر یک از حالات مدل پنهان مارکوف، یک نمایش طیفی از موج صوتی هستند که با استفاده از مدل آمیخته گوسی نشان داده میشوند.
مدلهای پنهان مارکوف بهدلیل اینکه میتوانند بهسادگی توالیهای دادهای با متغیرهای طولی که بر مبنای تغییر ترتیب کلمات، سرعت گفتار و لهجه ایجاد میشوند را تشخیص و کنترل کنند، مورد توجه متخصصان قرار دارند. با اینکه روش مدل آمیخته گوسی پنهان مارکوف به استانداردی در صنعت تشخیص گفتار خودکار تبدیل شده، مزایا و معایب خود را دارد. سیستمهای تشخیص گفتار مبتنی بر مدل آمیخته گوسی پنهان مارکوف ساده و بهطور خودکار آموزشپذیر هستند. با اینحال، یکی از معایب مدلهای آمیخته گوسی این است که بهلحاظ آماری، مدلسازی دادهها روی یا نزدیک Manifold غیرخطی در فضای داده ناکارآمد است.
یادگیری مبتنی بر تمایز (Discriminative Learning)
استفاده از مدل متمایزگر روی مدل مولد از پارادایمهای بارز یادگیری متمایزکننده است. در دهه 1990 میلادی، استفاده از شبکههای عصبی بهشکل پرسپترون چندلایه (MLP) با تابع غیرخطی softmax در لایه نهایی مورد توجه بسیاری از کارشناسان قرار گرفت. هنگامیکه خروجی پرسپترون چندلایه به یک مدل پنهان مارکوف وارد میشود، این امکان وجود دارد تا یک مدل توالی متمایز خوب یا ترکیبی MLP-HMM ایجاد کرد، زیرا خروجی را میتوان بهعنوان احتمال شرطی تفسیر کرد. پژوهشگران تحقیقات زیادی روی این حوزه انجام دادند تا شبکه عصبی پرسپترون چندلایه بتواند به سادهترین شکل زیرمجموعهای از ویژگیها را در ترکیب با ویژگیهای قدیمی و سنتی و برای مولد مدل پنهان مارکوف تولید کند. اواخر دهه 80 میلادی، شبکههای عصبی آموزشدادهشده با مکانیزم پسانتشارخطا (Back Propagation) (الگوریتمی در حوزه یادگیری نظارتی شبکه عصبی با استفاده از گرادیان کاهشی است. در روش مذکور، برای یک شبکه عصبی مصنوعی و تابع خطای مشخص، گرادیان تابع خطا نسبت به وزنهای شبکه عصبی محاسبه میشود.) تبدیل به محبوبترین روش مدلسازی آکوستیک بهمنظور تشخیص گفتار شدند. بر عکس مدل پنهان مارکوف، شبکههای عصبی هیچ تصوری درباره خصوصیات آماری از ویژگیها ندارند.
یادگیری عمیق (Deep learning)
یادگیری عمیق که بهعنوان یادگیری ویژگی (Feature Learning) نظارتنشده یا یادگیری ارائه (Representation Learning) نیز شناخته میشود، شاخه نسبتا جدیدی از یادگیری ماشین است. یادگیری عمیق بهسرعت در حال تبدیل شدن به فناوری استاندارد برای تشخیص گفتار است و با موفقیت جایگزین روشهایی مثل آمیخته گوسی برای تشخیص گفتار و کدگذاری ویژگیها در مقیاس بزرگ شده است. معماریهای مولد عمیق میتوانند گونه اول خواص همبستگی یا توزیعهای آماری مشارکتی با دادههای قابل رؤیت و کلاسهای مرتبط با آنها را تشخیص دهند. در اینجا، قانون بیز میتواند برای ساخت این نوع از معماری متمایزگر استفاده شود. از کدگذارهای خودکار عمیق، ماشینهای بولتزمن عمیق، شبکههای Sum-Product، شبکه باور عمیق اصلی (Deep Belief Network) و غیره میتوان برای این منظور استفاده کرد.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟