این مطلب یکی از مجموعه مقالات پرونده ویژه «کاربردهای هوش مصنوعی در زندگی روزمره» است. برای دریافت کل پرونده ویژه اینجا کلیک کنید.
ایدههای قدیمی زمینهساز پیشرفتهای امروزی
برای چند دهه در انتظار کامپیوترهایی شبیه به HAL در یک اودیسه فضایی 2001 و کامپیوتر U.S.S Enterprise در فیلم Start Trek بودیم. سالهای متمادی در انتظار کامپیوترهایی بودیم که بتوانند با ما صحبت کنند و شبیه به انسانهای واقعی به تعامل بپردازند. شبیه به انسانهایی که از ضریب هوشی فوقالعاده برخوردار هستند و دانش آنها در نوک انگشتانشان قرار دارد. حتی چشمانداز اولیه اپل از ویژگی صوتی چندان واضح نبود. در اواخر دهه 1980 میلادی، اپل مفهومی بهنام هدایتگر دانش (Knowledge Navigator) را مطرح کرد. این مفهوم نخستین بار توسط مدیرعامل آن روزگار اپل، جان اسکالی، معرفی شد. این مفهوم دستگاهی را توصیف میکند که توانایی دسترسی به شبکهای بزرگ از بانکهای اطلاعاتی حاوی اطلاعات ابرمتن را دارد و از عامل نرمافزاری (Software agent) برای جستوجوی این داراییها استفاده میکند. در آن زمان، اپل مجموعهای از ویدیوها و کلیپها را آماده کرد و به مردم نشان داد که چگونه میتوانند از طریق کامپیوتری که شبیه تبلتهای امروزی و به یک سری قابلیتهای پیشرفته مجهز بود، به تعامل بپردازند و گفتوگویی طبیعی را تجربه کنند. این آواتارهای صوتی و تصویری کاملاً انسانی بودند و توانایی انجام یک مکالمه بیعیب و نقص را با کاربر داشتند و به کاربر کمک میکردند کارهای خود را برنامهریزی کند، با دوستان و همکاران خود به تعامل بپردازد و به همه اطلاعات طبقهبندی شده در یک شبکه دسترسی داشته باشد.
در اواخر دهه 1980 میلادی، اپل مفهومی بهنام هدایتگر دانش را مطرح کرد. این مفهوم نخستین بار توسط مدیرعامل آن روزگار اپل، جان اسکالی، معرفی شد. این مفهوم دستگاهی را توصیف میکند که توانایی دسترسی به شبکهای بزرگ از بانکهای اطلاعاتی حاوی اطلاعات ابرمتن را دارد و از عامل نرمافزاری برای جستوجوی این داراییها استفاده میکند.
هر چند سیستمهای آن زمان نتوانستند به همان سطحی از تعامل و ارتباط که در ویدیوهای آن روزگار نشان داده شده بودند برسند، اما با ظهور صفحهنمایشهای لمسی، آیفون، آیپاد و سیری، امروزه اپل گامهای بزرگی را برای این چشمانداز برداشته است. البته فناوری تشخیص گفتار پدیده جدیدی نیست و این توانایی از سالهای دور در اختیار کامپیوترها قرار داشته است. در نتیجه، اپل را نمیتوان نخستین شرکتی برشمرد که موفق شده است به چنین راهکاری دست پیدا کند. در دهه 1980 میلادی، هر فردی با خرید یک سختافزار و نرمافزار ویژه این توانایی را در اختیار داشت تا با سیستم خود به تعامل بپردازد. برای این کار نیاز بود تا نرمافزار مورد نظر را آموزش دهد تا صحبتهای شما را درک کند و تنها توانایی انجام یک سری از وظایف کوچک را داشته باشد. این توانایی برای برخی افراد که کامپیوتر جزء یکی از بخشهای اصلی کارشان بود ضروری بود، اما برای عموم کاربران بهکارگیری چنین سیستمی چندان عملی نبود. در اوایل دهه 1990 میلادی، اپل کامپیوترهای صوتی و تصویری مکینتاش (Quadra AV) را عرضه کرد. این کامپیوترها همراه با سختافزار و نرمافزار تشخیص گفتار عرضه شدند. هر چند آنها محدودیتهایی داشتند، اما توانایی انجام مجموعه محدودی از وظایف را از طریق صوت داشتند.
در سالهای بعد، در تبلیغات Mac OS X و همراه با آن ویندوز ویستا اعلام شد که این سیستمعاملها توانایی ادغام فناوری تشخیص گفتار را دارند، اما این ویژگی در آن روزگار بیشتر جنبه تبلیغی داشت. به طوری که ماوس و صفحهکلید نسبت به مکانیسم صوتی سریعترین راه ممکن برای ورود دستورات به کامپیوترهای خانگی بودند.
پسزمینه حق اختراع اپل
در گواهی ثبت اختراع اپل که در سال 2012 منتشر شد، این شرکت اعلام کرد دستگاههای الکترونیکی باید توانایی دسترسی به حجم گسترده و رو به رشدی از سرویسها، وظایف و اطلاعات را از طریق اینترنت یا منابع دیگر داشته باشند. بیشتر مصرفکنندگان از دستگاههایی همچون تبلتها و گوشیهای هوشمندی استفاده میکنند که با اجرای برنامههای کاربردی دسترسی به انواع مختلفی از وظایف و در دسترس قرار دادن انواع مختلفی از اطلاعات را امکانپذیر میسازند. در اغلب موارد، برنامهها یا سایتها از ویژگیها و رابط کاربری مخصوص به خود و پارادیم عملیاتی خاص خود برای انجام وظایف سنگین یا یادگیری رفتار مصرفکننده استفاده میکنند. همچنین، بیشتر کاربران ممکن است بهسختی توانایی شناسایی قابلیتها یا اطلاعاتی را داشته باشند که در دستگاههای الکترونیکی یا سایتهای مختلف قرار گرفته است. در نتیجه، این احتمال وجود دارد که کاربران توانایی به دست آوردن نتایج مورد نظر را نداشته باشند یا از منابعی که در اختیار دارند بهدرستی استفاده نکنند. در بیشتر موارد سیستمهای مدرن بهسختی میتوانند آن گونه که کاربر انتظار دارد به آن پاسخ دهند. در نتیجه، کاربران به واسطههایی نیاز دارند که امکان بهرهبرداری از فناوریها را به شکل مطلوبی در اختیار آنها قرار دهند.
راه حل اپل سیری است
راه حل اپل اختراع یک دستیار خودکار هوشمند است که روی دستگاههای الکترونیکی پیادهسازی شود و با کاربر دستگاه به تعامل بپردازد و برای استفاده بهینه از سرویسهای راه دور و محلی به کاربر کمک کند. دستیار خودکار هوشمند این توانایی را دارد که گفتوگویی طبیعی با کاربر و فراخوانی سرویسهای خارجی را برای دریافت اطلاعات مناسب و عملیات مختلف داشته باشد. سیری دستیاری صوتی است که هوش و زبان طبیعی انسانی را تقلید میکند. او توانایی تفسیر دستورالعملهای صوتی و در صورت امکان اجرای آنها را دارد.
اپل سال گذشته میلادی حق اختراع جدیدی را برای سیری منتشر ساخت که در آن کاربران توانایی سفارشیسازی کلمات را برای سیری دارند.
سیری توانایی باز کردن برنامهها را دارد و درباره زمان پخش فیلمها، امتیازات ورزشی، رزرو میز در رستوران ارسال پیام یا برقراری تماس با مخاطبان از طریق فهرست مخاطبان و انجام وظایف دیگر به کاربر کمک میکند. سیری تنها محدود به دریافت دستورات و اجرای آنها در پسزمینه نیست. او نه تنها این توانایی را دارد تا به شما بگوید اکنون در حال چه کاری است، بلکه میتواند پرسشهایی را مطرح کند که با استفاده از پاسخهای شما تصمیمات دقیقتر و عملکرد بهتری ارائه کند. سیری در طی این سالها از یک سیستم تشخیص صوتی به ابزاری کارآمدتر تبدیل شده است. در برخی موارد، دستیاران شخصی هنوز توانایی انجام کارهایی همچون استخراج و تفسیر منظور کاربر، درخواست و دریافت روشن اطلاعات و انجام عملیاتی بر اساس نیت کاربر خود را ندارند. در مجموع، سیری این ویژگیها را دارد:
- از رابط خوبی برای گفتوگو برخوردار است.
- قابل پیکربندی است.
- از حافظه کوتاه و بلندمدت بهره میبرد.
- توانایی درک محتوای مکالمات را دارد.
- توانایی ارائه سرویسهای مسافرتی و کار در زمینه تجارت الکترونیک را دارد.
- بهطور خودکار توانایی ارائه اطلاعات و خدمات را دارد.
- توانایی ارائه توصیههای شخصی را دارد.
- در نهایت، توانایی کنترل عملیاتی را که روی آیاواس انجام میشود، دارد.
معماری مفهومی سیری
نخستین حق اختراع اپل در ارتباط با سیری در سال 2012 منتشر شد. در شکل 1، نمونهای از پیکربندی سیری را مشاهده میکنید. در شکل 2، تجسمی از معماری سیستمی سیری را برای چند مشتری مختلف و در فرآیندهای مختلفی که شامل سیستمهای ناوبری ماشین، سیستمهای کنترل صوتی و سیستمهای سرگرمی ماشین است مشاهده میکنید.
شکل 1: دیاگرام سادهای از تجسم یک دستیار هوشمند خودکار را در تصویر مشاهده میکنید. ورودیها و رویدادها بهعنوان مقادیر خام به این چرخه هوشمند وارد شدند و بعد از آنکه در هسته مرکزی این دستیار شخصی مورد تجزیه و تحلیل قرار گرفتند، خروجی در اختیار کاربر یا دیگر فرآیندها قرار میگیرد.
شکل 2: معماری سیستمی نشان داده شده برای انواع مختلفی از کلاینتها و حالتهای عملیاتی
اپل سال گذشته میلادی حق اختراع جدیدی را برای سیری منتشر ساخت که در آن کاربران توانایی سفارشیسازی کلمات را برای سیری دارند (شکل 3). با توجه به اینکه هر کاربر از یک سری کلمات و لغات خاص استفاده میکند که ممکن است در بانک اطلاعاتی سیری وجود نداشته باشد، اپل تصمیم گرفت برای تعامل بیشتر کاربر با سیری این ویژگی منحصر بهفرد را به سیری اضافه کند. این ویژگی جدید ماحصل تلاشهای لیک هری چن، آدام جان چه یر، دیدییر رنه گزونی و توماس رابرت گروبر بوده است.
شکل 3: اپل با ارائه حق اختراع سال 2014 میلادی موفق به ثبت اختراع لغات شخصی برای سیری شد.
سیری چگونه کار میکند؟
زمانی که با سیری به صحبت میپردازید، گفتار شما به سرعت کدگذاری و در قالب دادههای دیجیتالی فشرده نگهداری میشود. سیگنال تلفن همراه شما از طریق نزدیکترین برج سلولی که در نزدیکی محل شما قرار دارد بهصورت بیسیم مخابره و از طریق خطوطی مجدد به ISP بازگردانده میشود. جایی که در آن ارتباط با سرور ابری برقرار و در این مرحله مجموعهای از حالتها در قالب یک زبان قابل درک بارگذاری شده و مجدد ارسال میشود. بهطور همزمان، گفتار شما بهصورت محلی روی دستگاه تلفن همراه شما نیز مورد بررسی قرار میگیرد. تشخیصدهنده نصب شده روی تلفن همراه با سرور مستقر در کلاود ارتباط برقرار میکند تا مطمئن شود آیا دستور وارد شده میتواند بهصورت محلی مدیریت شود یا حتماً لازم است برای دریافت کمک بیشتر به شبکهای متصل شود. بهطور مثال، از تلفن همراه خود درخواست کنید یک موسیقی برای شما پخش کند. اگر تشخیصدهنده محلی متوجه شود قدرت کافی برای پردازش گفتار شما را دارد، به سرور کلاود اعلام میکند به کمک او نیاز ندارد و پیغام “Thanks very much” و “we’re OK here” را برای سرور ارسال میکند.
مکانیسمهای تشخیص صدا در طی این سالها پیشرفت قابل توجهی داشتهاند و زمانی که دکمه را فشار دهید و شروع به صحبت کنید، در بیشتر موارد قادر به تشخیص کلمات وارد شده هستند.
سرور گفتار شما را با مدل آماری برآورد شده بر اساس گفتار شما و صداهایی که در مجاورت شما بوده است مورد مقایسه قرار میدهد. بهطور مثال، کلمات شما از چه حرفهایی تشکیل شده است؟ (در همان زمان، گفتار شما با یک نسخه استاندارد مقایسه میشود.) در هر دو حالت، ضریب موفقیت بالا است. بر اساس این نظریه گفتار شما در قالب مجموعهای از حروف صدادار و صامت شناخته و سپس از طریق یک مدل زبانی کلمات موجود در گفتار شما تخمین زده میشود.
در ادامه، کامپیوتر فهرستی از کاندیداهای مفسر را برای تفسیر مجموعه لغاتی که در گفتار شما وجود داشته است، مورد استفاده قرار میدهد. اگر ترجمه لغات بهطور دقیق انجام شده باشد، کامپیوتر تشخیص میدهد، شما در نظر دارید یک پیام کوتاه را به اریک اولسن که اطلاعات او در فهرست مخاطبان شما قرار دارد ارسال کنید و پیام شما بهطرز معجزه آسایی روی صفحه به نمایش درمیآید، بدون آنکه به استفاده از دست خود نیاز داشته باشید. اگر گفتار شما بیش از اندازه مبهم باشد و فرآیند پردازش طولانی و پیچیده شود، کامپیوتر تسلیم میشود و به شما اعلام میکند که معنای گفتار شما Eric Olssen بوده یا Eric Schmdit. مکانیسمهای تشخیص صدا در طی این سالها پیشرفت قابل توجهی داشتهاند و زمانی که دکمه را فشار دهید و شروع به صحبت کنید، در بیشتر موارد قادر به تشخیص کلمات وارد شده هستند.
مردم از سیری چگونه استفاده میکنند؟
بر اساس نظرسنجیهای به عمل آمده، بخش عمدهای از کاربران سیری از این دستیار شخصی برای انجام وظایف پایه شبیه به برقراری تماس، جستوجوی اطلاعات یا پیام کوتاه استفاده میکنند.
تعداد کمی از کاربران برای تنظیم قرار ملاقات و انجام وظایف پیچدهتر از آن استفاده میکنند. اما اگر از سیری برای انجام وظایف دیگر استفاده شود، آنگاه مشاهده خواهید کرد بهرهوری شما تا چه میزان افزایش پیدا میکند. هر چند دستیار شخصی برای انجام کارهای حرفهای طراحی شده است، اما میتوانید از او پرسشهای عجیب و غریبی نیز بپرسید. بهطور مثال، اگر از سیری بپرسید زندگی چه معنایی میدهد، پاسخهای زیر را دریافت خواهید کرد:
• "It's nothing Nietzsche couldn't teach ya."
• "I don't know. But I think there's an app for that..."
• "All evidence to date suggests it's chocolate."
یا اگر به او بگویید عاشقش هستید، به شما خواهد گفت:
• "That's nice. Can we get back to work now?"
• "All you need is love. And your iPhone."
• "I hope you don't say that to all the other phones."
منابع:
-http://www.patentlyapple.com/patently-apple/2014/12/apple-granted-32-patents-today-covering-advanced-siri-capabilities-iphone-free-fall-protection-idevice-design-wins.html
-https://en.wikipedia.org/wiki/Knowledge_Navigator
-http://appledailyreport.com/apple-wins-patent-personalized-vocabulary-siri/
-http://appledailyreport.com/apple-wants-to-allow-you-to-add-a-personalized-vocabulary-to-siri
-http://www.patentlyapple.com/patently-apple/2012/01/apple-introduces-us-to-siri-the-killer-patent.html
-http://electronics.howstuffworks.com/gadgets/high-tech-gadgets/siri6.htm
-http://www.zdnet.com/article/how-apples-siri-really-works
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟