در سال 1951 ماروین مینسکی که آنزمان دانشجوی دانشگاه هاروارد بود، کوشید با بهرهگیری از یافتههای حوزه رفتارشناسی حیوانات، ماشین هوشمندی طراحی کند. او در کار خود به آثار روانشناس معروف، ایوان پاولف تکیه داشت؛ کسی که با آزمایش روی سگها نشان داد چگونه پاداش (reward) و تنبیه (punishment) سبب میشوند حیوانات چیزهای جدیدی یاد بگیرند. مینسکی بر همین اساس، رایانهای ساخت که میتوانست با همان الگوی تقویتی (reinforcement) پیوسته موضوعات جدیدی یاد بگیرد تا گونهای از بازی باغ هزارتوی مجازی را حل کند. در آن سالها عصبشناسان هنوز مکانیسمهای درونی مغز را که موجب یادگیری حیوانات میشد، کشف نکرده بودند، اما مینسکی تا حدودی موفق شد آن رفتار را تقلید کند و هوش مصنوعی را پیش ببرد. چند دهه بعد وقتی یادگیری تقویتی
(Reinforcement Learning) هنوز دوران بلوغ خود را میگذراند، حوزه عصبشناسی را یاری داد تا مکانیسمهای ناشناخته مغز را کشف کند و بدینسان به شکلگیری چرخه موثری از پیشرفت بین این دو حوزه [یادگیری تقویتی و عصبشناسی] کمک کرد. دیپمایند (DeepMind)، زیرمجموعه شرکت آلفابت در حوزه هوش مصنوعی مقالهای در مجله نیچر منتشر کرده که بار دیگر از آموزههای یادگیری تقویتی بهره گرفته تا درباره مکانیسمهای پاداش در مغز انسان نظریه جدیدی ارائه دهد. فرضیه مذکور که یافتههای تجربی اولیه آنرا تایید میکنند، نهتنها میتواند فهم ما از انگیزش و سلامت روان را ارتقا دهد، بلکه ممکن است سمتوسوی فعلی پژوهشهای هوش مصنوعی را که هدفش دستیابی به هوش عمومی انسانگونهتر است، تایید کند.
در نگاه کلی، یادگیری تقویتی پیرو همان تحقیقات پاولف روی سگها است که صرفا از طریق بازخورد مثبت و منفی میتوان وظایف پیچیده و جدید را بهخوبی به یادگیرنده آموزش داد. یک الگوریتم برای آموختن وظیفهای که بدو محول شده، ابتدا به صورت تصادفی پیشبینی میکند کدام کنش ممکن است او را به پاداش برساند. پس همان کنش را برمیگزیند، سپس پاداش (بازخورد) واقعی را دریافت میکند و بعد، پیشبینی خود را بسته به پاداش دریافتی و حاشیه خطای خود اصلاح و تنظیم میکند. پس از میلیونها یا حتی میلیاردها بار تلاش، خطاهای پیشبینی الگوریتم به صفر نزدیک میشود و آنگاه الگوریتم دقیقا میداند باید چه کنشهایی داشته باشد تا حداکثر پاداش را به دست آورد و وظیفهاش را کامل انجام دهد.
در دهه 90 میلادی با کشفی که وامدار الگوریتمهای یادگیری تقویتی بود، مشخص شد که سازوکار پاداش در مغز شباهت زیادی با یادگیری تقویتی دارد. وقتی انسان یا حیوانی میخواهد کاری انجام دهد، سلولهای عصبی ترشحکننده دوپامین که به آنها نورونهای دوپامین گفته میشود، پاداش مورد انتظارشان را پیشبینی میکنند ]دوپامین نوعی پیامرسان شیمیایی و موثر در ایجاد حس سرخوشی است[. پس از آنکه سلولهای عصبی مذکور پاداش واقعی کارشان را دریافت کردند، متناسب با میزان خطای پیشبینیشان دوپامین منتشر میکنند. اگر پاداش دریافتی بهتر از حدی باشد که پیشبینی شده بود، سلولهای عصبی دوپامین بیشتری منتشر میکنند، اما اگر پاداش بدتر از حد پیشبینی شده باشد، جلوی انتشار دوپامین را میگیرند. به عبارت دیگر، دوپامین همچون سیگنال تصحیحکنندهای است که به سلولهای عصبی میگوید پیشبینیهایشان را چگونه تنظیم کنند تا به واقعیت نزدیکتر شوند. این پدیده که به آن خطای پیشبینی پاداش (Reward Prediction Error) میگویند، بسیار شبیه الگوریتم یادگیری تقویتی عمل میکند. مقاله جدید دیپمایند بر ارتباط تنگاتنگ بین مکانیسمهای یادگیری طبیعی و مصنوعی مبتنی است. در سال 2017 محققان این مرکز، الگوریتم یادگیری تقویتی جدیدی ارائه کردند که از آن زمان تاکنون در انجام وظایف مختلف، عملکرد بیش از پیش چشمگیری از خود نشان داده است. آنها اکنون معتقدند که این روش جدید میتواند درباره نحوه عملکرد سلولهای عصبی دوپامین در مغز توضیح دقیقتری ارائه دهد.
این الگوریتم ارتقا یافته، بهویژه نحوه پیشبینی پاداشها را تغییر میدهد. در رویکرد قدیمی، برآورد الگوریتم از پاداشها بهصورت یک عدد نشان داده میشد، اما رویکرد جدید، پیشبینیها را دقیقتر و بهصورت یک توزیع نشان میدهد. این تغییر به ارائه فرضیه جدیدی منجر میشود: آیا سلولهای عصبی دوپامین مغز نیز پاداشها را با همین شیوه توزیعی پیشبینی میکنند؟
برای آزمودن این نظریه، دیپمایند با مشارکت گروهی از کارشناسان هاروارد درصدد برآمد رفتار نورونهای دوپامین موشها را بررسی کند. آنها موشها را به انجام کاری واداشتند و بسته به عملکردشان به آنها پاداش دادند و طی تمام دوره آزمایش، الگوهای ترشح در نورونهای دوپامین آنها را اندازه گرفتند. آنها دریافتند که هر نورون مقادیر متفاوتی دوپامین ترشح میکند؛ یعنی نتایجی که نورونها پیشبینی کرده بودند، متفاوت بود. برخی از پیشبینیها بسیار «خوشبینانه» و بیش از پاداشی بود که باید واقعا دریافت میکردند. سایر پیشبینیها «بدبینانهتر» بودند و واقعیت را بدتر [ از آنچه بود]دیده بودند. (در اینجا پیشبینیها به عکسالعمل نورونها به واقعیتها اشاره دارد.) وقتی پژوهشگران توزیع پیشبینیها را واکاوی کردند، متوجه شدند که توزیع بهشدت پیرو توزیع پاداشهای واقعی است. این دادهها شاهد مجابکنندهای است بر اینکه مغز برای تقویت الگوریتم یادگیریش عملاً از پیشبینیهای توزیعی پاداش بهره میبرد (شکل 1).
شکل 1 - محققان با سنجش رفتار سلولهای عصبی دوپامین در موشها دریافتند که توزیع پیشبینیهای (رمزگشایی شده) سلولهای عصبی بسیار پیرو توزیع پاداشهای واقعی است (واقعیت عینی).
وولفرام شولتز از پیشگامان تحقیق درباره رفتار سلولهای عصبی دوپامین که در پژوهش یادشده دیپمایند مشارکت نداشت، در ایمیلی نوشته که این یافته، دیدگاه مبتنی بر نقش دوپامین در مشخص کردن خطای پیشبینی پاداش را بهخوبی بسط میدهد. بهگفته وی، جالب است که چگونه این پاسخ دوپامینی بسیار ساده بهگونهای پیشبینیپذیر، از الگوهای حسی فرآیندهای بنیادی یادگیری زیستشناختی تبعیت میکند که اکنون در حال تبدیل شدن به جزئی از هوش مصنوعی است. این پژوهش هم برای هوش مصنوعی و هم عصبشناسی پیامهایی دارد. نخست اینکه یادگیری تقویتی توزیعشده را بهعنوان مسیری نویدبخش برای قابلیتهای پیشرفتهتر هوش مصنوعی تایید میکند. مت بوتوینیک، مدیر پژوهشهای عصبشناسی دیپمایند و از نویسندگان ارشد مقاله میگوید، اگر مغز این شیوه را به کار میبرد، احتمالا ایده خوبی است و نشان میدهد تکنیکی رایانشی است که میتواند در موقعیتهای واقعی به کار گرفته شود و رفتهرفته با دیگر فرآیندهای رایانشی بهخوبی سازگار شود.
این پژوهش میتواند بهروزرسانی مهمی باشد بر یکی از نظریههای بنیادی عصبشناسی درباره سیستمهای پاداش در مغز که نتیجتا میتواند درک ما را درباره هرچیزی از انگیزش گرفته تا سلامت روان ارتقا دهد. مثلا برخورداری از نورونهای دوپامین «خوشبین» یا «بدبین» چه معنایی میتواند داشته باشد؟ اگر مغز بهصورت گزینشی فقط به یکی از آن دو گوش فرا دهد، آیا میتواند به بیتعادلیهای شیمیایی و ایجاد افسردگی منجر شود؟ با افزایش یافتن فرآیندهای رمزگشا در مغز، نتایج نیز مشخص میکنند که هوش انسانی از چه چیزی تشکیل شده و این بهگفته بوتوینیک، درباره آنچه طی زندگی روزانه در مغز انسان میگذرد، چشمانداز جدیدی ارائه میدهد .
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟