پاداش‌ها و یادداشت‌ها!
الگوریتم‌های یادگیری تقویتی عملکرد مغز را شرح می‌دهند!
الگوریتم جدید دیپ‌مایند برای یادگیری آنچه بدو محول شده، کاری انجام می‌دهد که پیش‌بینی می‌کند بیشترین پاداش را به همراه دارد. الگوریتم، پاداش‌های‌ دریافتی را با پاداش‌هایی که انتظارشان را داشت مقایسه و با تحلیل تفاوت‌ها و میزان خطاها عملکرد خود را اصلاح می‌کند. پژوهشگران بر این باور هستند شیوه یادگیری تقویتی (Reinforcement Learning) ممکن است نحوه یادگیری مباحث توسط مغز را تشریح کند. دیپ‌مایند با بهینه‌سازی الگوریتم‌های یادگیری تقویتی (Reinforcement Learning) درباره نقش دوپامین در یادگیری مغز به جزییات جدیدی دست یافت.

در سال 1951 ماروین مینسکی که آن‌زمان دانشجوی دانشگاه هاروارد بود، کوشید با بهره‌گیری از یافته‌های حوزه رفتارشناسی حیوانات، ماشین هوشمندی طراحی کند. او در کار خود به آثار روان‌شناس معروف، ایوان پاولف تکیه داشت؛ کسی که با آزمایش روی سگ‌ها نشان داد چگونه پاداش (reward)‌ و تنبیه‌ (punishment) سبب می‌شوند حیوانات چیزهای جدیدی یاد بگیرند. مینسکی بر همین اساس، رایانه‌ای ساخت که می‌توانست با همان الگوی تقویتی (reinforcement) پیوسته موضوعات جدیدی یاد بگیرد تا گونه‌ای از بازی باغ هزارتوی مجازی را حل کند. در آن سال‌ها عصب‌شناسان هنوز مکانیسم‌های درونی مغز را که موجب یادگیری حیوانات می‌شد، کشف نکرده بودند، اما مینسکی تا حدودی موفق شد آن رفتار را تقلید کند و هوش مصنوعی را پیش ببرد. چند دهه بعد وقتی یادگیری تقویتی
(Reinforcement Learning) هنوز دوران بلوغ خود را می‌گذراند، حوزه عصب‌شناسی را یاری داد تا مکانیسم‌های ناشناخته مغز را کشف کند و بدین‌سان به شکل‌گیری چرخه موثری از پیشرفت بین این دو حوزه [یادگیری تقویتی و عصب‌شناسی] کمک کرد. دیپ‌مایند (DeepMind)، زیرمجموعه شرکت آلفابت در حوزه هوش مصنوعی مقاله‌ای در مجله نیچر منتشر کرده که بار دیگر از آموزه‌های یادگیری تقویتی بهره گرفته تا درباره مکانیسم‌های پاداش در مغز انسان نظریه‌ جدیدی ارائه دهد. فرضیه مذکور که یافته‌های تجربی اولیه آن‌را تایید می‌‌کنند، نه‌تنها می‌‌تواند فهم ما از انگیزش و سلامت روان را ارتقا دهد، بلکه ممکن است سمت‌‌وسوی فعلی پژوهش‌های هوش مصنوعی را که هدفش دست‌یابی به هوش عمومی انسان‌گونه‌تر است، تایید ‌کند. 
در نگاه کلی، یادگیری تقویتی پیرو همان تحقیقات پاولف روی سگ‌ها است که صرفا از طریق بازخورد مثبت و منفی می‌توان وظایف پیچیده و جدید را به‌خوبی به یادگیرنده آموزش داد. یک الگوریتم برای آموختن وظیفه‌ای که بدو محول شده، ابتدا به صورت تصادفی پیش‌بینی می‌کند کدام کنش ممکن است او را به پاداش برساند. پس همان کنش را برمی‌گزیند، سپس پاداش (بازخورد) واقعی را دریافت می‌کند و بعد، پیش‌بینی خود را بسته به پاداش دریافتی و حاشیه خطای خود اصلاح و تنظیم می‌کند. پس از میلیون‌ها یا حتی میلیاردها بار تلاش، خطاهای پیش‌بینی الگوریتم به صفر نزدیک می‌شود و آن‌گاه الگوریتم دقیقا می‌داند باید چه کنش‌هایی داشته باشد تا حداکثر پاداش را به دست آورد و وظیفه‌اش را کامل انجام دهد. 

در دهه 90 میلادی با کشفی که وام‌دار الگوریتم‌های یادگیری تقویتی بود، مشخص شد که سازوکار پاداش در مغز شباهت زیادی با یادگیری تقویتی دارد. وقتی انسان یا حیوانی می‌خواهد کاری انجام دهد، سلول‌های عصبی ترشح‌کننده دوپامین که به آن‌ها نورون‌های دوپامین گفته می‌شود، پاداش مورد انتظارشان را پیش‌بینی می‌کنند ]دوپامین نوعی پیام‌رسان شیمیایی و موثر در ایجاد حس سرخوشی است[. پس از آن‌که سلول‌های عصبی مذکور پاداش واقعی کارشان را دریافت کردند، متناسب با میزان خطای پیش‌بینی‌شان دوپامین منتشر می‌کنند. اگر پاداش دریافتی بهتر از حدی باشد که پیش‌بینی‌ شده بود، سلول‌های عصبی دوپامین بیشتری منتشر می‌کنند، اما اگر پاداش بدتر از حد پیش‌بینی‌ شده باشد، جلوی انتشار دوپامین را می‌گیرند. به عبارت دیگر، دوپامین همچون سیگنال تصحیح‌کننده‌ای است که به سلول‌های عصبی می‌گوید پیش‌بینی‌های‌شان را چگونه تنظیم کنند تا به واقعیت نزدیک‌تر شوند. این پدیده که به آن خطای پیش‌بینی پاداش (Reward Prediction Error) می‌گویند، بسیار شبیه الگوریتم یادگیری تقویتی عمل می‌کند.  مقاله جدید دیپ‌مایند بر ارتباط تنگاتنگ بین مکانیسم‌های یادگیری طبیعی و مصنوعی مبتنی است. در سال 2017 محققان این مرکز، الگوریتم یادگیری تقویتی جدیدی ارائه کردند که از آن زمان تاکنون در انجام وظایف مختلف، عملکرد بیش از پیش چشم‌گیری از خود نشان داده است. آن‌ها اکنون معتقدند که این روش جدید می‌تواند درباره نحوه عملکرد سلول‌های عصبی دوپامین در مغز توضیح دقیق‌تری ارائه دهد.   

 این الگوریتم ارتقا یافته، به‌ویژه نحوه پیش‌بینی پاداش‌ها را تغییر می‌دهد. در رویکرد قدیمی، برآورد الگوریتم از پاداش‌ها به‌صورت یک عدد نشان داده می‌شد، اما رویکرد جدید، پیش‌بینی‌ها را دقیق‌تر و به‌صورت یک توزیع نشان می‌دهد. این تغییر به ارائه فرضیه‌‌ جدیدی منجر می‌‌شود: آیا سلول‌های عصبی دوپامین مغز نیز پاداش‌ها را با همین شیوه توزیعی پیش‌بینی می‌کنند؟
برای آزمودن این نظریه، دیپ‌مایند با مشارکت گروهی از کارشناسان هاروارد درصدد برآمد رفتار نورون‌های دوپامین موش‌ها را بررسی کند. آن‌ها موش‌ها را به انجام کاری واداشتند و بسته به عملکردشان به آن‌ها پاداش دادند و طی تمام دوره آزمایش، الگوهای ترشح در نورون‌های دوپامین آن‌ها را اندازه گرفتند. آن‌ها دریافتند که هر نورون مقادیر متفاوتی دوپامین ترشح می‌کند؛ یعنی نتایجی که نورون‌ها پیش‌بینی کرده بودند، متفاوت بود. برخی از پیش‌بینی‌ها بسیار «خوش‌بینانه» و بیش از پاداشی بود که باید واقعا دریافت می‌کردند. سایر پیش‌بینی‌ها «بدبینانه‌تر» بودند و واقعیت را بدتر [ از آنچه بود]دیده بودند. (در این‌جا پیش‌بینی‌ها به عکس‌العمل نورون‌ها به واقعیت‌ها اشاره دارد.) وقتی پژوهشگران توزیع پیش‌بینی‌ها را واکاوی کردند، متوجه شدند که توزیع به‌شدت پیرو توزیع پاداش‌های واقعی است. این داده‌ها شاهد مجاب‌کننده‌ای است بر این‌که مغز برای تقویت الگوریتم یادگیریش عملاً از پیش‌بینی‌های توزیعی پاداش بهره می‌برد (شکل 1). 


شکل 1 - محققان با سنجش رفتار سلول‌های عصبی دوپامین در موش‌ها دریافتند که توزیع پیش‌بینی‌های (رمزگشایی شده) سلول‌های عصبی بسیار پیرو توزیع پاداش‌های واقعی است (واقعیت عینی). 

وولفرام شولتز از پیشگامان تحقیق درباره رفتار سلول‌های عصبی دوپامین که در پژوهش یادشده دیپ‌‌مایند مشارکت نداشت، در ایمیلی نوشته که این یافته‌، دیدگاه مبتنی بر نقش دوپامین در مشخص کردن خطای پیش‌بینی‌ پاداش را به‌خوبی بسط می‌دهد. به‌گفته وی، جالب است که چگونه این پاسخ دوپامینی بسیار ساده به‌‌گونه‌ای پیش‌بینی‌پذیر، از الگوهای حسی فرآیندهای بنیادی یادگیری زیست‌شناختی تبعیت می‌کند که اکنون در حال تبدیل شدن به جزئی از هوش مصنوعی است. این پژوهش هم برای هوش مصنوعی و هم عصب‌شناسی پیام‌هایی دارد. نخست این‌که یادگیری تقویتی توزیع‌شده را به‌عنوان مسیری نویدبخش برای قابلیت‌های پیشرفته‌تر هوش مصنوعی تایید می‌کند. مت بوت‌وینیک، مدیر پژوهش‌های عصب‌شناسی دیپ‌مایند و از نویسندگان ارشد مقاله می‌گوید، اگر مغز این شیوه را به کار می‌برد، احتمالا ایده خوبی است و نشان می‌دهد تکنیکی رایانشی است که می‌تواند در موقعیت‌های واقعی به کار گرفته شود و رفته‌رفته با دیگر فرآیند‌های رایانشی به‌خوبی سازگار ‌شود. 
 این پژوهش می‌تواند به‌روزرسانی مهمی باشد بر یکی از نظریه‌های بنیادی عصب‌شناسی درباره سیستم‌های پاداش در مغز که نتیجتا می‌تواند درک ما را درباره هرچیزی از انگیزش گرفته تا سلامت روان ارتقا دهد. مثلا برخورداری از نورون‌های دوپامین «خوش‌بین» یا «بدبین» چه معنایی می‌تواند داشته باشد؟ اگر مغز به‌صورت گزینشی فقط به یکی از آن دو گوش فرا دهد، آیا می‌تواند به بی‌تعادلی‌های شیمیایی و ایجاد افسردگی منجر شود؟ با افزایش یافتن فرآیندهای رمزگشا در مغز، نتایج نیز مشخص می‌کنند که هوش انسانی از چه چیزی تشکیل شده و این به‌گفته بوت‌وینیک، درباره آنچه طی زندگی روزانه در مغز انسان می‌گذرد، چشم‌انداز جدیدی ارائه می‌دهد .

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟