فرآیند آموزش نظارتشده، به دادههای برچسبگذاریشده توسط انسانها نیاز دارد و شبکههای عصبی اغلب از میانبرها و مسیرهای کوتاه استفاده میکنند تا بیاموزند که چگونه از برچسبها و اطلاعات برای تشخیص عناصر بصری درون یک تصویر استفاده کنند. بهطور مثال، یک شبکه عصبی مصنوعی ممکن است از علفها برای تشخیص عکس یک گاو استفاده کند، زیرا در بیشتر مواقع تصاویری که از گاوها تهیه میشود در مزارع است. در حقیقت این دو عنصر، شامل حداقل دادههایی هستند که به هوش مصنوعی در تشخیص کمک میکند. الکسی افروس «Alexei Efros»، دانشمند و پژوهشگر حوزه هوش مصنوعی دانشگاه کالیفرنیا، به این نکته اشاره دارد که ما در حال ساخت نسلی از الگوریتمها هستیم که شبیه به دانشآموزانی رفتار میکنند که تمام ترم در کلاس حضور ندارند و مطالعهای نکردهاند، اما در شب امتحان با انبوهی از اطلاعات روبهرو میشوند و تنها بهفکر حفظ آنها هستند. در چنین حالتی، دانشآموز به معنی واقعی کلمه مطالب را یاد نمیگیرد، اما در امتحان عملکرد خوبی دارد.
وجه اشتراک هوش زیستی و ماشین برای محققان جالب است، زیرا یادگیری نظارتی (Supervised Learning) ممکن است تنها محدود به مباحثی شود که مغزهای زیستی بهخوبی قادر به درک آنها هستند. حیوانات و انسانها برای یاد گرفتن از مجموعه دادههای برچسبگذاریشده، استفاده نمیکنند. بیشتر مواقع آنها خودشان به اکتشاف محیط پیرامونشان میپردازند و با اینکار، درک قوی و درستی از جهان بهدست میآورند. اکنون، برخی دانشمندان علوم اعصاب محاسباتی (Computational Neuroscientists) شروع به کاوش در شبکههای عصبی آموزشدیده کردهاند که با دادههای خیلی کم یا بدون برچسبگذاریشده توسط انسانها کار میکنند و بهعنوان الگوریتمهای یادگیری خودنظارتی (Self-Supervised Learning) معروف هستند.
الگوریتمهای یادگیری خودنظارتی، در مدلسازی زبان انسان و عملیات تشخیص تصاویر عملکرد قابل قبولی دارند. این مدلهای محاسباتی بر مبنای عملکرد سیستم بینایی و شنوایی موجودات توسعه پیدا کردهاند تا شباهت زیادی به عملکرد مغز انسانها در زمینه یادگیری پیدا کنند. دانشمندان علوم اعصاب به این نکته اشاره دارند که شبکههای مصنوعی، اطلاعات جالب توجهی درباره برخی روشهای یادگیری مغز انسان ارائه کردهاند.
نظارت ناقص
یادگیری خودنظارتی به شبکه عصبی اجازه میدهد تا خودش بفهمد چه چیزی مهم و چه چیزی کمارزش است، این فرآیند ممکن است عملکرد مغز ما در یادگیری و انجام کارها را شرح دهد.
ساخت مدلهای مغزی با الهام از شبکههای عصبی مصنوعی نزدیک به 10 سال قبل آغاز شد و ساخت آنها تقریبا با زمان ظهور شبکه عصبی الکسنت (AlexNet) که طبقهبندی تصاویر نامشخص را متحول کرد، همزمان بود. این شبکه، همانند دیگر شبکههای عصبی از لایههایی از نورونهای مصنوعی ساخته شده که واحدهای محاسباتی آن از طریق ارتباط با یکدیگر میتوانند محاسبات را انجام دهند. بهطوریکه از نظر قدرت یا وزن (Weight) متفاوت هستند. لازم به توضیح است که وزن سیناپسی (Synaptic Weight) به قدرت یا دامنه اتصال بین دو گره در شبکه عصبی اشاره دارد.
اگر یک شبکه عصبی موفق نشود یک تصویر را بهدرستی طبقهبندی کند، الگوریتم یادگیری، وزن اتصالات بین سلولهای عصبی را بازبینی و بهروز میکند تا احتمال اشتباه طبقهبندی را در دور بعدی آموزش کمتر کند. بر مبنای الگوی فوق، الگوریتم این فرآیند را بارها و بارها با تمام تصاویر تمرینی تکرار میکند، تا زمانی که میزان خطای شبکه بهشکل قابل قبولی کم شود.
درست در همان زمان، دانشمندان علوم اعصاب اولین مدلهای محاسباتی سیستم بینایی نخستیها (Primate Visual System) را با استفاده از شبکههای عصبی مثل AlexNet و نمونههای مشابه آن توسعه دادند. این مدلها نتایج امیدبخشی ارائه کردند، زیرا هنگامی که به میمونها و شبکههای عصبی مصنوعی، تصاویر مشابهی را نشان دادند، فعالیت سلولهای واقعی و سلولهای مصنوعی مطابقت جالبی نشان دادند.
در شرایطی که نتایج درخشانی در این زمینه بهدست آمد، اما محققان خیلی زود متوجه محدودیتهای یادگیری تحت نظارت شدند. بهطور مثال، در سال 2017 میلادی، لئون گاتیس (Leon Gatys)، دانشمند کامپیوتر دانشگاه توبینگن در آلمان، و همکارانش تصویری از یک فورد مدل T را انتخاب کردند و تصویری از پوست پلنگ را بهصورت لایه پوششی (Mask) کمرنگ روی آن عکس کشیدند تا تصویری مبهم به دست آید تا امکان تشخیص واضح آن برای الگوریتم هوشمند وجود نداشته باشد. شبکه عصبی مصنوعی پیشرفته بهدرستی تصویر اصلی را بهعنوان فورد مدل T طبقهبندی کرد، اما تصویر مات پوست پلنگی را هم در نظر میگرفت. به بیان دقیقتر، شبکه عصبی مصنوعی بر مبنای یادگیری تحت نظارت، هیچ درک درستی از شکل ماشین یا پلنگ نداشت و تنها قضاوت خود را به بافت محدود کرد.
با توجه به آزمایش انجامشده، بهدرستی درک میکنید که چرا استراتژیهای یادگیری خودنظارتی در حال جایگزین شدن با الگوی سنتی یادگیری تحت نظارت هستند. در این روش، انسانها دادهها را برچسبگذاری نمیکنند و این شبکه است که باید ماهیت دادهها را بر مبنای آموزشهای مختصری درک کند.
الگوریتمهای خودنظارتی میتوانند شکافهایی در دادهها ایجاد کنند و از شبکه عصبی بخواهند تا جاهای خالی را پر کند. بهطور مثال، در یکی از تمرینها، الگوریتم یادگیری چند کلمه اول از یک جمله را به شبکه عصبی مصنوعی نشان میدهد و درخواست کرد کلمه بعدی را پیشبینی کند. در چنین حالتی، بهنظر میرسد هنگامی که این مدل با مجموعهای عظیم از متون جمعآوریشده از اینترنت آموزش میبیند، میتواند قواعد نحوی زبان را یاد بگیرد و توانایی زبانی چشمگیری را بدون نظارت و برچسبهای خارجی نشان دهد.
حیوانات و انسانها بهتنهایی قادر به کشف محیط پیرامون خود هستند و با انجام این کار درک کاملی از جهان بهدست میآورند، از اینرو، عملکرد مغز ما به برچسبگذاریها وابسته نیست و بر مبنای یادگیری خودنظارتی به کشف جهان هستی میپردازد.
تلاشهای مشابهی در حوزه بینایی کامپیوتر در حال انجام است. بهطور مثال، اواخر سال 2021 میلادی، کایمینگ هی (Kaiming He) و همکارانش روشی بهنام پوشاندن خودکار- رمزگذاری (masked auto-encoder) ابداع کردند که مبتنی بر تکنیکی بود که تیم افروس در سال 2016 ابداع کرد. الگوریتم یادگیری خودنظارتی بهشکل تصادفی تقریبا به سهچهارم از هر تصویر بهشکل شفاف و روشن دسترسی نداشت. سپس، به روش پوشاندن خودکار- رمزگذاری، بخشهای غیرپنهان تصویر بهعنوان الگوی مبنا در اختیارش قرار گرفت که نمایش ریاضیاتی، فشرده و شامل اطلاعات مهمی درباره آن شیء بود. پس از این مرحله یک رمزگشا موفق شد تصاویر را دوباره به تصاویر کامل تبدیل کند.
الگوریتم یادگیری خودنظارتی، ترکیب رمزگذار-رمزگشا را به ماشین آموزش میدهد تا تصاویری با بخشهای پنهان را به نسخههای کاملی از تصویر اولیه تبدیل کند. در این میان، هرگونه تفاوت بین تصاویر واقعی و تصاویر بازسازیشده به سیستم بازگردانده شد تا به یادگیری آن کمک کند. به بیان دقیقتر، این فرآیند برای مجموعهای از تصاویر آموزشی به اندازهای تکرار میشود تا زمانی که میزان خطای سیستم بهطور تقریبی کم شود. بهطور مثال، هنگامی که به سیستم آموزشدیده پوشاندن خودکار- رمزگذاری، تصویری از یک اتوبوس که قبلا مشاهده نکرده نشان داده شد، سیستم با موفقیت ساختار اتوبوس را بازسازی کرد. بلیک ریچاردز، عصبشناس برجسته محاسباتی بر این باور است که 90 درصد کارهایی که مغز ما انجام میدهد، بر مبنای یادگیری خودنظارتی است.
اینگونه بهنظر میرسد که بازسازی بخشهای نهفته شامل اطلاعات عمیقتری نسبت به رویکردهای قبلی هستند. در چنین شرایطی این سیستم ممکن است نهتنها بافتها، بلکه شکل (ماشین، پلنگ و غیره) را درک کند. به بیان دقیقتر، باید بگوییم، مفهوم ایده یادگیری خودنظارتی به این نکته اشاره دارد که شما دانش و درک خود از مفاهیم را از پایه ارتقاء میدهید. درست مثل دانشآموزی که در طول ترم درس میخواند و مفاهیم را درک میکند، بدون اینکه برای قبولی در امتحان یک شبه حجم عظیمی از اطلاعات را مطالعه کند.
مقالههای پیشنهادی:
- مهندس هوش مصنوعی کیست؟
- چگونه یک مهندس هوش مصنوعی خبره شویم؟
- هوش مصنوعی و متخصصان این رشته در ایران چه جایگاهی دارند؟
- هوش مصنوعی توزیعی و تجمیعی چیست؟
مغزهای خودنظارتی
در سیستمهایی مشابه آنچه اشاره شد، برخی دانشمندان علوم اعصاب، نشانههایی از نحوه یادگیری ما را مشاهده کردهاند. بلیک ریچاردز، دانشمند علوم اعصاب محاسباتی موسسه هوش مصنوعی کبک در کانادا، میگوید: «به اعتقاد من 90 درصد آنچه مغز ما انجام میدهد، مبتنی بر یادگیری خودنظارتی است».
اینگونه بهنظر میرسد که مغزهای زیستی بهطور مداوم مکان آینده یک شیء در حال حرکت یا کلمه بعدی در یک جمله را پیشبینی میکنند، درست همانگونه که یک الگوریتم یادگیری خودنظارتی تلاش میکند تا بخش مبهم یک تصویر یا بخشی از متن را پیشبینی کند. ازاینرو، مغزها، چه زیستی و چه مصنوعی بهتنهایی از اشتباهات خود یاد میگیرند.
بهطور مثال، سیستم بینایی انسانها و سایر موجودات را تصور کنید. بهترین تحقیقات در خصوص سیستمهای حسی حیوانات انجام شده، اما دانشمندان علوم اعصاب موفق نشدهاند دلیل این مسئله را که چرا دو مسیر کاملا جدا از هم در سیستم بینایی انسانها و موجودات وجود دارد شرح دهند.
یکی از این مسیرها، جریان بینایی شکمی (Ventral Visual Stream) است که مسئول تشخیص اشیاء و چهرهها است و دیگری جریان بینایی پشتی (Dorsal Visual Stream) است که حرکات را پردازش میکند. بر مبنای همین پرسش، ریچاردز و تیمش با استفاده از یک مدل خودنظارتی تصمیم گرفتند پاسخی پیدا کنند.
برای این کار، تیم تحقیقاتی فوق، الگوریتم هوشمندی را آموزش دادند تا دو شبکه عصبی مختلف را با هم ترکیب کند، یکی از این شبکهها ResNet نام دارد و برای پردازش تصاویر طراحی شده بود و دیگری شبکه بازگشتی (Recurrent network) است که میتواند دنبالهای از ورودیهای قبلی را برای پیشبینی ورودی مورد انتظار بعدی دنبال کند.
برای آموزش هوش مصنوعی ترکیبی، تیم با یک توالی 10 فریمی از یک فایل ویدیویی کار را آغاز کردند و به شبکه ResNet اجازه دادند تا آنها را تکبهتک پردازش کند. در ادامه، شبکه بازگشتی، نمایش فریم یازدهم را که پنهان شده بود پیشبینی کرد، در حالیکه فریم یازدهم هیچگونه وجه تشابهی با 10 فریم قبلی نداشت. در ادامه، الگوریتم یادگیری خودنظارتی، مقادیر پیشبینی را با مقادیر واقعی مقایسه کرد و بر مبنای ارزیابی میزان خطا به شبکههای عصبی دستور داد تا وزنهای خود را بهروزرسانی کنند تا پیشبینیها بهتر شود.
تیم ریچاردز کشف کرد که یک سیستم هوش مصنوعی آموزشدیده با شبکه ResNet، در زمینه شناسایی اجسام عملکرد خوبی دارد، اما در دستهبندی حرکات بهینه نیست. با اینحال، متوجه شدند اگر ResNet را به دو بخش مجزا تقسیم کنند و دو مسیر ایجاد کنند (بدون تغییر تعداد کل نورونها)، هوش مصنوعی نمایشی از اشیاء را در یک مسیر و حرکت را در مسیر دیگری ایجاد میکند و امکان دستهبندی بهتری خواهد داشت.
برای انجام آزمایشهای بیشتر، پژوهشگران مجموعهای از فایلهای ویدئویی را که قبلا توسط محققان علوم اعصاب موسسه آلن در سیاتل به موشها نشاندادهشده بودند، مورد استفاده قرار دادند. موشها هم مانند سایر پستانداران، دارای نواحی مشخصی در مغز جهت شناسایی تصاویر ایستا و پویا هستند. محققان موسسه آلن، فعالیتهای نورونها را در قشر بینایی حیوانات، زمانیکه مشغول تماشای ویدیوها بودند، ضبط کردند.
در اینجا هم، تیم ریچاردز متوجه تشابهاتی در واکنش هوش منصوعی و مغزهای زنده در هنگام تماشای ویدئوها شدند. در مدت این آزمایش، یکی از مسیرها در شبکه عصبی مصنوعی شباهت زیادی به نواحی بصری و شناسایی اجسام در مغز موشها داشت.
نتایج بهدستآمده نشان داد که سیستم بصری ما دارای دو بخش کاملا تخصصی است که به پیشبینی توالی تصاویر کمک میکند. با اینحال، ریچاردز بر این باور است که تنها یک مسیر کافی نیست.
مدلهای سیستم شنیداری انسان هم داستان مشابهی را بازگو میکنند. در ماه ژوئن، یک تیم تحقیقاتی به سرپرستی ژان رِمی کنیگ از شرکت متا، روی آموزش یک سیستم هوش منصوعی که WavVec 2.0 نام دارد، کار کردند که از شبکه عصبی برای تبدیل اصوات به نمایشهای پنهان و نهفته استفاده میکند. محققان برخی از بخشهای الگوهای صوتی را پنهان کردند و آنها را در اختیار بخش دیگری از شبکه مصنوعی که Transformer نام داشت قرار دادند. در طی آموزش، transformer اطلاعات پوشاندهشده را بهدرستی پیشبینی کرد. در این فرآیند هوش مصنوعی آموخت که اصوات را به نمایشهای نهفته برگرداند، در حالی که نیازی به برچسبگذاری نبود. این تیم برای آموزش و تمرین شبکه موردنظر از 600 ساعت دادههای گفتاری استفاده کردند. کینگ در این باره میگوید: «میزان دادههای دادهشده به الگوریتم هوشمند، تقریبا معادل اطلاعاتی است که یک کودک در دو سال اول زندگی دریافت میکند».
زمانیکه سیستم آموزش داده شد، محققان بخشهایی از کتاب صوتی را به زبانهای انگلیسی، فرانسوی و ماندارین برای آن پخش کردند. سپس، عملکرد هوش مصنوعی را با دادههای مربوط به 412 نفر مقایسه کردند. این افراد، بومیهایی از هر سه زبان بودند و در حالیکه عملکرد الگوی مغزی آنها از طریق یک اسکنر fMRI ضبط میشد، همان بخش از کتاب صوتی را گوش کرده بودند. فعالیت در لایههای اولیه شبکه هوش مصنوعی با فعالیت قشر شنیداری انسانها یکسان بود. علاوه بر این، فعالیت در عمیقترین لایههای هوش مصنوعی با فعالیتهای انجامشده در لایههای عمیق مغز (در قشر استخوان جلوی پیشانی) همراستا بود. ریچاردز در این باره میگوید: «این دستاورد حیرتآور است. البته هنوز برای نتیجهگیری زود است، اما نتایج بهدستآمده متقاعدکننده هستند و بیانگر این موضوع هستندکه روشی که انسان برای آموختن زبان بهکار میگیرد تا حد زیادی به تلاش برای پیشبینی مباحث آینده مرتبط است».
کاستیهای یادگیری خودنظارتی درباره توضیح عملکرد مغز انسانها
روشهای یادگیری خودنظارتی در واقع پیشرفت در جهتی است که به شما اجازه میدهد تا پیشبینیهایی درباره رخدادهایی داشته باشید که هیچگونه تجربه قبلی از آنها ندارید. جاش مکدرموت
(Josh McDermott)، دانشمند علوم اعصاب موسسه MIT بر این باور است که رویکردهای یادگیری خودنظارتی پیشرفتهایی برای یادگیری یکسری نمایشها هستند که میتوانند بیشتر رفتارهای شناختی را بدون نیاز به برچسبهای یک ناظر پشتیبانی کنند، اما همچنان با مشکلات عمیقی روبهرو هستند. الگوریتمها خودشان نیاز به کار بیشتر دارند. بهعنوان مثال، Wav2Vec 2.0 تنها توانایی پیشبینی بخشهای نهفته را برای صدای چند ده میلیثانیهای دارد که کمتر از زمان لازم برای درک یک نویز آن هم بهشکلی قابل تمایز است و حتا به ادراک یک کلمه هم نمیرسد. کینگ میگوید: «کارهای زیادی مشابه با آنچه مغز انجام میدهد باید در حوزه هوش مصنوعی انجام داده شود که هنوز به سراغ آنها نرفتهایم».
کلام آخر
درک واقعی عملکرد مغز به چیزی بیشتر از یادگیری خودنظارتی نیاز دارد، زیرا مغز مبتنی بر اتصالات بازخوری زیادی است، در حالیکه مدلهای فعلی، ارتباطات کمی دارند و گرههای ارتباطی اندکی دارند. گام بعدی در درک بهتر عملکرد مغز و هوش مصنوعی استفاده از الگوی خودنظارتی برای آموزش شبکههای برگشتی و مشاهده نحوه فعالیت چنین شبکههایی در مقایسه با فعالیت واقعی مغز است. گام مهم بعدی، تطابق فعالیت نورونهای مصنوعی در مدلهای یادگیری خودنظارتی با فعالیت نورونهای زیستی منفرد است.
اگر تشابهات مشاهدهشده بین مغز و مدلهای یادگیری خودنظارتی برای سایر سیستمهای حسی وجود داشته باشد، مهر تاییدی بر عملکرد جادویی مغز ما است. کینگ در این باره میگوید: «اگر بتوانیم وجه تشابهی میان سیستمهای کاملا متفاوت از یکدیگر پیدا کنیم، میتوانیم نتیجه بگیریم که فاصله چندانی با کشف روشهایی برای پردازش اطلاعات بهشیوه هوشمندانه وجود ندارد. حداقل، این یک نظریه زیبا است که دوست داریم روی آن کار کنیم و به آن امیدوار باشیم».
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟