لی دوره کامبرین را که نزدیک به 530 میلیون سال قبل اتفاق افتاده و گونههای جانوری مختلفی برای اولین بار در آن ظاهر شدند مورد مطالعه قرار داد و از آن الهام گرفت. یک نظریه قابل تامل در این زمینه وجود دارد که اعلام میدارد، «پیدایش گونههای جدید تا حدی بهدلیل ظهور چشمهایی بود که میتوانستند برای اولین بار جهان اطراف خود را ببینند.» لی متوجه شد که فرآیند بینایی در حیوانات با هدف حرکت، جهتیابی، زنده ماندن و سازگاری با محیط پیرامون پدید آمده است. او میگوید: «همین مسئله طبیعی باعث شد تا من بهدنبال یک قدرت دید و بینایی فعالتر برای هوش مصنوعی باشم.»
در حال حاضر، حوزه فعالیت خانم لی روی عاملهای هوش مصنوعی محدود به تایید تصاویر ثابت مبتنی بر یک مجموعه داده نیست، بلکه در حال مطالعه روی عاملهای هوشمندی است که میتوانند در شبیهسازیهای دنیای مجازی سهبعدی به اطراف حرکت کنند و با محیط پیرامون تعامل داشته باشند.
این هدف کلی، زمینهساز ظهور حوزه جدیدی است که بهعنوان «هوش مصنوعی تجسمیافته» (Embodied AI) شناخته میشود. هوش مصنوعی تجسمیافته با روباتیک همپوشانی دارد، زیرا روباتها میتوانند معادل فیزیکی عاملهای هوش مصنوعی تجسمیافته در دنیای واقعی و یادگیری تقویتی باشند که همیشه بر مبنای پاداشهای بلندمدت که مشوقهای مهمی هستند، بهدنبال یادگیری و انجام بهتر کارها هستند. خانم لی و پژوهشگران دیگر بر این باور هستند که هوش مصنوعی تجسمیافته میتواند یک تغییر اساسی ایجاد کند و قابلیتهای ساده یادگیری ماشین، مانند تشخیص تصاویر را به یادگیری نحوه انجام کارهای پیچیده چندمرحلهای ارتقاء دهد. فیفی لی که مجموعه داده ImageNet را ساخته، مجموعه استانداردی از فعالیتهای مجازی را تولید کرده که برای ارزیابی میزان پیشرفت این ماشینهای یادگیرنده مورد استفاده قرار میگیرد.
پژوهش در حوزه هوش مصنوعی تجسمیافته شامل آموزش عاملهایی است که میتوانند محیط پیرامون خود را بررسی کرده و در صورت لزوم تغییراتی در آن اعمال کنند. در حالیکه در روباتیک، عامل هوشمند همیشه در قالب یک مفهوم فیزیکی، چیزی شبیه به بازوی روباتیک، ظاهر میشود. عاملهای مدرن در شبیهسازیهای واقعگرایانه ممکن است یک کالبد مجازی داشته باشند یا ممکن است جهان را از منظر یک دوربین متحرک که میتواند با محیط اطراف تعامل داشته باشد، حس کنند. لی میگوید: «در اینجا واژه تجسم، اشاره به ماهیت فیزیکی ندارد، بلکه اشاره به تعامل و انجام کارهایی دارد که شما در محیط انجام میدهید».
این تعامل، راهی جدید، و در بسیاری از موارد بهتر، برای یادگیری در مورد جهان پیرامون در اختیار عاملها قرار میدهد. این درک جدید از محیط اطراف کمک میکند تا عامل هوشمندتر شود. با وجود مجموعهای از جهانهای مجازی جدید که در حال ورود به دنیای فناوری هستند، عاملهای هوش مصنوعی تجسمیافته، در شناخت محیطهای جدید پیشرفت قابل توجهی خواهند داشت. ویویان کلی (Viviane Clay)، محقق هوش مصنوعی دانشگاه Osnabrück آلمان میگوید: «در حال حاضر، هیچ مدرکی در اختیار نداریم که نشان دهد عامل هوشمند مصنوعی میتواند از طریق تعامل با جهان آموزش ببیند».
حرکت بهسمت یک شبیهسازی کامل
در حالی که محققان مدتها است بهدنبال آن هستند تا جهانهای مجازی واقعی را برای عاملهای هوش مصنوعی ایجاد کنند، اما پژوهشهای جدی انجامگرفته در این حوزه بیش از پنج سال قدمت ندارند، زیرا توانایی پردازندههای گرافیکی در طول این سالها پیشرفتههای قابل توجهی پیدا کردهاند و به صنعت فیلمسازی و بازیهای ویدئویی اجازه دادهاند آثار گرافیکی قدرتمندی خلق کنند که امکان استفاده از آنها در تعامل با محیطهای مجازی وجود دارد. در سال 2017 میلادی، عاملهای هوش مصنوعی توانستند به دنیاهای مجازی وارد شوند و بهشکل واقعی فضاهای داخلی را بهتصویر بکشند. شبیهساز AI2-Thor که توسط دانشمندان علوم کامپیوتر موسسه آلن برای هوش مصنوعی ساخته شده به عاملها اجازه میدهد تا همانند دنیای واقعی در آشپزخانه، حمام، اتاق نشیمن و اتاقخواب گشتی بزنند. عاملها میتوانند نماهای سهبعدی را که در حین حرکت تغییر میکنند، مورد مطالعه قرار دهند و زمانی که تصمیم میگیرند نگاه دقیقتری به محیط و اشیاء داشته باشند، اطلاعات منحصربهفردی در اختیار ما قرار میدهند.
این جهانهای جدید به عاملها این فرصت را میدهند تا در یک بعد جدید یعنی زمان، در مورد تغییرات استدلال کنند. مانولیس ساوا (Manolis Savva)، محقق حوزه گرافیک کامپیوتری دانشگاه Simon Fraser که چند دنیای مجازی ساخته، در این باره میگوید: «ما در حال ساخت یک مفهوم جدید و کاملا متفاوت هستیم که قرار است در خدمت هوش مصنوعی تجسمیافته باشد. شما به جریانی منظم و یکپارچه از اطلاعات دسترسی دارید که قادر به کنترل آن هستید».
این جهانهای شبیهسازیشده به اندازهای خوب عمل میکنند که میتوانند به بهترین شکل به عاملها آموزش دهند تا کارهای جدیدی انجام دهند. به بیان دقیقتر، عاملها بهجای اینکه تنها یک شیء را تشخیص دهند، میتوانند با آن تعامل داشته باشند، آن را بلند کرده و اطراف آن حرکت کنند. در ظاهر، این فعالیتها گامهای کوچکی بهنظر میرسند، اما هر عامل هوشمندی برای درک محیط اطرافش به این گامهای کوچک نیاز دارد. بد نیست بدانید در سال 2020، عاملهای مجازی برای شنیدن صداهایی که اشیاء مجازی تولید میکردند، مجبور شدند از مهارتی فراتر از بینایی استفاده کنند و به این شکل، فصل جدیدی در حوزه یادگیری و نحوه انجام کارها رقم زدند.
البته این حرف به این معنا نیست که کار تمام شده است. دانیل یامینز (Daniel Yamins)، دانشمند کامپیوتر دانشگاه استنفورد، میگوید: «کاری که تاکنون در ارتباط با محیطهای شبیهسازی و هوش مصنوعی تجسمیافته انجام شده در مقایسه با دنیای واقعی ناچیز است». یامینز و همکارانش در MIT و IBM موفق شدهاند محیط مجازی ThreeDWorld را توسعه دهند که شباهت زیادی به دنیای واقعی دارد و مواردی مثل واکنش مایعات هنگام ریختن روی سطوح مختلف را به آن اضافه کردند. ساوا در این ارتباط میگوید: «این کار واقعا سخت و یک چالش تحقیقاتی بزرگ است که کمک میکند عاملهای هوش مصنوعی را بر مبنای روشهای یادگیری نوین آموزش دهیم».
مقایسه شبکههای عصبی
یک روش ساده برای اندازهگیری میزان پیشرفت هوش مصنوعی تجسمیافته در اختیار متخصصان قرار دارد. بهطوری که عملکرد عاملهای هوشمند تجسمیافته با عملکرد الگوریتمهایی که برای انجام کارهای ساده با تصاویر ثابت آموزش دیدهاند، مورد مقایسه قرار میگیرند. با اینحال، محققان خاطر نشان میکنند که این مقایسهها بینقص نیستند، اما نتایج اولیه نشان میدهند که عاملهای هوش مصنوعی تجسمیافته بهشکل متفاوت، و در مواقعی بهتر از اسلاف خود یاد میگیرند.
محققان دریافتند که عامل هوش مصنوعی تجسمیافته در تشخیص برخی اشیاء دقیقتر عمل میکند و تقریبا 12 درصد عملکرد بهتری نسبت به عاملهای هوشمند فعلی دارد. روزبه متقی، یکی از نویسندگان این مقاله و دانشمند کامپیوتر موسسه آلن در مورد هوش مصنوعی میگوید: «بیش از سه سال طول کشید تا عاملهای مبتنی بر هوش مصنوعی تجسمیافته به چنین سطحی از پیشرفت دست پیدا کنند».
تشخیص اشیاء توسط الگوریتمهای آموزشدیده بهشکل سنتی، زمانی بهبود مییابد که اجازه دهید در یک محیط مجازی قرار بگیرند تا بتوانند کاوشی در فضای مجازی انجام دهند یا این که به آنها اجازه دهید برای جمعآوری نماهای چندگانه در ارتباط با اشیاء به اطراف حرکت کنند.
محققان دریافتهاند که الگوریتمهای تجسمیافته و سنتی بهشکل متفاوتی میآموزند. برای اثبات این موضوع، یک شبکه عصبی را در نظر بگیرید که مولفه اصلی یادگیری، الگوریتمهای تجسمیافته و غیرتجسمیافته است. یک شبکه عصبی نوعی الگوریتم با لایههای مختلف است که متشکل از گرهها و نورونهای مصنوعی است که با الهام گرفتن از شبکه موجود در مغز انسان پیادهسازی شدهاند. محققان دریافتند که شبکههای عصبی موجود در عاملهای تجسمیافته، نورونهای فعال کمتری در پاسخ به اطلاعات بصری دارند؛ به این معنی که هر نورون منفرد نسبت به محرکی که به آن پاسخ میدهد، انتخابیتر عمل میکند. شبکههای غیرتجسمیافته عملکرد کمدقتتری در این زمینه دارند. همچنین، برای فعال نگه داشتن کامل آنها به نورونهای بیشتری نیاز است. مقایسه انجامگرفته میان شبکههای عصبی تجسمیافته و غیرتجسمیافته با فعالیتهای عصبی انجامگرفته در قشر بینایی مغز موشها نشان میدهد که عاملهای تجسمیافته عملکرد بهتری دارند.
گریس لیندسی، استاد دانشگاه نیویورک در این زمینه میگوید: «این حرف بهمعنای آن نیست که نسخههای تجسمیافته بهتر هستند، اما آنها کارها را بهشیوه متفاوتی انجام میدهند».
در حالی که مقایسه شبکههای عصبی تجسمیافته با شبکههای غیرتجسمیافته یکی از معیارهای پیشرفت است، محققان تمایل دارند تا عملکرد عاملهای تجسمیافته در انجام برخی وظایف را بهبود بخشند. هدف واقعی، یادگیری کارهای پیچیدهتر و شبهانسانی است. بهطور مثال، جهتیابی مبتنی بر مشاهده یکی از زمینههای تحقیقاتی بزرگ و جذاب در این زمینه است. در اینجا، یک عامل باید هدف بلندمدت را که مقصد است بهخاطر بسپارد، در حالی که مشغول برنامهریزی برای رسیدن به هدف است، بدون آن که گم شود یا با اشیاء برخورد کند.
در همین باره، تیمی به سرپرستی دهرو باترا (Dhruv Batra)، مدیر تحقیقات Meta AI و دانشمند کامپیوتر موسسه فناوری جورجیا توانستند عملکرد عاملهای هوشمند در زمینه جهتیابی نقطه- هدف را بهبود ببخشند. در اینجا، یک عامل در یک محیط کاملا جدید قرار میگیرد. عامل بدون آنکه نقشه حرکت داشته باشد، تنها بر مبنای مختصاتی که متخصصان در اختیار او قرار میدهند، بهسمت هدف حرکت میکند (بهطور مثال، به نقطهای که در 5 متری شمال و 10 متری شرق قرار دارد، حرکت کن). باترا میگوید: «ما GPS و قطبنما در اختیار عامل هوشمند قرار دادیم و آنرا آموزش دادیم تا در دنیای مجازی متا که AI Habitat نام دارد بهسمت هدف حرکت کند. عامل هوشمند توانست با دقت بیش از 99.9 درصد و بر مبنای مجموعه دادههای استاندارد به مقصد برسد. در ادامه کار را سختتر کردیم و سناریوی دشوارتری در اختیار عامل قرار دادیم تا بدون GPS یا قطبنما راه خود را پیدا کند. عامل تنها با تخمین موقعیت خود بر اساس جریان پیکسلهایی که در حین حرکت مشاهده میکرد با دقت 94 درصد توانست به مقصد برسد».
تیم دهرو باترا، امیدوار هستند محیط مجازی و شبیهسازی را بهگونهای تکمیل کنند که عامل هوشمند بتواند تنها در 20 دقیقه به هدف ازپیشتعیینشده برسد.
متقی میگوید: «این پیشرفت فوقالعاده است. با اینحال، به این معنا نیست که جهتیابی، یک کار تمام شده است. در دنیای واقعی برای انجام برخی کارها به جهتیابیهای خاصی نیاز است که مبتنی بر دستورالعملهای پیچیده هستند. بهطور مثال، از آشپزخانه عبور کنید تا لیوانهای روی میز کنار تخت اتاق خواب را بیاورید. این یک فرآیند پیچیده برای الگوریتمهای هوشمند بهشمار میرود».
جهتیابی یکی از سادهترین کارها در دنیای هوش مصنوعی تجسمیافته است، زیرا عاملها در محیطی حرکت میکنند که هیچگونه تغییر و دستکاریای در آن صورت نگرفته است. تا زمان نگارش این مقاله، عاملهای هوش مصنوعی تجسمیافته هیچ مهارتی در کار با اشیاء جدید ندارند. چالش بزرگی که در این زمینه وجود دارد این است که وقتی عامل با اشیاء جدیدی ارتباط برقرار میکند، ممکن است به دفعات دچار اشتباه شود و از این اشتباهات بهعنوان منبعی نادرست از تجربیات استفاده کند. محققان برای این منظور گزینه انجام کارها در چند مرحله را انتخاب کردهاند تا بتوانند این مشکل را حل کنند، اما بیشتر فعالیتهای انسانی، مانند پختوپز یا شستن ظروف، مستلزم یک سری کارهای متوالی است که اشیاء مختلفی در آن نقش دارند. برای رسیدن به چنین سطحی از هوشمندی، عاملهای هوش مصنوعی به تلاش بیشتری نیاز دارند.
لی مجموعه دادهای را توسعه داده که امیدوار است برای هوش مصنوعی تجسمیافته همان کاری را انجام دهد که پروژه ImageNet او برای تشخیص اشیاء هوش مصنوعی انجام داد. او به انجمن هوش مصنوعی مجموعه دادههای بزرگی از تصاویر را هدیه داد تا به دادههای ورودی استاندارد دسترسی داشته باشند تا کار او را تکمیل کنند. در حال حاضر، تیم او یک مجموعه داده شبیهسازیشده استاندارد با 100 فعالیت شبه-انسانی برای عاملها منتشر کرده که میتواند در هر دنیای مجازی مورد آزمایش قرار بگیرد. با ساخت معیارهایی که قادر هستند به مقایسه عملکرد عاملهایی بپردازند که کارهایی مشابه کارهای انسان انجام میدهند، مجموعه داده جدید لی این امکان را میدهد تا پیشرفت عاملهای هوش مصنوعی مجازی را بهتر ارزیابی کرد.
لی میگوید: «هنگامی که عاملها بتوانند وظایف پیچیده را بهدرستی انجام دهند، نوبت به آموزش در فضای مانورپذیرتر یعنی دنیای واقعی میرسد. به نظر من شبیهسازی یکی از مهمترین و هیجانانگیزترین حوزههای تحقیقاتی روباتیک است».
مرز جدید روباتیک
روباتها بهطور ذاتی عاملهای هوشمند تجسمیافته هستند. آنها با داشتن نوعی کالبد فیزیکی در دنیای واقعی، ملموسترین شکل عاملهای هوش مصنوعی هستند، اما بیشتر محققان دریافتهاند که حتا این عاملها میتوانند از مزایای آموزش در دنیای مجازی بهرهمند شوند.
متقی میگوید: «الگوریتمهای پیشرفته در حوزه روباتیک، مانند یادگیری تقویتی و از این دست، بهطور معمول برای یادگیری مفاهیم معنادار به میلیونها تکرار نیاز دارند. در نتیجه، آموزش روباتهای واقعی برای انجام کارهای دشوار ممکن است به سالها زمان نیاز داشته باشد».
با اینحال، آموزش روباتها در دنیاهای مجازی روند یادگیری را سریعتر از دنیای واقعی میکند، زیرا طیف گستردهای از عاملها میتوانند بهطور همزمان در محیطهای مختلف قرار داشته باشند و آموزش ببینند. همچنین، آموزش مجازی به روباتها که ارتباط نزدیکی با انسانها دارند، ایمنتر است.
زمانی که محققان OpenAI ثابت کردند که انتقال مهارتها از شبیهسازی به دنیای واقعی امکانپذیر است، شبیهسازها بهشکل جدی مورد توجه متخصصان حوزه روباتیک قرار گرفتند. آنها به یک دست رباتیک آموزش دادند تا مکعبی که فقط در شبیهسازی دیده بود را بسازد. با وجود موفقیتهای اخیر، این امکان پدید آمده تا پهپادها یاد بگیرند چگونه در فضا با پرندگان یا در ارتفاع پایین با اشیاء برخورد نکنند و ماشینهای خودران بتوانند در محیطهای شهری در دو قاره مختلف بدون مشکل رانندگی کنند. در همین باره، روباتهای چهارپا توانستهاند یک پیادهروی یکساعته در کوههای آلپ سوئیس را تجربه کنند.
برخی از پژوهشگران بر این باور هستند که زمانی که فضای مجازی و متا به درجه قابل توجهی از تکامل دست پیدا کنند، انسانها از طریق هدستهای واقعیت مجازی با هوش مصنوعی در متا ملاقات خواهند کرد تا شکاف بین شبیهسازیها و دنیای واقعی کمتر شود.
دیتر فاکس (Dieter Fox)، مدیر ارشد تحقیقات روباتیک NVIDIA و استاد دانشگاه واشنگتن، خاطرنشان میکند که هدف اصلی تحقیقات روباتیک، ساخت روباتهایی است که در دنیای واقعی برای انسان مفید باشند، اما برای انجام اینکار، ابتدا باید با انسانها ملاقات کنند و یاد بگیرند چگونه با انسانها تعامل داشته باشند.
فاکس میگوید: «استفاده از واقعیت مجازی برای وارد کردن انسانها به محیطهای شبیهسازیشده و فعال کردن شرایطی برای تعامل آنها با روباتها، جالب توجه خواهد بود ».
عاملهای هوش مصنوعی تجسمیافته، چه در شبیهسازیها و چه در دنیای واقعی، همانند انسانها کارهایی که روزانه تکرار میشوند را بهتر یاد میگیرند. این مقوله در همه حوزهها بهطور همزمان در حال پیشرفت است. لی میگوید: «من شاهد همگرایی یادگیری عمیق، یادگیری روباتیک، بینایی ماشین و پردازش گفتار هستم. به نظر من از طریق پروژه ستاره قطبی میتوانیم به سطح بالاتری از هوش مصنوعی دست پیدا کنیم که دستاوردهای مهمی بههمراه خواهد داشت».
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟