پیام خوزستان - خبرآنلاین / گوگل دیپمایند با معرفی مدلهای جدید جمینای رباتیک (Gemini Robotics)، نخستین رباتهای هوش مصنوعی را رونمایی کرده که پیش از عمل، «فکر» میکنند؛ این مدلها میتوانند فصل تازهای در آینده رباتیک رقم بزند.
تینا مزدکی_پژوهشگران دیپمایند معتقدند این نقطه آغاز عصر تازهای از رباتهای هوشمند است. سامانههای هوش مصنوعی مولد که متن، تصویر، صدا و حتی ویدئو تولید میکنند، حالا به بخشی رایج از زندگی دیجیتال بدل شدهاند. همانطور که مدلهای هوش مصنوعی دادههای مختلف را تولید میکنند، میتوان از آنها برای ایجاد کنش در رباتها هم استفاده کرد. این ایده اساس پروژه جمینای رباتیک (Gemini Robotics) دیپمایند است که اکنون از دو مدل تازه رونمایی کرده است؛ این مدلها در کنار هم نخستین رباتهایی را میسارند که پیش از عمل کردن، فکر میکنند.
چرا هوش مصنوعی مولد برای رباتها اهمیت دارد؟
هوش مصنوعی مولد برای رباتیک نقشی کلیدی دارد، زیرا کارکرد عمومی را به وجود میآورد. رباتهای امروزی باید بهطور گسترده برای وظایف مشخص آموزش ببینند و معمولاً در انجام کارهای دیگری، به جز آنچه که برای آن آموزش دیدهاند عملکرد خوبی ندارند. کارولینا پارادا، رئیس بخش رباتیک دیپمایند میگوید: «رباتهای امروز بسیار سفارشی هستند و استفاده از آنها دشوار است؛ اغلب ماهها طول میکشد تا یک واحد رباتیک تنها برای انجام یک وظیفه نصب و آماده شود.»
بازار ![]()
اما اساس سیستمهای مولد باعث میشود رباتهای هوش مصنوعی انعطافپذیرتر شوند. این رباتها بدون آنکه نیازی به تنظیمات دوباره داشته باشند، میتوانند با موقعیتها و محیطهای کاری کاملاً تازه روبهرو شوند داشته باشند. رویکرد فعلی دیپمایند بر دو مدل استوار است، مدلی که فکر میکند و مدل دیگری که اجرا میکند؛ این دو مدل تازه با نامهای Gemini Robotics 1.5 و Gemini Robotics-ER 1.5 معرفی شدهاند. مدل اول یک مدل دیداری-زبانی-کنشی (VLA) است که از دادههای تصویری و متنی برای تولید کنشهای رباتیک استفاده میکند. مدل دوم که «ER» در آن مخفف Embodied Reasoning یا «استدلال تجسمیافته» است، یک مدل دیداری-زبانی (VLM) به شمار میآید که ورودیهای تصویری و متنی را میگیرد و گامهای لازم برای انجام یک وظیفه پیچیده را تولید میکند.
ماشینهای «متفکر»
مدل Gemini Robotics-ER 1.5 نخستین هوش مصنوعی رباتیکی است که توانایی «استدلال شبیهسازیشده» مشابه چتباتهای متنی مدرن را دارد. دیپمایند این قابلیت را «تفکر» مینامد، هرچند در دنیای هوش مصنوعی مولد، این اصطلاح کمی اغراقآمیز است. به گفته دیپمایند، این مدل در آزمونهای دانشگاهی و داخلی امتیاز بالایی کسب کرده و نشان داده است که میتواند درباره تعامل با فضای فیزیکی تصمیمهای دقیقی بگیرد. البته خودش اقدامی انجام نمیدهد؛ اینجا پای مدل Gemini Robotics 1.5 به میان میآید.
برای نمونه، تصور کنید میخواهید رباتی لباسها را به دو گروه سفید و رنگی دستهبندی کند. مدل ER درخواست شما و تصاویر محیط (مثلاً انبوهی از لباسها) را پردازش میکند. این مدل میتواند برای تکمیل دادهها از ابزارهایی مانند جستوجوی گوگل هم استفاده کند. سپس دستورالعملی به زبان طبیعی و مجموعهای از گامهای مشخص برای انجام وظیفه تولید میکند. مدل Gemini Robotics 1.5 (مدل اجرایی) این دستورالعملها را دریافت کرده و با بهرهگیری از ورودی تصویری، حرکات ربات را تولید میکند. این مدل علاوه بر اجرا، یک فرآیند تفکر داخلی دارد تا تصمیم بگیرد هر مرحله را چگونه پیش ببرد. کانیشکا رائو، از پژوهشگران دیپمایند، میگوید: «انسانها برای انجام کارها از نوعی شهود استفاده میکنند، اما رباتها چنین شهودی ندارند. یکی از پیشرفتهای اصلی در نسخه 1.5 این مدل VLA همین توانایی فکر کردن پیش از عمل است.»
هر دو مدل تازه رباتیک دیپمایند بر اساس مدلهای پایه جمنای ساخته شدهاند و با دادههایی بهینهسازی شدهاند که آنها را برای کار در فضای فیزیکی سازگار میکند. این رویکرد به رباتها توانایی انجام وظایف پیچیده چندمرحلهای را میدهد و قابلیتهای «عاملمحور» را وارد دنیای رباتیک میکند.
با وجود همه این پیشرفتها، هنوز تا روزی که بتوانید به رباتی دستور دهید لباسهایتان را بشوید فاصله زیادی داریم. مدل Gemini Robotics 1.5 که واقعاً رباتها را کنترل میکند، فعلاً فقط در اختیار گروه محدودی از آزمایشکنندگان مورد اعتماد است. اما مدل ER اکنون در Google AI Studio عرضه شده و به توسعهدهندگان این امکان را میدهد که برای آزمایشهای رباتیک خود دستورالعملهای رباتیک تولید کنند.