مایکروسافت یک بازار مصنوعی برای تست هوشمندان هوش مصنوعی ساخت — آنها به روشهای شگفتانگیزی شکست خوردند
محققان مایکروسافت روز چهارشنبه یک محیط شبیهسازی جدید برای آزمایش عاملهای هوش مصنوعی منتشر کردند و تحقیقات جدیدی ارائه دادند که نشان میدهد مدلهای عاملی فعلی ممکن است در برابر دستکاری آسیبپذیر باشند. این تحقیق که با همکاری دانشگاه ایالتی آریزونا انجام شده، سؤالات جدیدی را درباره عملکرد عاملهای هوش مصنوعی هنگام کار بدون نظارت و اینکه شرکتهای هوش مصنوعی چقدر سریع میتوانند وعدههای آینده عاملی را محقق کنند، مطرح میکند.
محیط شبیهسازی که توسط مایکروسافت "بازار مگنتیک" نامیده شده، به عنوان یک پلتفرم مصنوعی برای آزمایش رفتار عاملهای هوش مصنوعی ساخته شده است. یک آزمایش معمولی ممکن است شامل یک عامل مشتری باشد که سعی میکند طبق دستورالعملهای کاربر شام سفارش دهد، در حالی که عاملهای نمایندگی رستورانهای مختلف برای برنده شدن سفارش رقابت میکنند.
«آزمایشهای اولیه تیم شامل ۱۰۰ عامل از سمت مشتری بود که با ۳۰۰ عامل از سمت کسبوکار تعامل داشتند. از آنجایی که کد منبع این بازار متنباز است، باید برای گروههای دیگر ساده باشد که کد را برای اجرای آزمایشهای جدید یا تکرار یافتهها اتخاذ کنند.»
اِس کمار، مدیر کل آزمایشگاه مرزهای هوش مصنوعی مایکروسافت ریسرچ، میگوید این نوع تحقیقات برای درک قابلیتهای عاملهای هوش مصنوعی حیاتی خواهد بود. او گفت: "واقعاً این سؤال وجود دارد که جهان با وجود این عاملها که با یکدیگر همکاری و صحبت و مذاکره میکنند، چگونه تغییر خواهد کرد. ما میخواهیم این موارد را به عمق درک کنیم."
تحقیقات اولیه ترکیبی از مدلهای پیشرو از جمله GPT-4o، GPT-5 و Gemini-2.5-Flash را بررسی کرد و برخی نقاط ضعف شگفتانگیز را کشف کرد. به طور خاص، محققان چندین تکنیک را یافتند که کسبوکارها میتوانند برای دستکاری عاملهای مشتری جهت خرید محصولاتشان استفاده کنند. محققان کاهش خاصی در کارایی را زمانی که به یک عامل مشتری گزینههای بیشتری برای انتخاب داده میشد، متوجه شدند که فضای توجه عامل را تحتالشعاع قرار میداد.
«کمار میگوید: "ما میخواهیم این عاملها به ما در پردازش گزینههای زیاد کمک کنند. و میبینیم که مدلهای فعلی واقعاً با داشتن گزینههای زیاد دچار سردرگمی میشوند." عاملها همچنین هنگامی که از آنها خواسته شد برای رسیدن به یک هدف مشترک همکاری کنند، با مشکل مواجه شدند و ظاهراً مطمئن نبودند که کدام عامل باید چه نقشی در همکاری ایفا کند. عملکرد زمانی بهبود یافت که به مدلها دستورالعملهای صریحتری درباره نحوه همکاری داده شد، اما محققان همچنان قابلیتهای ذاتی مدلها را نیازمند بهبود میدانستند.»
کمار گفت: "ما میتوانیم به مدلها دستور دهیم - مثلاً میتوانیم گام به گام به آنها بگوییم. اما اگر ذاتاً قابلیتهای همکاری آنها را آزمایش میکنیم، انتظار دارم این مدلها به طور پیشفرض این قابلیتها را داشته باشند."







