عنوان مقاله : From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces
یادگیری پیروی از دستورات از طریق رابط کاربری گرافیکی توسط پژوهشگران هوش مصنوعی گوگل، رویکرد جدیدی برای آموزش عاملها را معرفی میکند که میتوانند با پیروی از دستورات از طریق رابط کاربری گرافیکی (GUI) وظایف را تکمیل کنند.
رویکرد پیشنهادی به نام PIX2ACT از یک مدل تصویر به متن مبتنی بر Transformer استفاده میکند تا خروجیهایی را که مربوط به عملکردهای ماوس و صفحه کلید هستند بر اساس تصاویر پیکسلی از GUI ها ایجاد کند. این مدل بر روی یک مجموعه داده از تصاویر صفحه نمایش و دستورالعملهای مربوطه آموزش داده شده است و قادر است به یادگیری پیروی از دستورالعملها از منابع مختلف، از جمله برنامههای وب، برنامههای تلفن همراه و برنامههای رایانه شخصی بپردازد.
نویسندگان مقاله PIX2ACT را بر روی یک بنچمارک از وظایف پیروی از دستورات مبتنی بر GUI ارزیابی کردهاند و نشان دادهاند که این رویکرد قادر است برتری نسبت به کارگران انبوه انسانی در این بنچمارک را داشته باشد. آنها همچنین نشان دادهاند که PIX2ACT قادر به تعمیمپذیری به وظایف و برنامههای جدیدی است که بر روی آن آموزش داده نشدهاند.
نویسندگان مقاله اعتقاد دارند که PIX2ACT میتواند برای ایجاد عاملهایی که میتوانند وظایف خسته کننده را خودکار سازی کنند، بهبود دسترسیپذیری و گسترش کاربردی برای دستیاران دیجیتال استفاده شود. آنها همچنین معتقدند که PIX2ACT میتواند برای توسعه ابزارهای آموزشی جدیدی که به افراد یاد میدهند چگونه از GUI ها استفاده کنند، استفاده شود.
اینجا چند تا از ویژگی های مقاله آورده شده است:
* PIX2ACT رویکرد جدیدی برای آموزش عاملها است که میتوانند با پیروی از دستورالعملها از طریق رابط کاربری گرافیکی وظایف را تکمیل کنند.
* PIX2ACT از یک مدل تصویر به متن مبتنی بر Transformer استفاده میکند تا خروجیهایی را مربوط به عملکردهای ماوس و صفحه کلید ایجاد کند.
* PIX2ACT قادر است به یادگیری پیروی از دستورالعملها از منابع مختلف، از جمله برنامههای وب، برنامههای تلفن همراه و برنامههای رایانه شخصی بپردازد.
* PIX2ACT قادر است برتری نسبت به کارگران انبوه انسانی در بنچمارک وظایف پیروی از دستورات مبتنی بر GUI را داشته باشد.
* PIX2ACT میتواند برای خودکارسازی وظایف خسته کننده، بهبود دسترسیپذیری و گسترش کاربردی دستیاران دیجیتال استفاده شود.