在专业领域,GUI代理面临三大主要挑战。首先是专业软件的复杂性远超一般软件,需要深入理解复杂布局;其次是专业工具的高分辨率特性导致目标尺寸小,影响定位准确性;最后,工作流程依赖于额外的工具和文档,增加了操作的复杂性。这些挑战强调了开发先进基准和解决方案,以提升GUI代理在严苛环境下的性能的必要性。

image.png

现行的GUI定位模型和基准无法满足专业环境需求。例如,ScreenSpot等工具主要适用于低分辨率任务,缺乏模拟现实场景的多样性。而OS-Atlas和UGround等模型在计算效率上表现不佳,尤其在目标小或界面图标丰富时,常出现失效。此外,缺乏多语言支持也限制了这些模型在全球应用。这些不足凸显了需要更全面、更现实的基准以推动领域发展。

新加坡国立大学、华东师范大学和香港浸会大学的研究团队开发了ScreenSpot-Pro,这是一款专为高分辨率专业环境定制的基准。它包含23个行业1,581个任务数据集,覆盖开发、创意工具、CAD、科学平台和办公套件等,采用高分辨率全屏视觉效果,并确保数据准确性和现实性。ScreenSpot-Pro还提供多语言支持,以扩展评估范围,并通过文档化实际工作流程,确保高质量注释,为GUI定位模型的全面评估和开发提供有效工具。

该数据集捕捉了真实、具有挑战性的场景,目标区域平均仅占总屏幕的0.07%,体现了GUI元素的细微和小型化。数据由经验丰富的专业用户收集,确保注释准确性。此外,数据集支持多语言功能,便于测试双语能力,并包含多个工作流程,捕捉专业任务的细微差别。这些特点使其特别有利于评估和提升GUI代理的准确性和灵活性。

ScreenSpot-Pro对现有GUI定位模型的分析显示其在高分辨率专业环境中的能力不足。OS-Atlas-7B的准确率最高仅为18.9%。而采用迭代方法的ReGround通过多步骤方法微调,提高了性能,达到40.2%的准确率。小型组件如图标的识别存在困难,而双语任务进一步凸显了模型的局限性。这些发现强调了改进技术以增强在复杂GUI环境中的上下文理解和适应能力的必要性。

ScreenSpot-Pro为高分辨率专业环境中GUI代理的评估设定了一个变革性的基准。它解决了复杂工作流程中的具体挑战,提供了多样化和精确的数据集,指导GUI定位创新。这一贡献将为更智能、高效的代理奠定基础,支持专业任务的无缝执行,显著提升各行业的生产力和创新力。

论文:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf

数据|:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro

划重点:

🌟 ** 专业应用的复杂性 **:GUI代理需处理高复杂度和高分辨率的专业软件界面。

🛠️ **ScreenSpot-Pro 数据集 **:包含1,581个任务,覆盖23个专业应用,支持多语言评估。

📈 ** 模型性能提升 **:通过多步骤微调,提升GUI定位模型在高分辨率环境中的准确率。