ScreenSpot-Pro：革新GUI代理基准，提升专业环境定位准确性

在专业领域，GUI代理面临三大主要挑战。首先是专业软件的复杂性远超一般软件，需要深入理解复杂布局；其次是专业工具的高分辨率特性导致目标尺寸小，影响定位准确性；最后，工作流程依赖于额外的工具和文档，增加了操作的复杂性。这些挑战强调了开发先进基准和解决方案，以提升GUI代理在严苛环境下的性能的必要性。

现行的GUI定位模型和基准无法满足专业环境需求。例如，ScreenSpot等工具主要适用于低分辨率任务，缺乏模拟现实场景的多样性。而OS-Atlas和UGround等模型在计算效率上表现不佳，尤其在目标小或界面图标丰富时，常出现失效。此外，缺乏多语言支持也限制了这些模型在全球应用。这些不足凸显了需要更全面、更现实的基准以推动领域发展。

新加坡国立大学、华东师范大学和香港浸会大学的研究团队开发了ScreenSpot-Pro，这是一款专为高分辨率专业环境定制的基准。它包含23个行业1,581个任务数据集，覆盖开发、创意工具、CAD、科学平台和办公套件等，采用高分辨率全屏视觉效果，并确保数据准确性和现实性。ScreenSpot-Pro还提供多语言支持，以扩展评估范围，并通过文档化实际工作流程，确保高质量注释，为GUI定位模型的全面评估和开发提供有效工具。

该数据集捕捉了真实、具有挑战性的场景，目标区域平均仅占总屏幕的0.07%，体现了GUI元素的细微和小型化。数据由经验丰富的专业用户收集，确保注释准确性。此外，数据集支持多语言功能，便于测试双语能力，并包含多个工作流程，捕捉专业任务的细微差别。这些特点使其特别有利于评估和提升GUI代理的准确性和灵活性。

ScreenSpot-Pro对现有GUI定位模型的分析显示其在高分辨率专业环境中的能力不足。OS-Atlas-7B的准确率最高仅为18.9%。而采用迭代方法的ReGround通过多步骤方法微调，提高了性能，达到40.2%的准确率。小型组件如图标的识别存在困难，而双语任务进一步凸显了模型的局限性。这些发现强调了改进技术以增强在复杂GUI环境中的上下文理解和适应能力的必要性。

ScreenSpot-Pro为高分辨率专业环境中GUI代理的评估设定了一个变革性的基准。它解决了复杂工作流程中的具体挑战，提供了多样化和精确的数据集，指导GUI定位创新。这一贡献将为更智能、高效的代理奠定基础，支持专业任务的无缝执行，显著提升各行业的生产力和创新力。

论文:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf

数据|:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro

划重点:

🌟 ** 专业应用的复杂性 **:GUI代理需处理高复杂度和高分辨率的专业软件界面。

🛠️ **ScreenSpot-Pro 数据集 **:包含1,581个任务，覆盖23个专业应用，支持多语言评估。

📈 ** 模型性能提升 **:通过多步骤微调，提升GUI定位模型在高分辨率环境中的准确率。

ScreenSpot-Pro：革新GUI代理基准，提升专业环境定位准确性

NIST研发锂电池火灾预警技术，AI算法精准识别安全阀破裂声

AI助力自杀风险识别，主动警报提升预防效果

暂无评论

发表评论取消回复

NIST研发锂电池火灾预警技术，AI算法精准识别安全阀破裂声

AI助力自杀风险识别，主动警报提升预防效果

相关推荐

暂无评论

发表评论 取消回复

搜索

ScreenSpot-Pro：革新GUI代理基准，提升专业环境定位准确性

发表评论取消回复