
根据6月27日,随着AI代理变得更加聪明,他们仍然可以积极帮助用户完成手机上的各种任务(例如更改特定设置和开放导航),但是AI本身并不了解与UI结构一致的特定操作机制,并且仅根据预设执行操作。华盛顿大学的研究人员共同发表了一篇论文,以探讨AI如何学会判断各种操作的后果,并避免执行用户不批准的高风险行动。 AI代理的自主行为是苹果系统在2026年升级的主要功能之一。苹果在2024年在WWDC上展示了Siri在2024年的发展方向 - 备用用户完成了NG的NG任务,例如在线购物和票务预订,但此自动化似乎很方便,但是如果AI误认为是误入歧途的,则会遇到“ dellete of the elete of the of the dellete”,而不是“摇摆”吗?作为个人设备,手机pH商店银行财务数据,健康笔记,照片和私人信息。当AI代理执行任务时,有必要确定哪些动作是无害的,并可能导致长期或危险的后果,并且还知道何时停止并请求用户确认。但是,大多数AI开发人员仅在让AI“可以工作”(例如识别按钮,找到相应的页面并根据说明实施程序),但很少注意这些操作对用户的效果的以下影响。 Apple AI研究人员指出,并非所有动作都安全且有风险:单击“刷新”按钮是一种低风险的行为,但是单击“移动”是一种高风险的行为。这项研究始于参加AI安全和UI设计专家的研讨会,目的是创建一个“分类法”(结构化列表),以决定UI动作的不同类型的效果。团队围绕以下问题展开:行动会改变吗?是效果仅涉及或更多人?隐私设置是否已更改或收取费用?该论文表明,研究人员已经建立了一项多维程序来标记移动应用程序中的操作。例如,可以在2分钟内撤消删除消息,但是超过时间后不能恢复。转移通常需要帮助才能恢复。这种分类学的重要性为AI提供了关于人类意图的推理的框架 - 等同于“风险检查”,有助于AI确定“哪些行动可以采取什么行动”或“为什么需要进一步确认”或“为什么需要进一步的确认。培训AI来识别行动风险,研究人员要求参与者要求参与者录制高级行动(例如,较低的付款数据),而不是更改帐户的付款,而不是更改帐户,更改详细信息,并以更改消息,和任务更改任务,任务是任务,任务是任务效果,任务效果,任务效果,任务效果,任务效果,而不是记录范围,那么任务效果,而不是记录付费的范围,并要求参与者搜索,并要求参与者进行访问,任务效果,任务效果,任务效果,而不是录制付费范围。使用分类学,然后测试了包括OpenAI GPT-4在内的五个AI模型,以评估其猜测行动影响或分类水平的能力特征。结果表明,提示的分类法的增加有助于提高风险判断的准确性,但即使是表现最好的“ GPT-4多模式”模型速率率几乎为58%。研究指出,AI模型通常超过风险 - 例如标记无害的行动,例如“清楚的计算器历史记录”为高风险。这种“谨慎的偏见”似乎更安全,但是可以通过频繁的确认请求使AI帮助者感到烦人或无用。更严重的问题是该模型很难避免酌处权 - 不可能确定该动作是否会改变或如何影响他人。苹果研究人员认为,用户需要“有益和安全”的自动化操作:不小心删除帐户的AI是一场灾难,但是如果您还向用户询问用户进行音量调整,最好不要这样做。研究人员认为,他们的分类法可以帮助设计更好的AI政策 - 例如,用户可以在需要批准时自定义。此方法支持透明度和个性化,这可以帮助AI设计师确定当前模型的弱点(尤其是在处理世界上高风险活动时)。研究表明,教AI“识别按钮”是不够的,Dapait不了解“点击背后的含义”,这是AI的艰巨任务。人们可以通过上下文信号和历史经验做出判断,但是机器发现很难完美地解决这一复杂性。 【来源:这在家】