具有完整系统访问的计算机使用代理(CUAS)可实现强大的任务自动化,但由于能够操纵文件,访问用户数据和执行任意命令的能力而构成了强大的安全性和隐私风险。虽然先前的工作集中在基于浏览器的代理和HTML级攻击上,但CUAS的漏洞仍未得到充实。在本文中,我们研究了视觉提示注射(VPI)攻击,其中将恶意说明视觉嵌入渲染的用户界面中,并检查其对CUA和浏览器使用剂(BUA)的影响 ...
虽然先前的研究提出了多种方法,这些方法可以使神经分类器能够抵抗对抗性的鲁棒性,但由于其不可接受的严重的清洁准确性惩罚,从业者仍然不愿意采用它们。本文通过混合标准分类器和强大的分类器的输出概率来大大减轻这种准确性的权衡,在该概率上,标准网络已优化以确保清洁准确性,并且总体上并不强大。我们表明,可靠的基本分类器的置信度差异是正确和不正确的示例的关键 ...
文档图像现在被手持设备(例如手机)广泛捕获。这些图像上的OCR性能在很大程度上受到了文档纸的几何变形,各种相机位置和复杂的背景的影响。在本文中,我们提出了一种简单而有效的方法,通过估计控制点和参考点来纠正扭曲的文档图像 ...
尽管它们在发电和推理方面的功能提高了,但由于其巨大的规模和公司的隐私,将大型语言模型(LLMS)调整到生物医学领域仍然具有挑战性。在这项工作中,我们提出了Medadapter,这是一种统一的事后适配器,用于测试LLMS对生物医学应用的测试时间。 Medadapter没有微调整个LLM,而是通过仅微调一个小的BERT大小适配器来对LLMS生成的候选解决方案进行排名,从而有效地适应了原始模型 ...
在训练有素的 Transformer 中发现了懒惰的神经元现象,在训练有素的 Transformer 中,其前馈网络中的绝大多数神经元(FFN)对于每个 Token 都无效,它刺激了激活稀疏性的巨大利益,以提高大型模型效率。尽管在将这种稀疏性转化为墙壁时益处方面取得了显着的进步,但现代 Transformer 已从对这种现象至关重要的relu激活功能转移。重新引入激活稀疏性的现有努力通常会降低模型质量,增加参数计数,复杂或减慢训练 ...
大型语言模型(LLM)在各个领域都表现出了极大的多功能性。为了进一步促进LLM,我们提出了“自我”(语言反馈的自我进化),这是一种新颖的方法,使LLM可以通过自我反思来自我侵蚀,类似于人类的学习过程。自我启动,通过元技巧学习过程,使LLM与自我反馈和自我反馈的能力相比 ...
检索增强的一代改善了大语言模型(LLMS)的各个方面,但遭受了由长上下文引起的计算间接费用,以及无关紧要的信息将信息检索到生成的响应中。上下文修剪涉及这两个方面,通过在LLM生成之前删除检索到的上下文的不相关部分。但是,现有的上下文修剪方法是有限的,并且在各种场景中都不会提供既有高效又有坚固耐用的通用模型 ...
3D异常检测在监测精确制造中局部固有缺陷的零件中起着至关重要的作用。基于嵌入和基于重建的方法是最受欢迎和最成功的方法之一。但是,当前方法的实际应用面临两个主要挑战:1)嵌入式模型由于记忆库结构而遭受了过度的计算和存储; 2)基于MAE机制的重建模型无法检测到未掩盖区域中的异常 ...
软执行器为轻柔的抓握和灵活的操纵等任务提供了一种安全,适应性的方法。但是,由于可变形材料的复杂物理学,创建准确的模型来控制此类系统是具有挑战性的。准确的有限元方法(FEM)模型具有用于闭环使用的过度计算复杂性 ...
尽管多模式的大语言模型(MLLM)在跨越模式和任务的概括方面表现出色,从而有效地将其适应了特定的下游任务,同时保留一般和专业知识仍然具有挑战性。尽管低排名适应(LORA)被广泛用于有效地获取MLLM中的专业知识,但在视觉教学调整期间,它引入了实质性有害的冗余,这加剧了忘记通用知识和下游任务绩效的降低。为了解决这个问题,我们建议Lorasculpt消除有害的冗余参数,从而协调一般和专业知识 ...