近年来,人们对与文本引导的图像介绍有关的研究非常重视。但是,由于几个限制,该任务仍然具有挑战性,例如确保图像和文本之间的一致性,并保持损坏区域和未腐败区域之间的分布一致性。因此,在本文中,我们提出了一个双重仿射转化生成的对抗网络(DAFT-GAN),以维持文本引导inpainting的语义一致性 ...
0 0 0 2025/02/28 arXiv:2408.04962v1 Vandermonde
通过端到端的学习过程,视觉语言动作(VLA)模型在视觉运动控制和指导理解中表现出了巨大的潜力。但是,当前的VLA模型面临着重大挑战:它们在推理过程中的速度很慢,需要对大量机器人数据进行大量预培训,从而使现实世界中的部署变得困难。在本文中,我们介绍了一个新的紧凑型视觉动作模型,称为Tinyvla,该模型与现有VLA模型相比提供了两个关键优势:(1)更快的推理速度,以及(2)提高数据效率,消除了对预训 ...
0 0 0 2025/02/28 arXiv:2409.12514v4 蔡明方
IEC 61131-3结构化文本(ST)是自动化系统中可编程逻辑控制器(PLC)的广泛使用的编程语言。但是,由于公共培训数据集中的数据有限和ST语言语法的复杂性,因此使用LLMS生成ST代码构成了独特的挑战。本文提出了一种用于生成ST代码的微调LLM的方法,该方法通过在线流程涉及编译器反馈和基于LLM的ST专家的评估来利用基于偏好的学习方法 ...
0 0 0 2025/02/28 arXiv:2410.22159v3 chj1007
在开放域中对话中,智能代理人应该展示知识的使用,但是迄今为止,很少有令人信服的证明。序列模型的最流行序列通常是“生成和希望”的通用话语,这些话语可以在模型的权重绘制到输入话语到输出时可以记住,而不是使用召回的知识作为上下文。到目前为止,知识的使用已被证明是困难的,部分原因是缺乏有监督的学习基准任务,该任务表现出知识渊博的公开对话,并具有清晰的基础 ...
0 0 0 2025/02/28 arXiv:1811.01241v2 xdykj
人类可以使用简单的2D地图将自己定向在3D环境中。从不同的角度来看,视觉本地化的算法主要依赖于随着时间的推移构建,存储和维护价格昂贵的复杂的3D点云。我们通过引入Orienternet(可以使用人类使用的相同的2D语义图的次级精度来定位图像的第一个深度神经网络,我们可以通过引入Orienternet来弥合这一差距 ...
0 0 0 2025/02/28 arXiv:2304.02009v1 waitsop
大型语言模型(LLM)代理商框架通常采用模块化体系结构,并结合诸如计划,推理,行动执行和反思等组件来处理复杂的任务。但是,量化每个模块对整体系统性能的贡献仍然是一个重大挑战,阻碍了优化和解释性。为了解决这个问题,我们介绍了Capabench(功能级评估基准),这是一个基于合作游戏理论的Shapley价值的评估框架,该框架系统地测量了单个模块及其在代理体系结构中的边际影响 ...
0 0 0 2025/02/28 arXiv:2502.00510v2 niuzai
步态识别是最关键的长距离识别技术之一,并且在研究和行业社区中越来越受欢迎。尽管室内数据集取得了重大进展,但许多证据表明,步态识别技术在野外的表现较差。更重要的是,我们还发现,室内数据集得出的一些结论不能推广到实际应用程序 ...
0 0 0 2025/02/27 arXiv:2211.06597v3 17733052961
联合学习系统容易受到恶意客户攻击的影响。由于系统中的中央服务器无法控制客户端的行为,因此Rogue客户端可以通过向服务器发送恶意模型更新来启动攻击,从而降低学习性能或执行目标模型中毒攻击(A.K. ...
0 0 0 2025/02/27 arXiv:2002.00211v1 chenzhuo-wang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)