估计目标范围在视觉对象跟踪中构成了基本挑战。通常,跟踪器以箱子为中心,并且完全依靠一个边界框来定义场景中的目标。实际上,对象通常具有复杂的形状,并且与图像轴不符 ...
脆弱性检测对于软件质量保证至关重要。近年来,深度学习模型(尤其是大型语言模型)在脆弱性检测中表现出了希望。在这项工作中,我们提出了一种基于LLM的新型脆弱性检测技术vul-rag,该技术利用知识级检索 - 调格生成(RAG)框架在三个阶段中检测给定代码的脆弱性 ...
使用语言模型可缩减对文本质量的人类偏好(LLM-AS-A-Gudge)已成为适用于许多任务的标准实践。通常仅从法官的文本输出中提取判断,通常是贪婪的解码。但是,LLM法官自然会在判断 Token 上提供分布,邀请推理方法广度以提取细粒度的偏好 ...
自2019年以来,在线广告行业中的大多数广告交易所和卖方平台(SSP)从第二次价格拍卖转移到了第一笔价格。由于这些拍卖之间的根本差异,需求端平台(DSP)不得不更新其竞标策略,以避免不必要地竞标不必要的高价,从而超额付款。提出了出价阴影来调整用于第二价格拍卖的投标价格,以平衡成本和首价拍卖设置中的概率 ...
基于扩散的 Transformer (DIT)的生成模型在视频生成中取得了巨大的成功。但是,它们固有的计算需求构成了巨大的效率挑战。在本文中,我们利用了现实世界视频的固有时间不均匀性,并观察到视频表现出动态信息密度,高动片段比静态场景更需要更大的详细信息 ...
面部图像的年龄变化是一种在保留身份的同时编辑与年龄相关的人的外观的技术。现有的基于深度学习的方法可以再现自然年龄的转变;但是,他们只能再现平均过渡,并且无法解释受其生活历史影响的个人特定外观。在本文中,我们提出了一种基于个性化年龄转化的基于扩散模型的方法 ...
大型语言模型(LLM)表现出在视觉和语言导航(VLN)任务中的潜力,但是当前的应用程序面临着挑战。尽管LLM在一般的对话场景中表现出色,但他们在专门的导航任务中挣扎,与专业VLN模型相比,其表现次优。我们介绍了Flame(Flamingo Archit的体现代理),这是一种新型的基于LLM LLM的代理和架构,为Urban VLN任务设计,可有效地处理多个观察结果 ...
根据验证的需求,跨野生图像的一致编辑仍然是由各种难以管理的因素(例如对象姿势,照明条件和摄影环境)引起的技术挑战。 Edicho使用基于扩散模型的无训练解决方案介入,其基本设计原理是使用显式图像对应来直接编辑。具体而言,关键组件包括注意操纵模块和精心完善的无分类器指导(CFG)降级策略,这两者都考虑到预估计的对应关系 ...