多传感器数据的可用性增加激发了人们对多模式自学学习的广泛兴趣。但是,大多数现有方法仅学习跨模态的共同表示,同时忽略了模式内训练和模态唯一的表示。我们提出了脱钩和独特的表示(Decur),这是一种简单而有效的自学学习方法 ...
0 0 0 2025/03/19 arXiv:2309.05300v3 tequila1128
检索增强的生成(RAG)被广泛用于将外部知识纳入大型语言模型,从而最大程度地减少了幻觉。标准的RAG管道可能包括多个组件,例如查询重写,文档检索,文档过滤和答案生成。但是,这些组件通常是通过监督的微调分别优化的,这可能导致单个模块的目标之间的未对准以及在提问(QA)任务中产生准确答案的总体目的 ...
0 0 0 2025/03/19 arXiv:2501.15228v1 18636279200
机器人对物体零件进行高效且零拍的能力对于实际应用至关重要,并且随着视觉模型(VLMS)的最新进展而变得越来越普遍。为了桥接2d-3d的差距以支持这种能力,现有方法依赖于神经场(NERFS)通过可区分的渲染或基于点的投影方法。但是,我们证明了NERF不适合场景的变化,因为它们的隐性和基于点的方法对于零件本地化而无需基于基于优化的零件定位 ...
0 0 0 2025/03/19 arXiv:2409.02084v1 guoweichao87
内容警告:本文包含可能令人反感和可能触发的删除的示例。语言技术中的性别偏见已经得到了广泛的研究,但是研究主要仅限于性别的二元范式。考虑非二元性别认同也是至关重要的,因为不包括它们可能会对已经边缘化的群体造成进一步的伤害 ...
0 0 0 2025/03/19 arXiv:2306.03950v2 duck
具有 Transformer 架构的潜在扩散模型擅长生成高保真图像。然而,最近的研究揭示了这种两阶段设计中的优化困境:虽然增加视觉标记器中每个标记的特征维度可以提高重建质量,但它需要更大的扩散模型和更多的训练迭代才能实现可比较的生成性能。因此,现有系统通常采用次优解决方案,要么由于分词器内的信息丢失而产生视觉伪影,要么由于昂贵的计算成本而无法完全收敛 ...
0 0 0 2025/03/19 arXiv:2501.01423v3 haoyb22
深层神经网络通常通过违背常规概括概念而被视为与其他模型类别不同。异常概括行为的流行例子包括良性过度拟合,双重下降和超透明化的成功。我们认为这些现象与神经网络没有区别,或者特别神秘 ...
0 0 0 2025/03/19 arXiv:2503.02113v1 attention2
检索增强生成(RAG)系统在自然语言处理方面显示出了巨大的前景。然而,他们对存储在检索数据库中的数据的依赖(可能包含专有或敏感信息)引入了新的隐私问题。具体来说,攻击者可以通过观察 RAG 系统的输出来推断某个文本段落是否出现在检索数据库中,这种攻击称为成员推理攻击 (MIA) ...
0 0 0 2025/03/19 arXiv:2405.20446v3 0x211
尽管在AI基准测试方面取得了迅速的进展,但基准性能的现实含义尚不清楚。为了根据人类能力来量化AI系统的能力,我们提出了一个新的指标:50%的任务完成时间范围。这是人类通常需要完成AI模型可以完成50%成功率的任务的时间 ...
0 0 0 2025/03/19 arXiv:2503.14499v1 tmylla

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)