当前的图像字幕工作通常集中于以自回归方式生成描述。但是,有限的作品专注于非压力的描述,这带来了更多的解码多样性。受扩散模型成功生成自然图像的成功的启发,我们提出了一种新颖的方法扩散,以在图像字幕上应用连续扩散 ...
0 0 0 2025/09/08 arXiv:2305.12144v1 kevinson
高性能实时立体声匹配方法总是依赖于成本量的3D正则化,这对移动设备不友好。基于2D正则化的方法在不属于地区的地区挣扎。在本文中,我们提出了一个适合部署的4D成本汇总网络DBSTEREO,该网络基于纯2D卷积 ...
0 0 0 2025/09/08 arXiv:2509.02415v1 KingXHJ
从单个图像或视频中估算场景照明仍然是计算机视觉和图形中的长期挑战。基于学习的方法受到基础真相HDR环境图的稀缺性的限制,这些环境图的捕获价格昂贵,并且多样性限制。尽管最近的生成模型为图像合成提供了强大的先验,但由于依赖间接视觉提示,推断全局(非本地)上下文以及恢复高动力范围输出的需要,照明估计仍然很困难 ...
0 0 0 2025/09/08 arXiv:2509.03680v1 KingXHJ
检索增强的生成(RAG)通过整合最新的外部知识来增强大型语言模型(LLM),但现实世界中的Web环境带来了独特的挑战。这些局限性表现为两个关键挑战:在网络环境中普遍存在的错误信息,它引入了不可靠或误导性的内容,可以降低检索准确性,而对网络工具的充分利用不足,如果有效地使用,这些工​​具可以增强查询精确度并有助于缓解这种噪音,最终改善RAG系统中的检索结果。为了解决这些问题,我们提出了WebFilt ...
0 0 0 2025/09/08 arXiv:2508.07956v1 KingXHJ
在某些情况下, Transformer 可以推广到在培训期间可能遇到的组成部分的新型问题实例,但其组成却没有。这种组成概括的能力是哪些机制?通过重新将多头注意力重新提高为超网络,我们揭示了一个可综合的,低维的潜在代码指定特定于键的特定操作。我们从经验上发现,该潜在代码可以预测网络在看不见的任务组成上执行的子任务,这表明在培训期间获得的潜在代码被重复使用以解决看不见的问题实例 ...
0 0 0 2025/09/08 arXiv:2406.05816v4 yanyu
本文介绍了自动对焦,这是一种有效的基于学习对象检测器的多尺度推理算法。 Autocus没有处理整个图像金字塔,而是采用一种粗略的方法,并且仅处理可能在更细的尺度上包含小物体的区域。这是通过预测在称为Focus像素的小对象的小物体的类别不可知分段图来实现的 ...
0 0 0 2025/09/08 arXiv:1812.01600v2 Fun_James
多元时间序列异常检测对于Web应用程序操作中的故障管理至关重要,因为它直接影响实施补救或预防措施的有效性和及时性。此任务通常被构成半监督的学习问题,在该问题中,仅适用于模型培训,这主要是由于数据标记的劳动密集型性质和异常数据的稀缺性。现有的半监督方法通常通过捕获变化的时间依赖性和/或变化的关系来检测异常,以学习正常模式,并标记与这些模式偏离异常的时间戳 ...
0 0 0 2025/09/08 arXiv:2501.16364v1 Roa
AI模型依靠注释的数据来学习模式和执行预测。注释通常是一个劳动密集型步骤,需要将标签从简单的分类标签到更复杂的任务,例如对象检测,面向边界框估计和实例分段。传统工具通常需要大量的手动输入,从而限制了大型数据集的可扩展性 ...
0 0 0 2025/09/08 arXiv:2509.04180v1 SOOKIE

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)