通过简单的\ textit {retaning}具有\ textit {自己的预测硬标签}(即1/0标签),通常可以改善接受嘈杂标签的模型的性能 ...
0 0 0 2025/09/23 arXiv:2406.11206v3 OnFire
尽管大规模多模式的预训练方法取得了成就,但跨模式检索(例如,图像文本检索)仍然是一项艰巨的任务 ...
0 0 0 2025/09/23 arXiv:2105.13868v2 FOUR_A
引用视频对象细分(RVO)需要以自然语言表达式进行的视频中进行细分和跟踪对象,这需要对外观和运动的细粒度了解。我们以SA2VA为基础,该基础将多式联运大语言模型(MLLM)与视频分割模型SAM2结合在一起,我们确定了两个限制分割性能的关键瓶颈:稀疏的框架采样和对单个[seg]标记的依赖,用于整个视频。我们建议分段增强和选择性平均SA2VA SASA2VA来解决这些问题 ...
0 0 0 2025/09/23 arXiv:2509.16972v1 chengwenxuan7
自动化问题旨在自主识别和修复整个代码库中的有缺陷的代码段。 SWE-Bench已成为评估该领域进度的最广泛采用的基准。尽管基于LLM的代理工具表现出巨大的希望,但它们仍然在大部分任务上失败 ...
0 0 0 2025/09/23 arXiv:2509.13941v1 leec
立体声匹配从图像对应关系恢复深度。现有的方法难以处理匹配线索有限的区域,例如遮挡和无纹理区域。为了解决这个问题,我们提出了一种怪物,这是一种新的方法,它利用了单眼深度估计和立体声匹配的互补强度 ...
0 0 0 2025/09/23 arXiv:2501.08643v1 KingXHJ
定制视频生成的最新进展使用户能够创建针对特定主题和运动轨迹的视频。但是,现有方法通常需要复杂的测试时间进行微调,并在平衡主题学习和运动控制方面挣扎,从而限制了其现实世界的应用。在本文中,我们介绍了DreamVideo-2,这是一个零摄像的视频自定义框架,能够分别具有特定主题和运动轨迹的视频,分别在单个图像和边界框序列的指导下,而无需测试时间进行微调 ...
0 0 0 2025/09/23 arXiv:2410.13830v1 SummeRain
Openai Chatgpt的爆炸性到来助长了大语言模型(LLM)的全球化,该模型由数十亿个预处理的参数组成,这些参数体现了语法和语义的各个方面。 HyperAccel引入了潜伏期处理单元(LPU),这是一种用于LLM推理加速的潜伏期优化且高度可扩展的处理器体系结构。 LPU完美地平衡了存储器带宽和计算逻辑与简化的数据流,以最大程度地提高性能和效率 ...
0 0 15 2025/09/23 arXiv:2408.07326v1 hwrabbit
大型语言模型(LLM)的最新进展使AI代理能够自主产生科学建议,进行实验,作者论文和执行同行评审。然而,大量的AI生成的研究内容与零散且在很大程度上封闭的出版生态系统相撞。传统的期刊和会议依靠人类的同伴审查,使其难以扩展,并且常常不愿接受AI生成的研究内容;现有的预印式服务器(e ...
0 0 0 2025/09/23 arXiv:2508.15126v1 jevon

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)