最近,由于其在图像上的令人印象深刻的分割性能,该细分模型(SAM)迅速引起了很多关注。关于它在图像细分方面的强大能力和不同提示的高度交互性,我们发现它在视频中的一致分段方面的性能较差。因此,在本报告中,我们提出了任何模型(TAM)的跟踪,该模型(TAM)可以在视频中实现高性能交互式跟踪和细分 ...
0 0 0 2025/05/14 arXiv:2304.11968v2 HGG
多动物跟踪(MAT)是一种多对象跟踪(MOT)问题,对于动物运动和行为分析至关重要,并且具有许多关键的应用,例如生物学,生态学和动物保护。尽管它的重要性,但与其他MOT问题(例如由于专用基准的稀缺性,MAT在很大程度上尚未探索)。为了解决这个问题,我们介绍了AnimalTrack,这是一种用于野外多动物跟踪的专用基准 ...
0 0 0 2025/05/14 arXiv:2205.00158v2 HGG
与大规模语言模型(LLM)相关的大量资源需求引起了人们对开发旨在压缩和加速神经网络的技术的极大兴趣。在这些技术中,PTQ(PTQ)因其在训练环境中显着的压缩效率和成本效益而成为人们极大兴趣的主题。现有的llm ptq方法将优化范围限制为量化前和量化后权重之间的缩放变换... ...
0 0 0 2025/05/14 arXiv:2403.12544v1 ldm
对象抓握对于许多应用程序至关重要,这也是一个具有挑战性的计算机视觉问题。但是,对于聚集的场景,当前的研究遭受了培训数据不足和缺乏评估基准的问题。在这项工作中,我们使用统一的评估系统贡献了一个大规模的掌握姿势检测数据集 ...
0 0 0 2025/05/14 arXiv:1912.13470v2 18801130956
电子商务推荐系统旨在为客户生成有序的项目列表,以优化多个业务目标,例如点击,转换和总商品量(GMV)。传统的多目标优化方法(例如公式或学习级)模型(LTR)模型在项目级别上生效,忽略了动态的用户意图和上下文项目的交互。在重新排列阶段中的列表级多目标优化可以克服此限制,但是大多数当前的重新排行模型都集中在上下文中的准确性改进上 ...
0 0 0 2025/05/14 arXiv:2505.07197v1 Lolta0806
对比性语言图像预训练(剪辑)在多模式任务(例如图像文本检索和零照片分类)中出色,但由于其专注于粗粒度的短标题而挣扎着具有细粒度的理解。为了解决这个问题,我们提出了细粒夹(FG-CLIP),从而通过三个关键的创新增强了细粒度的理解。首先,我们利用大型多模型生成1 ...
0 0 0 2025/05/14 arXiv:2505.05071v2 shiwei
语言模型在其训练分布中的任务上表现出了令人印象深刻的性能,但常常难以解决需要复杂推理的新问题。我们研究了测试时训练(TTT)的有效性——在推理期间使用从输入数据导出的损失临时更新模型参数——作为提高模型推理能力的机制,使用抽象和推理语料库(ARC)作为基准。通过系统实验,我们确定了成功 TTT 的三个关键组成部分:(1) 对类似任务进行初始微调 (2) 辅助任务格式和增强 (3) 每个实例训练 . ...
0 0 0 2025/05/14 arXiv:2411.07279v2 lishiqi01
及时的注射攻击旨在将恶意指示/数据注入LLM集成应用的输入中,从而以攻击者的要求产生结果。现有作品仅限于案例研究。结果,文献缺乏对快速注射攻击及其防御措施的系统理解 ...
0 0 0 2025/05/14 arXiv:2310.12815v4 0x211

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)