一译 —— 文档和论文翻译、对照阅读、讨论和社区

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

当前动作分类数据集（UCF-101和HMDB-51）中视频的匮乏使得很难识别出良好的视频体系结构，因为大多数方法在现有的小规模基准测试中获得了类似的性能。根据新动力学人类动作视频数据集，本文重新评估了最新的架构。 Kinetics具有两个数量级的数据，其中有400个人类动作类别，每课超过400个剪辑，并且是从现实，挑战的YouTube视频中收集的 ...

0 0 0 2025/05/16 arXiv:1705.07750v3 13080420360

INF^2: High-Throughput Generative Inference of Large Language Models using Near-Storage Processing

大语模型（LLM）对生成推理的记忆和计算需求不断增长，对实际部署提出了重大挑战。解决这些挑战的一种有希望的解决方案是卸载基于批处理的推理，该推理利用主机内存和磁盘作为GPU的扩展内存层次结构。尽管该方法成本效益可以启用LLM推断，但其性能受到大量I/O的限制，这主要是由于大型键值（KV）缓存尺寸，这会随批量大小和LLM上下文窗口长度而增加 ...

0 0 0 2025/05/16 arXiv:2502.09921v1 wangjun

Weakly Supervised Anomaly Detection via Knowledge-Data Alignment

异常检测（AD）在许多基于Web的应用程序中起关键作用，包括恶意软件检测，反洗钱，设备故障检测和网络故障分析。由于缺乏标签，大多数依赖于无监督学习的方法很难达到令人满意的检测准确性。引入了弱监督的异常检测（WSAD），并使用有限的标记为异常样品来增强模型性能 ...

0 0 0 2025/05/16 arXiv:2402.03785v1 xixiaixixi

Compositional Chain-of-Thought Prompting for Large Multimodal Models

强大的视觉主链和大型语言模型（LLM）推理的结合使大型多模型模型（LMM）成为广泛视觉和语言（VL）任务的当前标准。但是，最近的研究表明，即使是最先进的LMM仍然很难捕获构图视觉推理的各个方面，例如属性和对象之间的关系。一种解决方案是利用场景图（SGS） - 对象的形式化及其关系和属性已被广泛用作视觉和文本域之间的桥梁 ...

0 0 0 2025/05/16 arXiv:2311.17076v3 mc1a17

OCC-VO: Dense Mapping via 3D Occupancy-Based Visual Odometry for Autonomous Driving

视觉进程（VO）在自主系统中起关键作用，主要挑战是相机图像中缺乏深度信息。本文介绍了OCC-VO，这是一个新颖的框架，该框架利用了深度学习的最新进展，将2D摄像头图像转换为3D语义占用率，从而规避了对自我姿势和地标地点的同时估算的传统需求。在此框架内，我们利用TPV形式将环绕摄像机的图像转换为3D语义占用 ...

0 0 0 2025/05/16 arXiv:2309.11011v2 gld19990303

ScaleOT: Privacy-utility-scalable Offsite-tuning with Dynamic LayerReplace and Selective Rank Compression

OFFITE-TUNNING是一种使用LLM所有者与数据所有者共享有损失的压缩模拟器来调整大语言模型（LLM）的隐私方法，以进行下游任务调整。这种方法保护模型和数据所有者的隐私。但是，当前的异地调整方法通常会因统一下降LLM层或依靠昂贵的知识蒸馏而导致适应性降解，高计算成本以及有限的保护强度受到损失 ...

0 0 0 2025/05/16 arXiv:2412.09812v1 xiongxiaobao

PRewrite: Prompt Rewriting with Reinforcement Learning

及时工程对于开发基于LLM的应用程序至关重要。但是，通常以“反复试验”方式手动完成，这可能是耗时，无效和最佳选择的。即使对于看似效果很好的提示，总会有一个挥之不去的问题：通过进一步的修改，提示可以更好吗？为了解决这些问题，我们在本文中调查了自动化的及时工程 ...

0 0 0 2025/05/16 arXiv:2401.08189v4 weight

Guiding Large Language Models via Directional Stimulus Prompting

我们引入了定向刺激提示，这是一种新颖的框架，llm）实现特定的所需输出。我们的方法不是直接调整llm，而是采用一个小型的可调政策模型（例如 ... ...

0 0 0 2025/05/16 arXiv:2302.11520v4 weight

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）