一译 —— 文档和论文翻译、对照阅读、讨论和社区

Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge

大型语言模型（LLM）的最新进展使视频插件的开发能够开发，从而通过将视频数据与语言任务桥接在一起，从而推进了多模式学习。但是，当前的视频理解模型与处理长期视频序列，支持多转话对话并适应现实世界动态方案。为了解决这些问题，我们提出了StreamChat，这是一个用于流视频推理和对话互动的无培训框架 ...

0 0 0 2025/01/31 arXiv:2501.13468v1 Xiangyu

Overcoming Distribution Mismatch in Quantizing Image Super-Resolution Networks

尽管量化已成为降低各种高级视觉任务计算复杂性的一种有希望的方法，但它不可避免地会导致图像超分辨率（SR）网络的准确性损失。这是由于跨不同通道和SR网络的输入图像的特征分布显着不同，这使选择固定量化范围的选择变得复杂。现有作品通过动态调整量化范围来解决此分布不匹配的问题，以在测试时间内变化分布 ...

0 0 0 2025/01/31 arXiv:2307.13337v2 fwu6

SDformerFlow: Spatiotemporal swin spikeformer for event-based optical flow estimation

事件摄像机产生异步和稀疏事件流，以捕获光强度的变化。它们比传统的基于框架的相机具有显着优势，例如更高的动态范围和非常快的数据速率，使其在涉及快速运动或挑战照明条件的情况下特别有用。尖峰神经网络（SNN）具有相似的异步和稀疏特征，非常适合从事件摄像机处理数据 ...

0 0 0 2025/01/31 arXiv:2409.04082v1 王小谟

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning

最近，大型多模型（LMMS）的光学特征识别（OCR）能力得分最近引起了人们的兴趣日益增长的兴趣。现有的基准测试表明，LMM在文本识别中的表现令人印象深刻。但是，它们在某些具有挑战性的任务上的能力，例如文本本地化，手写内容提取和逻辑推理，仍然没有被忽视。为了弥合这一差距，我们介绍了Ocrbench v2，这是一种大规模双语文本中心的基准，目前是最全面的任务集（比以前的多场景基准OCRBENCH多4倍 ...

0 0 0 2025/01/31 arXiv:2501.00321v1 fclong

Auto-Differentiating Any LLM Workflow: A Farewell to Manual Prompting

大型语言模型（LLMS）具有重塑自然语言处理，从多跳检索和答案到自主代理工作流程的应用程序。然而，迅速的工程 - 将文本输入编写为有效直接LLM的任务 - 仍然很困难和劳动密集型，尤其是对于将多个LLM调用与功能操作相结合的复杂管道，例如检索和数据格式。我们介绍了LLM-Autodiff：自动及时工程（APE）的新型框架，该框架将基于文本梯度的方法（例如文本研究生）扩展到多组分，可能是循环的LLM ...

0 0 0 2025/01/30 arXiv:2501.16673v1 zhang_yiyi

AVATAR: Adversarial self-superVised domain Adaptation network for TARget domain

本文提出了一种无监督的域适应性（UDA）方法，用于预测未标记的目标域数据，该数据特定于域间隙显着的复杂UDA任务。主流UDA模型旨在通过使用标记的源域数据来从两个领域学习并改善目标歧视。但是，当源和目标域之间的差异较大或目标域包含异常值时，性能提升可能会受到限制 ...

0 0 0 2025/01/30 arXiv:2305.00082v2 LJH

FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU

大型语言模型（llm）推理对计算和内存的高要求使其只能通过多个高端加速器才能实现。受批处理对延迟不敏感任务的新兴需求的推动，本文启动了使用有限资源（例如单个商用GPU）进行高吞吐量llm推理的研究。我们推出了flexgen，这是一种高吞吐量生成引擎，用于在gpu内存有限的情况下运行llm ... ...

0 2 0 2025/01/30 arXiv:2303.06865v2 Richardc13

Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models

多模式大型语言模型（MLLM）在各种视觉理解任务中表现出了显着的能力。但是，MLLM仍在精细粒度的视觉识别（FGVR）中挣扎，该识别旨在从图像中识别下属级别类别。这可能会对MLLM的更先进的功能产生负面影响，例如以对象为中心的视觉问题回答和推理 ...

0 0 0 2025/01/30 arXiv:2501.15140v1 Xiangyu

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）