一译 —— 文档和论文翻译、对照阅读、讨论和社区

DynamicCity: Large-Scale 4D Occupancy Generation from Dynamic Scenes

最近，城市场景的一代一直在迅速发展。但是，现有方法主要集中于生成静态和单帧场景，忽略了现实世界驾驶环境的固有动态性质。在这项工作中，我们引入了DynamicCity，这是一个新颖的4D占用生成框架，能够通过语义生成大规模的高质量动态4D场景 ...

0 0 0 2025/04/28 arXiv:2410.18084v2 orangelcx

ComplexTempQA: A Large-Scale Dataset for Complex Temporal Question Answering

我们介绍了Complextempqa，这是一个大规模数据集，该数据集由超过1亿个问题解答对组成，旨在应对时间问题回答中的挑战。 complextempqa在规模和范围上显着超过了HotPotQA，Torque和Tequila等现有基准。利用Wikipedia和Wikidata的数据，数据集涵盖了跨越二十年的问题，并提供了无与伦比的主题 ...

0 0 0 2025/04/28 arXiv:2406.04866v2 chrisxiong

CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models

虽然经过思考链（COT）推理改善了复杂任务中大语言模型（LLMS）的性能，但它仍然面临两个主要挑战：仅依靠LLMS来产生推理链和自然语言推理链对LLMS推理逻辑的干扰的可靠性低。为了解决这些问题，我们提出了COT-rag，这是一个具有三个关键设计的新颖推理框架：（i）知识图形驱动的COT生成，具有知识图以调节LLM的推理链生成，从而增强了推理信誉； （ii）可学习的知识案例感知的抹布，将检索功能的 ...

0 0 0 2025/04/28 arXiv:2504.13534v1 firefly2024

CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination

对比性语言图像预训练（剪辑）在各种任务中都取得了出色的表现。但是，剪辑的有效性在很大程度上取决于大量的预训练数据，从而导致了显着消耗计算资源。尽管知识蒸馏已被广泛应用于单一模态模型，但如何有效地将知识蒸馏扩展到具有广泛数据的视觉基础模型中 ...

0 0 0 2025/04/28 arXiv:2408.09441v2 Atlantis

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

我们提出了一种将视觉生成模型（无论是图像和视频生成）与人类偏好相结合的一般策略。首先，我们构建了VisionReward，这是一种精细的和多维的奖励模型。我们将图像和视频中的人类偏好分解为多个维度，每个维度都由一系列判断问题表示，并将加权加权并求和到可解释和准确的分数 ...

0 0 0 2025/04/28 arXiv:2412.21059v2 arraylilili

Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks

程序活动中的错误检测对于AR辅助和机器人系统的一致和正确结果至关重要。现有方法通常集中于时间排序错误或依靠静态原型来表示正常动作。但是，这些方法通常会忽略常见方案，在这种情况下，按照给定的执行操作序列，多个不同的动作是有效的 ...

0 0 0 2025/04/28 arXiv:2503.22405v2 13080420360

SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events

视频中的交通事件认知和推理是一项重要的任务，在智能运输，辅助驾驶和自动驾驶汽车中具有广泛的应用。在本文中，我们创建了一个新颖的数据集Sutd-Trafficqa（交通问题答案），该数据集根据收集到的10,080个野外视频和注释的62,535 QA对采取视频质量检查的形式，用于基于为复杂的交通量表中的Causal Tecnerction和事件理解模型的认知能力，以实现复杂交通模型的认知能力。具体来说 ...

0 0 0 2025/04/28 arXiv:2103.15538v3 jayllia

Domain Prompt Learning with Quaternion Networks

在大型视觉模型（VLM）中，迅速学习已成为一种有效且具有数据效率的技术。但是，当将VLM适应专用域（例如遥感和医学成像）时，域及时学习仍然没有被忽略。尽管大规模领域特定的基础模型可以帮助应对这一挑战，但它们的专注于单一视觉水平，使敏捷的视觉和语言方式都具有挑战性 ...

0 0 0 2025/04/28 arXiv:2312.08878v1 Atlantis

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）