一译 —— 文档和论文翻译、对照阅读、讨论和社区

Nl2Hltl2Plan: Scaling Up Natural Language Understanding for Multi-Robots Through Hierarchical Temporal Logic Task Representation

为了使非专家能够指定长马，多机器人协作任务，语言模型越来越多地用于将自然语言命令转化为正式规格。但是，由于翻译可能以多种方式进行，因此这种翻译可能缺乏准确性或导致多机器人计划效率低下。我们的关键见解是，简洁的层次结构规格可以简化计划，同时直接从人类的指示中得出 ...

0 0 0 2025/04/28 arXiv:2408.08188v4 mencius

Improving Video Generation with Human Feedback

视频生成通过整流的流动技术取得了重大进步，但是诸如视频和提示之间的诸如Untooth运动和未对准之类的问题持续存在。在这项工作中，我们开发了一条系统的管道，该管道利用人类的反馈来减轻这些问题并完善视频生成模型。具体来说，我们首先构建了一个大规模的人类偏好数据集，该数据集的重点是现代视频生成模型，并结合了跨多维的成对注释 ...

0 0 0 2025/04/28 arXiv:2501.13918v1 wonders

Residual Dense Network for Image Super-Resolution

（cnn）（sr）方面取得了巨大成功，并且还提供了分层特征。然而，并且还提供了分层特征。然而，大多数基于深度cnn的sr模型没有充分利用原始低分辨率（lr）图像的层次特征，从而实现相对较低的性能。在本文中，我们提出了一种新颖的残差密集网络（ ...

0 0 0 2025/04/28 arXiv:1802.08797v2 fwu6

CaRL: Learning Scalable Planning Policies with Simple Rewards

我们调查了在自动驾驶中进行特权计划的强化学习（RL）。该任务的最新方法是基于规则的，但是这些方法并未扩展到长时间的尾巴。另一方面，RL是可扩展的，并且不会遭受模仿学习等复杂错误 ...

0 0 0 2025/04/28 arXiv:2504.17838v1 lihongchen

Teach Me How to Denoise: A Universal Framework for Denoising Multi-modal Recommender Systems via Guided Calibration

多媒体内容的激增导致了多模式推荐系统（MMREC）的开发，这些系统使用文本，图像，视频和音频等多种方式进行更多个性化的建议。然而，MMREC在模态含量之间的错位以及模态语义和建议语义之间的差距引起的嘈杂数据而苦苦挣扎。由于多模式数据的复杂性，传统的去核方法不足 ...

0 0 0 2025/04/28 arXiv:2504.14214v1 fc

DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training

尽管大型语言模型（LLMS）最近在各种复杂的推理基准上取得了出色的表现，但学术界仍然缺乏对基本模型培训过程和数据质量的深入了解。为了解决这个问题，我们构建了一个大规模的，难以分级的推理数据集，其中包含大约334亿个不同难度水平的独特查询以及多个通过多个通过的多个模型产生的大约4000万个蒸馏响应 ...

0 0 0 2025/04/28 arXiv:2504.17565v2 yiyili

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

在语言产生中长期占主导地位的自回旋（AR）模型越来越多地应用于图像合成，但通常被认为比基于扩散的模型不那么竞争。主要限制是AR模型所需的大量图像 Token ，这既约束训练和推理效率，又要限制图像分辨率。为了解决这个问题，我们提出了 Token Shuffle，这是一种新颖而简单的方法，可减少 Transformer 中图像 Token 的数量 ...

0 1 0 2025/04/28 arXiv:2504.17789v1 X.K

Mind with Eyes: from Language Reasoning to Multimodal Reasoning

语言模型最近已进入推理领域，但是通过多模式推理，我们可以完全释放获得更全面，类似人类的认知能力的潜力。这项调查提供了最新的多模式推理方法的系统概述，将它们分为两个层面：以语言为中心的多模式推理和协作性多模式推理。前者涵盖了一通的视觉感知和主动的视觉感知，其中愿景主要在语言推理中发挥支持作用 ...

0 0 0 2025/04/28 arXiv:2503.18071v1 iris

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）