一译 —— 文档和论文翻译、对照阅读、讨论和社区

Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation

视力基础模型（VFM）和视觉语言模型（VLM）由于其强大的概括能力而在域广义语义分割（DGSS）中获得了吸引力。但是，现有的DGSS方法通常完全依赖于VFM或VLM，从而忽略了它们的互补优势。 VFM（e ...

0 0 0 2025/07/24 arXiv:2504.03193v2 meme

Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models

捍卫预训练的视觉模型（VLM）（例如剪辑），以防止对抗性攻击，因为这些模型被广泛用于不同的零摄像任务，包括图像分类。但是，现有的对抗性训练（AT）可靠的微调方法在很大程度上忽略了语言在增强视觉鲁棒性中的作用。具体而言，（1）通过方法监督的依赖短文（e ...

0 0 0 2025/07/24 arXiv:2507.16257v1 yanlinghansd

Self-supervised ControlNet with Spatio-Temporal Mamba for Real-world Video Super-resolution

现有的基于扩散的视频超分辨率（VSR）方法容易将复杂的降解和明显的文物引入高分辨率视频，因为它们的固有随机性。在本文中，我们通过将自我监督的学习和MAMBA纳入预先训练的潜在扩散模型中提出了一个噪声真实世界VSR框架。为了确保相邻帧之间的内容一致性，我们使用带有3D选择性扫描模块的视频状态空间块通过全局时空注意机制增强了扩散模型，该模块以负担得起的计算成本增强了连贯性 ...

0 0 0 2025/07/24 arXiv:2506.01037v1 meme

Towards Human-level Intelligence via Human-like Whole-Body Manipulation

长期以来，建造通用智能机器人一直是机器人技术的基本目标。一种有希望的方法是反映人类的进化轨迹：通过与环境的持续互动来学习，并在模仿人类行为的驱动下进行了早期进步。实现这一目标提出了三个核心挑战：（1）使用人类水平的物理能力设计安全的机器人硬件； （2）为数据收集开发一个直观且可扩展的全身远程操作界面； （3）创建能够从人类示范中学习全身视觉运动策略的算法 ...

0 0 0 2025/07/24 arXiv:2507.17141v1 wchiyu98

CarbonCall: Sustainability-Aware Function Calling for Large Language Models on Edge Devices

大型语言模型（LLMS）启用了Edge AI系统中的实时功能，但引入了大量的计算开销，从而导致高功耗和碳排放。现有方法在忽略可持续性的同时优化性能，使其无法为能源受限的环境效率低下。我们介绍了CarbonCall，这是一个可持续性吸引的功能称呼框架，该框架集成了动态工具选择，碳感知执行和量化LLM适应 ...

0 1 0 2025/07/24 arXiv:2504.20348v2 BlankScript

Flow Matching based Sequential Recommender Model

生成模型，尤其是扩散模型，已成为有效推荐的强大工具。但是，由于基于扩散的方法的正向和反向过程中固有的噪声扰动，因此准确地对用户偏好进行建模仍然具有挑战性。为此，这项研究介绍了FMREC，这是一种基于流动匹配的模型，该模型采用直流轨迹和针对推荐任务量身定制的修改损失 ...

0 0 0 2025/07/24 arXiv:2505.16298v1 sbjincheng

Temporalizing Confidence: Evaluation of Chain-of-Thought Reasoning with Signal Temporal Logic

当受到思考链（COT）提示指导时，大型语言模型（LLM）在数学推理任务中表现出了令人印象深刻的表现。但是，它们倾向于产生高度自信但不正确的产出，这在教育等领域中带来了重大风险，在这种领域中，用户可能缺乏评估推理步骤的专业知识。为了解决这个问题，我们提出了一个结构化框架，该框架将逐步置信为时间信号并使用信号时间逻辑（STL）对其进行评估 ...

0 0 0 2025/07/24 arXiv:2506.08243v1 17733052961

Beyond Coarse-Grained Matching in Video-Text Retrieval

视频文本检索取得了重大进步，但是模型辨别字幕上微妙差异的能力仍然需要验证。在本文中，我们介绍了一种新的评估方法。我们的方法可以通过自动生成在名词，动词，形容词，副词和介词之间具有细微的单词变化的硬性测试字幕来应用于现有数据集 ...

0 0 0 2025/07/24 arXiv:2410.12407v2 zly111

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）