一译 —— 文档和论文翻译、对照阅读、讨论和社区

Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models

诸如剪辑之类的视觉模型在对齐视觉和文本表示方面取得了重大成功，成为许多多模式大语言模型（MLLM）等基本组成部分，例如Llava和OpenFlamingo。但是，许多研究都将Clip有限的细粒感视为关键缺点，从而导致下游MLLM的实质性失败。相比之下，诸如Dinov2之类的以视觉为中心的基础模型在捕获图像的细节方面表现出了非凡的功能 ...

0 0 0 2025/09/04 arXiv:2506.02557v1 qzfm

Learning Continuous Grasping Function with a Dexterous Hand from Human Demonstrations

我们建议学习使用隐式功能通过灵巧的手来产生抓握运动来进行操纵。通过连续的时间输入，该模型可以生成连续且平滑的抓握计划。我们命名了建议的模型连续掌握函数（CGF） ...

0 0 0 2025/09/04 arXiv:2207.05053v3 万类霜天

RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar

基于 3D 占用的感知管道通过捕获详细的场景描述并展示跨各种对象类别和形状的强大通用性，显着推进了自动驾驶。当前的方法主要依赖 LiDAR 或摄像头输入来进行 3D 占用预测。这些方法容易受到恶劣天气条件的影响，限制了自动驾驶汽车的全天候部署 ...

0 0 0 2025/09/04 arXiv:2405.14014v4 sunny78669

DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection

人们对自动驾驶汽车的看法必须是高效、稳健且具有成本效益的。然而，摄像头在恶劣天气条件下的鲁棒性不强，激光雷达传感器价格昂贵，基于雷达的感知性能仍然不如其他传感器。人们提出了相机-雷达融合方法来解决这个问题，但这些方法受到雷达点云典型稀疏性的限制，并且通常是为没有高程信息的雷达而设计的 ...

0 0 0 2025/09/04 arXiv:2404.03015v2 sunny78669

PromAssistant: Leveraging Large Language Models for Text-to-PromQL

随着现代在线服务系统的越来越复杂，了解系统的状态和行为对于确保其可靠性和稳定性至关重要。因此，公制监测系统被广泛使用，并成为在线服务系统中的重要基础架构。工程师通常通过手动编写特定于域的语言（DSL）查询来与指标数据进行交互，以实现各种分析目标 ...

0 0 0 2025/09/04 arXiv:2503.03114v2 kanli

Wan-S2V: Audio-Driven Cinematic Video Generation

音频驱动的角色动画的当前最新方法（SOTA）方法表明了主要涉及语音和唱歌的场景表现。但是，它们通常在更复杂的电影和电视作品中跌落，这些电影需要复杂的元素，例如细微的角色相互作用，现实的身体运动和动态的相机作品。为了应对实现电影级角色动画的长期挑战，我们提出了一个音频驱动的模型，我们将其作为WAN建立的WAN-S2V进行调查 ...

0 0 0 2025/09/04 arXiv:2508.18621v1 jhao90

Robot Synesthesia: In-Hand Manipulation with Visuotactile Sensing

执行富含接触的操作任务需要融合触觉和视觉反馈。但是，这些方式的独特性质提出了重大挑战。在本文中，我们介绍了一个系统，该系统利用视觉和触觉感官输入以实现灵巧的操纵 ...

0 0 0 2025/09/04 arXiv:2312.01853v3 万类霜天

SynAdapt: Learning Adaptive Reasoning in Large Language Models via Synthetic Continuous Chain-of-Thought

虽然经过思考链（COT）推理改善了模型性能，但由于产生离散的COT Token （DCOT），它会造成大量的时间成本。连续COT（CCOT）提供了更有效的替代方案，但是现有的CCOT方法受到间接微调，有限的对齐或不一致的目标的阻碍。为了克服这些限制，我们提出了一个创新的有效推理框架\ textit {synadapt} ...

0 0 0 2025/09/04 arXiv:2508.00574v1 Jodie

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）