arxiv的文档

arxiv 南京

个性签名 ...

Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models

由于当前大语模型（LLM）的培训数据以英语语料为中心，因此它们以英语为中心，在英语推理任务上表现出色 ...

0 0 0 0 2025/07/29 arXiv:2411.01141v1 Alice_cx

MDTeamGPT: A Self-Evolving LLM-based Multi-Agent Framework for Multi-Disciplinary Team Medical Consultation

大型语言模型（LLM）在各个领域都取得了重大进展。但是，在多学科团队（MDT）医疗咨询中仍然存在挑战。当前的研究通过角色分配，任务分解和医疗经验的积累来增强推理 ...

0 0 0 0 2025/07/29 arXiv:2503.13856v1 mia_lu9510

R4ec: A Reasoning, Reflection, and Refinement Framework for Recommendation Systems

利用大型语言模型（LLM）作为推荐系统已成为一条著名的途径，引起了巨大的研究兴趣。但是，现有方法主要涉及知识获取的基本及时技术，类似于System-1思维。这使得这些方法对推理路径中的错误高度敏感，即使是一个小错误也会导致推断不正确 ...

0 0 0 0 2025/07/29 arXiv:2507.17249v1 bukama

YOPO-Rally: A Sim-to-Real Single-Stage Planner for Off-Road Terrain

由于苛刻的地形和聚集的障碍，越野导航对于自动机器人仍然具有挑战性。 In this letter, we extend the YOPO (You Only Plan Once) end-to-end navigation framework to off-road environments, explicitly focusing on forest terrains, consisting of a high-performance, multi-sensor supported off-road simulator YOPO-Sim, a zero-shot transfer sim-to-real planner YOPO-Rally, and an MPC controller.模拟器建立在Unity引擎的基础上，可以生成随机的森林环境，并为专家演示提供了深度图像和点云图，从而通过主流模拟器提供竞争性能 ...

0 1 0 0 2025/07/29 arXiv:2505.18714v1 longyi

YOPOv2-Tracker: An End-to-End Agile Tracking and Navigation Framework from Perception to Action

传统的目标跟踪管道在内，包括检测，映射，导航和控制是全面的，但引入了高潜伏期，从而限制了四肢的敏捷性。相反，我们遵循“少更多”的设计原则，努力简化过程，同时保持有效性。在这项工作中，我们为四型端子的端到端敏捷跟踪和导航框架直接映射了感官观察以控制命令 ...

0 1 0 0 2025/07/29 arXiv:2505.06923v1 longyi

Self-Improvement for Audio Large Language Model using Unlabeled Speech

最近的Audio LLM迅速出现，表明了各种语音任务的强烈概括。但是，鉴于语音信号的固有复杂性，这些模型不可避免地会遭受特定目标域中的性能降解。为了解决这个问题，我们专注于增强目标域中的音频LLM，而无需任何标记的数据 ...

0 0 0 0 2025/07/29 arXiv:2507.20169v1 zhangqi33

SLoW: Select Low-frequency Words! Automatic Dictionary Selection for Translation on Large Language Models

全球有7,000多种语言，当前的大型语言模型（LLMS）仅支持数百种语言。基于字典的提示方法可以增强其上的翻译，但是大多数方法都使用所有可用的词典，这可能很昂贵。取而代之的是，在 Token 消费和翻译性能之间取消权衡取舍将是灵活的 ...

0 0 0 0 2025/07/29 arXiv:2507.18902v1 Alice_cx

Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice

同时解释（SI）代表了翻译行业中最艰巨的前沿之一，产品级自动系统长期困扰着棘手的挑战：次要转录和翻译质量，缺乏实时语音产生，多演讲者混乱，尤其是在长期的论述中翻译的语音膨胀。在这项研究中，我们介绍了Seed-LiveInterpret 2.0，这是一种端到端的SI模型，可提供具有语音克隆功能的高保真，超低延迟语音到语音的发电 ...

0 0 0 0 2025/07/29 arXiv:2507.17527v3 feixiang_peng

Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation

场景图生成是一项重要的视觉理解任务，具有广泛的视觉应用。尽管最近取得了巨大进展，但由于内在的长尾班分布和较大的阶级变化，它仍然具有挑战性。为了解决这些问题，我们介绍了一种新颖的置信度二分图神经网络，其自适应信息传播机制可用于无偏见的场景图 ...

0 0 0 0 2025/07/29 arXiv:2104.00308v2 hjx9004

Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models

负面指导 - 明确抑制不需要的属性 - 在扩散模型中，尤其是在少数步骤采样方案中仍然是一个基本挑战。尽管无分类器指导（CFG）在标准设置中效果很好，但由于正面和负分支之间的不同预测，它在积极的采样步骤压缩下失败。我们提出了归一化注意引导（NAG），这是一种有效的，无训练的机制，可在注意空间中使用基于L1的归一化和改进 ...

0 0 0 0 2025/07/29 arXiv:2505.21179v3 wtyang