一译 —— 文档和论文翻译、对照阅读、讨论和社区

Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

通过加强学习培训的大型语言模型（LLM）表现出强大的推理能力和新兴的反思行为，例如回溯和误差校正。但是，传统的马尔可夫RL将探索局限于培训阶段，以学习最佳的确定性政策，并仅通过当前状态取决于历史上下文。因此，尚不清楚在马尔可夫RL培训期间是否会出现反思性推理，或者为什么它们在考试时有益 ...

0 0 0 2025/06/04 arXiv:2505.20561v1 xsxsxsxsxs

MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining

基础模型通过增强各种图像解释任务来重塑遥感（RS）的景观。预处理是一个积极的研究主题，涵盖了受监督和自我监督的学习方法，以有效地初始化模型权重。但是，将预处理的模型转移到下游任务可能会遇到任务差异，因为它们以图像分类或对象歧视任务为单位 ...

0 0 0 2025/06/04 arXiv:2403.13430v2 SGN001

SOVA-Bench: Benchmarking the Speech Conversation Ability for LLM-based Voice Assistant

由于大语言模型（LLM）的稳定进步，语音编码算法和Vocoder结构，最近的进步已启用了直接从用户指令中生成语音响应。但是，考虑到从追求语义准确性转变为生动和自发的语音流的转变，基于产生的语音质量是一个被忽视但关键的问题。先前的评估重点是缺乏声学质量的语音理解能力 ...

0 0 0 2025/06/04 arXiv:2506.02457v1 tonyhehahaha

Category-Aware Dynamic Label Assignment with High-Quality Oriented Proposal

航空图像中的物体通常嵌入在复杂的背景中并呈现任意方向。当使用定向边界框（（obb）来表示任意定向对象时，角度的周期性可能会导致边界处标签回归值的不连续性，从而引起损失函数的突然波动。为了解决这个问题，在定向检测框架中引入了基于复平面的，在定向检测框架中引入了基于复平面的 ...

0 0 0 2025/06/04 arXiv:2407.03205v1 18804024672

Spatial Transform Decoupling for Oriented Object Detection

视觉 Transformer （vits）在计算机视觉任务中取得了显着的成功。然而，它们在旋转敏感场景中的潜力尚未得到充分开发，它们在旋转敏感场景中的潜力尚未得到充分开发，我们提出了一种称为空间变换解耦（，std），的新颖方法，为使用vit进行定向对象检测提供了一种简单而有效的解决方案... ...

0 0 0 2025/06/04 arXiv:2308.10561v2 18804024672

MoCaE: Mixture of Calibrated Experts Significantly Improves Object Detection

结合许多现有预测指标的优势，以获得优于其各个组件的专家的混合，这是提高性能的有效方法，而无需开发新的体系结构或从头开始训练模型。但是，令人惊讶的是，我们发现以与深层合奏类似的方式将天真的专家对象探测器组合在一起，通常会导致性能退化。我们确定该问题的主要原因是专家的预测与他们的表现不符，该术语称为错误校准 ...

0 0 0 2025/06/04 arXiv:2309.14976v4 SGN001

A Survey of LLM $\times$ DATA

大语言模型（LLM）和数据管理（数据）的集成正在迅速重新定义两个领域。在这项调查中，我们全面回顾了双向关系。 On the one hand, DATA4LLM, spanning large-scale data processing, storage, and serving, feeds LLMs with high quality, diversity, and timeliness of ...

0 0 0 2025/06/04 arXiv:2505.18458v3 xubinlee

Personalized Interpolation: An Efficient Method to Tame Flexible Optimization Window Estimation

在在线广告领域中，优化转化措施对于向用户提供相关产品并增强业务成果至关重要。由于用户交互之间的延迟，例如印象或点击和实际转换，预测转换事件是具有挑战性的。这些延迟在各种广告商和产品中都有很大差异，需要针对目标转换的明显优化时间窗口 ...

0 0 0 2025/06/04 arXiv:2501.14103v1 tsotfsk

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）