一译 —— 文档和论文翻译、对照阅读、讨论和社区

A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis

尽管数据综合和蒸馏是增强小语言模型的有希望的策略，但当前的方法在很大程度上依赖大型语言模型（LLMS），这些模型（LLMS）遭受了高度计算成本，环境效率低下以及从整体体系结构继承的潜在偏见。相比之下，较小的LLM更容易访问和可持续，但是它们的个人能力通常在产生高质量，多样化和可靠的数据方面缺乏。受人类协作过程的启发（e ...

0 0 0 2025/06/20 arXiv:2504.12322v2 liujiahao

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

使用多层 Transformer 解码器以迭代的对象查询的基于DITR的方法在3D室内对象检测中显示出有希望的性能。但是， Transformer 解码器中的场景点特征保持固定，从而导致后来的解码器层的贡献最少，从而限制了性能的改善。最近，通过系统状态和输入之间的迭代相互作用，状态空间模型（SSM）显示了有效的上下文建模能力具有线性复杂性 ...

0 0 0 2025/06/20 arXiv:2503.14493v2 王辉

Hydrodynamic turbulence in quasi-Keplerian rotating flows

我们报告了一项直接数字模拟研究，该研究对剪切雷诺数的Quasi-Keplerian制度中的Taylor-Couette流量最高为$ \ MATHCAL {O}（10^5）$。数十年来，已研究了准胜地旋转流，作为一种简化的模型系统，以研究未完全了解的吸积盘中湍流的起源。这项研究的流量是轴向周期性的，因此避免了实验末端壁对流动稳定性的影响 ...

0 0 0 2025/06/20 arXiv:1703.01714v2 Cye

Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models

推理模型的测试时间扩展的最新趋势（例如Openai O1，DeepSeek R1）导致人们普遍认为，使用“ wait”或“让我重新思考”等提示来扩展思维痕迹可以提高性能 ...

0 0 0 2025/06/20 arXiv:2506.04210v2 monstar

Video Motion Transfer with Diffusion Transformers

我们提出了DITFLOF，这是一种将参考视频运动转移到新合成的方法的方法，该方法是专门为扩散 Transformer （DIT）设计的。我们首先使用预先训练的DIT处理参考视频，以分析跨框架注意图，并提取称为注意运动流（AMF）的斑块运动信号。我们通过通过AMF损失优化潜在的潜在，以基于优化的无训练方式指导潜在的denoising过程，以生成引用运动运动的运动的视频 ...

0 0 0 2025/06/20 arXiv:2412.07776v2 ziyang

GL-PGENet: A Parameterized Generation Framework for Robust Document Image Enhancement

文档图像增强（DIE）是文档AI系统中的关键组件，其性能基本决定了下游任务的有效性。为了解决局限于单一降低恢复或灰度图像处理的现有方法的局限性，我们使用局部参数生成增强网络（GL-PGENET）呈现全球，这是一种新型体系结构，设计用于多衰减的彩色文档图像，确保在现实世界中的效率和鲁棒性。我们的解决方案结合了三个关键创新：首先，是一个分层增强框架，将全球外观校正与本地改进相结合，从而可以改进粗到精细 ...

0 0 0 2025/06/20 arXiv:2505.22021v1 小丸子

Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals?

随着大型语言模型（LLM）的不断发展，确保他们与人类目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是\ textIt {工具融合}，其中AI系统在优化给定的目标时，开发出意想不到的中间目标，覆盖了最终目标并偏离人类意义的目标。这个问题在强化学习（RL）培训的模型中尤其重要，该模型可以产生创造性但意外的策略以最大程度地提高奖励 ...

0 0 0 2025/06/20 arXiv:2502.12206v1 dropout

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

大型视觉模型（LVLMS）已大大提高，从而相互交织的视觉识别和语言理解，以生成不仅相干而且在上下文上的内容。尽管它们成功了，但LVLM仍然遭受了对象幻觉问题的困扰，在该问题中，模型产生了可行的，但不正确的输出，其中包括图像中不存在的对象。为了减轻此问题，我们引入了视觉对比度解码（VCD），这是一种简单且无训练的方法，它与来自原始和扭曲的视觉输入得出的输出分布对比 ...

0 0 0 2025/06/20 arXiv:2311.16922v1 18811558339

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）