一译 —— 文档和论文翻译、对照阅读、讨论和社区

SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

我们介绍了昏迷，这是一种针对端到端文档转换的超紧凑型视觉模型。我们的模型通过生成Doctags来全面地处理整个页面，这是一种新的通用标记格式，可捕获其完整上下文中的所有页面元素，并使用位置。与依赖大型基础模型或依赖多个专业模型的手工管道的集合解决方案的现有方法不同，Smoldocling提供了一种端到端转换，以准确捕获256m参数参数视觉模型中文档元素的内容，结构和空间位置 ...

0 0 0 2025/03/23 arXiv:2503.11576v1 mulanshine1

Towards Accurate Unified Anomaly Segmentation

无监督的异常检测（UAD）从图像努力对正常数据分布进行建模，从而创建歧视性表示，以区分和精确定位异常。尽管最近有效，统一的一对一方案的进步，但挑战仍在准确细分异常以进行进一步监测。此外，在UAD设置不平衡的UAD设置下，广泛使用的AUROC度量掩盖了这个问题 ...

0 0 0 2025/03/23 arXiv:2501.12295v1 lzx

Aligning Multimodal LLM with Human Preference: A Survey

大型语言模型（LLM）可以通过简单的提示处理各种一般任务，而无需特定于任务的培训。基于LLM的多模式大语言模型（MLLM）在解决涉及视觉，听觉和文本数据的复杂任务方面具有令人印象深刻的潜力。但是，与真实性，安全性，类似O1的推理以及与人类偏好的一致性有关的关键问题仍未得到充分解决 ...

0 0 0 2025/03/23 arXiv:2503.14504v1 attention2

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

图像条件的生成方法（例如深度和巧妙的条件方法）表现出显着的精确图像合成能力。但是，现有模型仍然难以准确控制多个实例（或区域）的内容。即使是磁通量和3DIS等最新模型也面临着挑战，例如实例之间的属性泄漏，这限制了用户控制 ...

0 0 0 2025/03/23 arXiv:2503.12885v1 kilhny

Problem-Solving Logic Guided Curriculum In-Context Learning for LLMs Complex Reasoning

内部文化学习（ICL）可以显着增强大语言模型（LLMS）的复杂推理能力，其中关键在于选择和顺序示例示例。以前的方法通常依赖于简单特征来测量示例之间的相关性。我们认为这些特征不足以反映示例之间的固有连接 ...

0 0 0 2025/03/23 arXiv:2502.15401v1 byron_

Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE)

剪辑嵌入在广泛的多模式应用中表现出了出色的性能。但是，这些高维密度的矢量表示不容易解释，从而限制了我们对夹子丰富结构及其在需要透明度的下游应用中的使用。在这项工作中，我们表明，可以利用夹子潜在空间的语义结构来提供解释性，从而使表示形式分解为语义概念 ...

0 0 0 2025/03/23 arXiv:2402.10376v2 YGking

Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models

增强大语言模型的推理能力仍然是人工智能的关键挑战。我们介绍了Rdolt，《逻辑思想提示的递归分解》，这是一个新颖的框架，可显着提高LLM推理性能。 RDolt建立在三个关键创新上：（1）将复杂的推理任务递归地分解为渐进复杂性的子任务； （2）采用高级选择和评分机制来确定最有前途的推理思想； （3）整合一个知识传播模块，该模块通过跟踪强烈和弱小的信息传播来模仿人类的学习 ...

0 0 0 2025/03/23 arXiv:2501.02026v1 jueli

ALFA: A Dataset for UAV Fault and Anomaly Detection

我们提供了一个数据集，该数据集用于固定翼无人机（UAV）的控制表面中，用于故障检测和隔离（FDI）和异常检测（AD）研究。目前，数据集包括47次自动驾驶飞行的处理数据，其中23个突然的完整发动机故障场景和24个其他七种突然控制表面（执行器）故障的方案，在正常情况下，总共有66分钟的飞行和13分钟的福利后飞行时间。此外，它还包括许多小时的原始数据，这些数据具有全自动，自动驾驶辅助和手动飞行，并具有数 ...

0 0 31 2025/03/23 arXiv:1907.06268v2 DrNeur

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）