arxiv的文档

arxiv 南京

个性签名 ...

LEDiff: Latent Exposure Diffusion for HDR Generation

虽然消费者显示的动态范围越来越多地支持10个以上，但大多数图像资产（例如Internet照片和生成AI内容）仍然限制为8位低动态范围（LDR），从而限制了它们在高动态范围（HDR）应用程序中的效用。当前，没有生成模型可以以可推广的方式生成高位，高动态范围的内容。现有的LDR到-HDR转换方法通常很难在被夹具的区域中产生逼真的细节和物理上可行的动态范围 ...

0 0 0 0 2025/07/22 arXiv:2412.14456v2 jennylove

Agentic-R1: Distilled Dual-Strategy Reasoning

当前的长链（长期）模型在数学推理方面表现出色，但依赖于缓慢且容易发生错误的自然语言痕迹。刀具的代理通过代码执行解决算术，但通常会在复杂的逻辑任务上步履蹒跚。我们介绍了一个微调框架Dualdistill，该框架将互补的推理策略从多个教师提炼成一个统一的学生模型 ...

0 0 0 0 2025/07/22 arXiv:2507.05707v1 uaene

A Comprehensive Survey for Real-World Industrial Defect Detection: Challenges, Approaches, and Prospects

工业缺陷检测对于维护当代制造系统的产品质量至关重要。随着对精度，自动化和可伸缩性的期望加剧，在满足现实世界需求时，人们越来越想发现常规检查方法。计算机视觉和深度学习方面的显着进步已经大大支持了2D和3D模式的缺陷检测能力 ...

0 0 0 0 2025/07/22 arXiv:2507.13378v1 ggggggsm

EventVAD: Training-Free Event-Aware Video Anomaly Detection

视频异常检测〜（VAD）着重于识别视频中的异常情况。有监督的方法需要大量的内域培训数据，并且经常努力概括看不见的异常。相反，无训练方法利用了大型语言模型（LLM）的内在世界知识来检测异常现象，但在本地化细粒度的视觉过渡和多种事件时面临挑战 ...

0 0 0 0 2025/07/22 arXiv:2504.13092v2 anjianxiang001

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

当前的培训过程奖励模型（PRM）的方法通常涉及使用基于规则的技术将响应分解为多个推理步骤，例如使用预定义的占位符 Token 或将推理步骤的长度设置为固定尺寸。这些方法忽略了以下事实：特定单词通常不会标记文本中的真实决策点。为了解决这个问题，我们提出了Adpaptivestep，该方法是根据模型对预测下一个单词的信心来划分推理步骤的方法 ...

0 0 0 0 2025/07/22 arXiv:2502.13943v2 anjianxiang001

Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics

大型语言模型 (LLM) 是通过学习强大的可泛化算法来解决推理任务，还是记住训练数据？为了研究这个问题，我们使用算术推理作为代表性任务。通过因果分析，我们确定了模型的一个子集（电路），它解释了基本算术逻辑的大部分模型行为，并检查了其功能。通过放大单个电路神经元的水平，我们发现了一组稀疏的重要神经元，它们实现了简单的启发式方法 ...

0 0 0 0 2025/07/22 arXiv:2410.21272v2 15966829631

DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving

解决数学问题需要高级推理能力，并对大型语言模型提出了显着的挑战。以前的工作通常会综合专有模型的数据来扩充现有数据集，然后进行指令调整以实现顶级结果。然而，我们对这些数据集的分析揭示了对简单查询的严重偏见，经常无法为最具挑战性的查询生成任何正确的响应 ...

0 0 0 0 2025/07/22 arXiv:2407.13690v2 15966829631

Multimodal Alignment with Cross-Attentive GRUs for Fine-Grained Video Understanding

细粒度的视频分类需要了解复杂的时空和语义提示，这些时空和语义提示通常超过单个模态的能力。在本文中，我们提出了一个多模式框架，该框架使用基于GRU的序列编码器和跨模式注意机制融合视频，图像和文本表示。该模型是使用分类或回归损失的组合训练的，具体取决于任务，并通过功能级增强和自动编码技术进一步正规化 ...

0 0 0 0 2025/07/22 arXiv:2507.03531v1 anjianxiang001

VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making

最近的研究旨在利用大语言模型（LLM）的一般知识和推理为实现交互式环境中用户指定目标的代理。视觉模型（VLMS）将LLMS扩展到多模式数据，并为代理提供在计算机自动化等领域的新应用所需的视觉推理。但是，代理商任务强调了在LLM等效方面可访问的开放权重VLM的技能 ...

0 0 0 0 2025/07/22 arXiv:2505.03181v1 syhhh

Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages

自动语音识别（ASR）在现代世界中的实用性越来越大。有许多ASR模型可用于具有大量培训数据（例如英语）的语言。但是，低资源语言的代表性很差 ...

0 0 0 0 2025/07/22 arXiv:2206.01205v2 Taoning