KingXHJ的文档

LuxDiT: Lighting Estimation with Video Diffusion Transformer

从单个图像或视频中估算场景照明仍然是计算机视觉和图形中的长期挑战。基于学习的方法受到基础真相HDR环境图的稀缺性的限制，这些环境图的捕获价格昂贵，并且多样性限制。尽管最近的生成模型为图像合成提供了强大的先验，但由于依赖间接视觉提示，推断全局（非本地）上下文以及恢复高动力范围输出的需要，照明估计仍然很困难 ...

0 0 0 0 2025/09/08 arXiv:2509.03680v1 KingXHJ

Careful Queries, Credible Results: Teaching RAG Models Advanced Web Search Tools with Reinforcement Learning

检索增强的生成（RAG）通过整合最新的外部知识来增强大型语言模型（LLM），但现实世界中的Web环境带来了独特的挑战。这些局限性表现为两个关键挑战：在网络环境中普遍存在的错误信息，它引入了不可靠或误导性的内容，可以降低检索准确性，而对网络工具的充分利用不足，如果有效地使用，这些工具可以增强查询精确度并有助于缓解这种噪音，最终改善RAG系统中的检索结果。为了解决这些问题，我们提出了WebFilter，这是一个新颖的RAG框架，可以生成源限制的查询并过滤不可靠的内容 ...

0 0 0 0 2025/09/08 arXiv:2508.07956v1 KingXHJ

ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning

对长篇小说和小说的叙事理解是一个富有挑战性的领域，归因于其复杂的情节线，并纠缠不清，经常在人物和实体之间发展。考虑到LLM在扩展上下文和高计算成本上的推理减少，基于检索的方法在实践中仍然是关键作用。但是，由于其无状态的单步检索过程，传统的抹布方法可能会缺乏，这通常会忽略在远程上下文中捕获相互联系的动态性质 ...

0 0 1 2 2025/09/06 arXiv:2508.10419v1 KingXHJ

BANet: Bilateral Aggregation Network for Mobile Stereo Matching

最先进的立体声匹配方法通常使用昂贵的3D卷积来汇总成本量，但是它们的计算需求使移动部署具有挑战性。直接应用2D卷积以进行成本汇总通常会导致无纹理区域中的边缘模糊，细节损失和不匹配。一些复杂的操作，例如可变形的卷积和迭代扭曲，可以部分缓解此问题。但是，它们不友好，限制了他们在移动设备上的部署 ...

0 0 0 0 2025/09/04 arXiv:2503.03259v2 KingXHJ

One More Glance with Sharp Eyes: Rethinking Lightweight Captioning as a Practical Visual Specialist

图像字幕对视频说明系统和勘探机器人等应用是基本的，但是由于多模式大语言模型（MLLMS）的高计算需求，在本地设备上部署此类模型是具有挑战性的。为了解决这个问题，我们首先通过基于125m参数语言模型实现专家，比Llama-7B小56倍，并评估其在单句子和详细的字幕任务上的性能。令人惊讶的是，我们发现我们的模型可以实现与大型多模式通才相媲美的性能，这表明其具有强大视觉专家的潜力 ...

0 0 0 0 2025/09/04 arXiv:2508.21451v1 KingXHJ

BEVANet: Bilateral Efficient Visual Attention Network for Real-Time Semantic Segmentation

实时语义分段提出了设计有效的体系结构的双重挑战，这些架构捕获了大型接受领域的语义理解，同时还可以完善详细的轮廓。 Vision Transformers有效地模拟了远程依赖性，但会产生高计算成本。为了应对这些挑战，我们介绍了较大的内核注意力（LKA）机制 ...

0 0 0 0 2025/09/02 arXiv:2508.07300v1 KingXHJ

From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

人工智能（AI）正在重塑科学发现，从专门的计算工具发展成为自主研究伙伴。我们将代理科学定位为科学范式更广泛的AI中的关键阶段，在该范式中，AI系统从部分援助发展到完整的科学机构。代理AI由大语言模型（LLM），多模式系统和集成研究平台启用，显示了假设产生，实验设计，执行，分析和迭代精炼的能力 - 曾经被认为是独特的人类的行为 ...

0 0 0 0 2025/09/01 arXiv:2508.14111v1 KingXHJ

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

时间上下文对于机器人的操作至关重要，因为这些任务本质上是非马尔科夫人，但主流VLA模型通常会忽略它，并在长期依赖的任务中挣扎。认知科学表明，人类依靠工作记忆来缓冲短暂的表述以立即控制，而海马系统则保留了逐渐的情节细节和过去的长期记忆经验的语义要点。受这些机制的启发，我们提出了MemoryVla，这是一种用于长途机器人操纵的认知记忆框架 ...

0 0 2 3 2025/09/01 arXiv:2508.19236v1 KingXHJ

3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection

单程3D对象检测对于各种应用（例如机器人技术和AR/VR）很有价值。现有方法仅限于封闭设置的设置，其中训练和测试集由相同的场景和/或对象类别组成。但是，实际应用程序通常会引入新的环境和新颖的对象类别，从而对这些方法提出了挑战 ...

0 0 0 0 2025/08/30 arXiv:2507.23567v1 KingXHJ

R-Zero: Self-Evolving Reasoning LLM from Zero Data

自主产生，完善和从自己的经验中学习，自动发展的大型语言模型（LLM）为超级智能提供了可扩展的途径。但是，现有的培训方法仍然很大程度上依赖于庞大的人类策划的任务和标签，通常是通过微调或增强学习的，这构成了基本的瓶颈，以推动AI系统超越人类智能的能力。为了克服此限制，我们引入了R-Zero，这是一个完全自主的框架，从头开始生成自己的培训数据 ...

0 0 0 0 2025/08/11 arXiv:2508.05004v1 KingXHJ