arxiv的文档

arxiv 南京

个性签名 ...

A Learning-Based Caching Mechanism for Edge Content Delivery

随着5G网络的出现和物联网（IoT）的兴起，内容交付网络（CDN）越来越多地扩展到网络边缘。这种转变引入了独特的挑战，尤其是由于高速缓存存储和边缘的不同请求模式。这些边缘环境可以托管以各种对象大小分布和对象访问模式为特征的流量类别 ...

0 0 0 0 2025/06/29 arXiv:2402.02795v2 xutianchun

Complex Wavelet Mutual Information Loss: A Multi-Scale Loss Function for Semantic Segmentation

深度神经网络的最新进展显着提高了语义分割的性能。但是，阶级不平衡和实例失衡仍然是持续的挑战，在较小的实例和较薄的边界通常被较大的结构所掩盖。为了解决分段对象的多尺寸性质，各种模型都包含了诸如空间注意力和特征金字塔网络之类的机制 ...

0 0 0 0 2025/06/29 arXiv:2502.00563v2 Roa

Towards Unified 3D Object Detection via Algorithm and Data Unification

实现统一的单目 3D 物体检测（包括室内和室外场景）在机器人导航等应用中非常重要。然而，涉及各种数据场景来训练模型会带来挑战，因为它们具有显着不同的特征，例如 ...

0 0 0 0 2025/06/28 arXiv:2402.18573v5 xiaozhi

LLMs Learn Task Heuristics from Demonstrations: A Heuristic-Driven Prompting Strategy for Document-Level Event Argument Extraction

在这项研究中，我们在文档级事件参数提取（EAE）中调查了文档级别的内在学习（ICL），以减轻对此任务标记的大规模标记数据的依赖性。我们介绍了以启发式驱动的链接链接（HD-LOA）提示，以应对示例选择的挑战并制定为EAE量身定制的提示策略。具体而言，我们假设并验证LLMS通过ICL从演示中学习特定于任务的启发式方法 ...

0 0 0 0 2025/06/28 arXiv:2311.06555v3 wangluyi

LKD-KGC: Domain-Specific KG Construction via LLM-driven Knowledge Dependency Parsing

知识图（kgs）将现实世界实体及其关系构成三元组，从而增强了机器推理各种任务。尽管特定于领域的公斤提供了可观的好处，但它们的手动构建通常效率低下，需要专业知识。知识图构建的最新方法（KGC）基于大型语言模型（LLM），例如架构引导的KGC和参考知识集成，已被证明有效 ...

0 0 0 0 2025/06/28 arXiv:2505.24163v1 hdbxgs

TacSL: A Library for Visuotactile Sensor Simulation and Learning

对于人类和机器人来说，触摸感被称为触觉感应，对于执行接触丰富的操纵任务至关重要。机器人触觉传感的三个主要挑战是1）解释传感器信号，2）在新型方案中生成传感器信号，以及3）基于学习传感器的策略。对于Visuotactile传感器，解释与视觉传感器的密切关系促进了解释（e ...

0 0 0 0 2025/06/28 arXiv:2408.06506v2 Hatteras

Physics-Constrained Flow Matching: Sampling Generative Models with Hard Constraints

最近，深层生成模型已应用于由部分微分方程（PDE）控制的物理系统，提供可扩展的模拟和不确定性感知的推理。但是，强制执行身体限制，例如保护法（线性和非线性）和身体一致性，仍然具有挑战性。现有方法通常依赖于无法保证严格限制的软惩罚或建筑偏见 ...

0 0 0 0 2025/06/28 arXiv:2506.04171v1 chaihoa

Leveraging LLM-Assisted Query Understanding for Live Retrieval-Augmented Generation

当处理通常嘈杂，模棱两可且包含多种意图的用户查询时，现实世界中的实时检索生成（RAG）系统在处理用户查询时面临重大挑战。尽管抹布可以增强具有外部知识的大型语言模型（LLM），但当前系统通常会在这种复杂的输入方面挣扎，因为它们经常在清洁数据上接受培训或评估。本文介绍了Omni-Rag，这是一个新颖的框架，旨在提高现场开放域设置中抹布系统的鲁棒性和有效性 ...

0 2 1 1 2025/06/28 arXiv:2506.21384v1 hechenglo03

Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video

强大的工具和公开可用的预培训模型有助于推动语言模型的机械解释性的最新进展。然而，由于缺乏可访问的框架和预训练的权重，视力机械性能的类似进展受到了阻碍。我们提出Prisma（在此处访问代码库：此HTTPS URL），这是一个开源框架，旨在加速视觉机械性研究，提供了一个统一的工具包，用于访问75+以上的视觉和视频 Transformer ；支持稀疏自动编码器（SAE），Transcoder和CrossCoder培训；一套80多个预训练的SAE重量；激活缓存，电路分析工具和可视化工具；和教育资源 ...

0 0 0 0 2025/06/28 arXiv:2504.19475v3 Goodhao

Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

大型视觉语言模型（VLM）长期以来一直在空间推理任务上挣扎。令人惊讶的是，即使是简单的空间推理任务，例如识别仅两个对象之间的“下”或“背后”的关系，对当前VLM构成了重大挑战。在这项工作中，我们研究了机械性解释性镜头的空间推理挑战，并深入研究了模型的内部状态，以检查图像和文本 Token 之间的相互作用 ...

0 0 0 0 2025/06/28 arXiv:2503.01773v2 Goodhao