arxiv的文档

arxiv 南京

个性签名 ...

Position: Episodic Memory is the Missing Piece for Long-Term LLM Agents

随着大型语言模型（LLM）从文本完成工具演变为在动态环境中运行的完全刚起步的代理，他们必须应对不断学习和保留长期知识的挑战。许多生物系统通过情节记忆来解决这些挑战，该记忆支持特定于实例的上下文的单次学习。受此启发，我们为LLM代理提供了一个情节记忆框架，以五个偶发记忆的关键属性为中心，这些记忆是基于自适应和上下文敏感行为的基础 ...

0 0 1 1 2025/06/30 arXiv:2502.06975v1 18601752667

HumanoidPano: Hybrid Spherical Panoramic-LiDAR Cross-Modal Perception for Humanoid Robots

人形机器人的感知系统设计由于固有的结构约束而引起了独特的挑战，这些结构约束会导致严重的自我概括和有限的视野（FOV）。我们提出了HumanoidPano，这是一种新型的杂交跨模式感知框架，协同整合了全景视觉和LIDAR感应以克服这些局限性。与依靠单眼相机或标准多传感器配置的常规机器人感知系统不同，我们的方法通过球形视觉 Transformer 建立了几何感知的模态对齐，从而使360个视觉上下文的无缝融合与激光雷达的精确深度测量 ...

0 0 0 0 2025/06/30 arXiv:2503.09010v2 jane88

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

培训前最先进的大语言模型（LLMS）需要大量的干净和多样化的文本数据。虽然大型英语预训练数据集的开放开发已经取得了很大的进步，但培训表现的多语言LLMS仍然是一个挑战，在很大程度上是由于对大量语言的固定过滤和重复解说管道的固有困难。在这项工作中，我们引入了基于FineWeb的新的预训练数据集策展管道，可以自动调整以支持任何语言 ...

0 0 0 0 2025/06/30 arXiv:2506.20920v1 lianzhepku

Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns

视觉问题回答（VQA）模型通过允许车辆与文本查询一起分析视觉输入，促进车辆及其乘员或其他道路用户之间的自然互动和信任，从而在增强自动驾驶系统的感知能力方面起着关键作用。这项研究在回答与驾驶有关的问题时研究了与VQA模型相比人类的注意力模式，从而揭示了观察到的对象的差异。我们提出了一种整合过滤器的方法，以优化模型的注意机制，优先考虑相关对象并提高准确性 ...

0 0 0 0 2025/06/30 arXiv:2406.09203v1 15021163060

Map2Traj: Street Map Piloted Zero-shot Trajectory Generation with Diffusion Model

用户移动性建模在当代无线网络的分析和优化中起着至关重要的作用。典型的随机迁移率模型，例如 ...

0 0 0 0 2025/06/30 arXiv:2407.19765v1 hairushi

Jailbreaking Large Language Models in Infinitely Many Ways

我们讨论了``无限的释义''（IMP）的``无限的释义''，这是一种越狱类，它利用模型的越来越多的能力来处理释义和编码通信以绕过其防御机制。 Imps的生存能力对并具有模型的能力，可以处理和绑定 Token 之间简单映射的语义，并且在实践中工作非常好，对商业最强大的LLM的用户构成了具体的威胁。我们展示了如何绕过最强大的开放式和封闭源LLM的保障措施，并生成明确违反其安全政策的内容 ...

0 0 0 0 2025/06/30 arXiv:2501.10800v2 wutianrui

Diverse Branch Block: Building a Convolution as an Inception-like Unit

我们提出了一个通用的卷积神经网络（Convnet）的通用组件，以提高性能，而无需任何推理时间成本。该块被命名为多元化的分支区块（DBB），通过结合不同尺度和复杂性的各种分支来丰富特征空间，包括卷积序列，多尺度卷积和平均合并，可以增强单个卷积的代表性。训练后，可以将DBB等效地转换为单个Conv层进行部署 ...

0 0 0 0 2025/06/30 arXiv:2103.13425v2 xiaoxia

The Lovász-Softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks

JACCARD指数（也称为相交 - 工会评分）通常用于对图像分割结果的评估，鉴于其感知质量，比例不变性 - 与小对象相比，与小对象相比，它与每像素损失相比具有适当的相关性，并适当地相关。我们提出了一种基于语义图像分割的背景下，基于凸出的lovászS扩展，我们提出了一种直接优化神经网络中平均相交的损失的方法。与传统使用的跨凝性损失相比，损失相对于Jaccard指数度量的表现更好 ...

0 0 0 0 2025/06/30 arXiv:1705.08790v2 orangelcx

Uncertainty Quantification and Causal Considerations for Off-Policy Decision Making

非政策评估（OPE）是强大决策的关键挑战，该挑战旨在使用不同政策下收集的数据评估新政策的绩效。但是，现有的OPE方法遭受了统计不确定性以及因果考虑的几个局限性。在本文中，我们通过提出三个不同的作品来解决这些局限性 ...

0 0 0 0 2025/06/30 arXiv:2502.06011v1 naristlia

ITFormer: Bridging Time Series and Natural Language for Multi-Modal QA with Large-Scale Multitask Dataset

时间序列数据在不同的应用程序中至关重要，例如工业监测，医学诊断和气候研究。但是，有效地将这些高维时间信号与自然语言集成到动态，交互式任务仍然是一个重大挑战。为了解决这个问题，我们介绍了时间序列问题回答（时间序列QA）任务，并发布Enginemt-QA，这是第一个大规模，多任务，暂时的QA数据集，旨在捕获时间序列信号和自然语言之间的复杂交互 ...

0 0 0 0 2025/06/30 arXiv:2506.20093v1 tutuyut