arxiv的文档

arxiv 南京

个性签名 ...

Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving

变形金刚是当今大型语言模型（LLM）背后的推动力，是其性能和多功能性的基础。然而，它们的计算和内存成本随序列长度增长，对长篇小说推断带来了可伸缩性的挑战。 In response, the algorithm community is exploring alternative architectures, such as state space models (SSMs), linear attention, and recurrent neural networks (RNNs), which we refer to as post-transformers. ...

0 0 0 0 2025/07/15 arXiv:2507.10178v1 jane88

PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images

从随意捕获的无相机或人姿势信息的铰接主题图像中重建动画的3D人类是一项实用而又具有挑战性的任务，因为观察到的未对准，阻塞和缺乏结构性先验。虽然基于优化的方法可以产生单眼或多视图视频产生的高保真性，但它们需要准确的姿势估计和缓慢的迭代优化，从而限制了不受约束的场景中的可伸缩性。最近的前馈方法可实现有效的单像重建，但努力有效利用多个输入图像来降低歧义并提高重建精度 ...

0 0 0 0 2025/07/15 arXiv:2506.13766v1 lzyuan625

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

检索演示的生成（RAG）是一种强大的方法，它使大型语言模型（LLMS）能够合并外部知识。但是，由于数据构建的高成本和缺乏合适的评估指标，评估抹布系统在专业场景中的有效性仍然具有挑战性。本文介绍了Rageval，这是一个框架，旨在通过基于模式的管道生成高质量的文档，问题，答案和参考来评估各种情况的破布系统 ...

0 0 0 0 2025/07/15 arXiv:2408.01262v5 arthur

Inferring Networks of Substitutable and Complementary Products

在现代推荐系统中，重要的是要了解产品如何相互关系。例如，当用户正在寻找手机时，推荐其他手机可能是有意义的，但是一旦他们购买了手机，我们可能会想推荐电池，情况或充电器。这两种建议称为替代品和补充：替代品是可以购买的产品，而不是彼此购买的产品，而补充是可以购买的产品 ...

0 0 0 0 2025/07/15 arXiv:1506.08839v1 ryaner

Improving Distant 3D Object Detection Using 2D Box Supervision

改善遥远3D对象的检测是一项重要但具有挑战性的任务。对于基于摄像机的3D感知，3D边界的注释在很大程度上依赖于LIDAR以获得准确的深度信息。因此，由于遥远的物体上的激光点的稀疏性，注释的距离通常受到限制，这阻碍了现有探测器在远程场景中的能力 ...

0 0 0 0 2025/07/15 arXiv:2403.09230v1 wangj34

Beyond expectation: Deep joint mean and quantile regression for spatio-temporal problems

在许多研究领域，时空问题无处不在，至关重要。尽管深度学习方法已经在建模时空数据中已经证明了潜力，但典型的方法倾向于仅关注对要建模的输出变量的条件期望。在本文中，我们提出了一种多输出的多品质深度学习方法，用于共同对几个条件分位数进行建模以及条件期望，作为一种提供更完整的时空问题预测密度的“图片”的方式 ...

0 0 0 0 2025/07/15 arXiv:1808.08798v1 lhp

Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities

作为大语模型（LLMS）服务，对生成AI的需求不断增长，这促使人们需要优化计算效率和能耗的专业硬件体系结构。本文评估了第tenstorrent Grayskull E75 RISC-V加速器的性能，用于降低数值精度，这是LLM计算中的基本操作。我们介绍了Grayskull的执行模型，网格大小，矩阵维度，数据格式和数值精度影响计算效率的详细表征 ...

0 0 0 0 2025/07/15 arXiv:2505.06085v3 hwrabbit

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

体现的场景理解不仅需要理解已经观察到的视觉空间信息，而且还需要确定在3D物理世界中下一个探索的位置。现有的3D视觉语言（3D-VL）模型主要集中在3D重建（例如网格和点云）的静态观察中的接地对象，但缺乏积极感知和探索其环境的能力。要解决此限制，我们介绍\下划线{\ textbf {m}} ove \ usewissline {\ textbf {t textbf {t}} o \ usewissline {\ textbf {u textbf {u}} nderstand（\ textbf {\ textbf {\ textbf {\ textbf {\ textbf），一个统一的框架，该框架与活跃的框架{\视觉学习，使体现的代理能够有效地探索和理解其环境 ...

0 0 0 0 2025/07/15 arXiv:2507.04047v1 WuYP

Improving Multi-modal Large Language Model through Boosting Vision Capabilities

我们专注于提高视觉理解能力，以增强视觉语言模型。我们提出了一种多模式模型\ TextBf {Arcana}，它引入了两种至关重要的技术。首先，我们提出了多模式洛拉（MM-Lora），这是一个旨在增强解码器的模块 ...

0 0 0 0 2025/07/15 arXiv:2410.13733v1 Mai

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

最近的高级视觉模型（VLM）在被动，离线图像和视频理解任务上表现出了很强的表现。但是，它们在体现的设置中的有效性（需要在线互动和积极的场景理解仍然有限）仍然有限。在这种情况下，代理从第一人称角度看待环境，每个动作都会动态塑造随后的观察 ...

0 0 0 0 2025/07/15 arXiv:2507.10548v1 Barca