arxiv的文档

arxiv 南京

个性签名 ...

On the Viability of using LLMs for SW/HW Co-Design: An Example in Designing CiM DNN Accelerators

深度神经网络 (DNN) 在广泛的任务中表现出了令人印象深刻的性能。然而，由于严格的功耗和计算预算，在边缘设备上部署 DNN 会带来重大挑战。此问题的有效解决方案是软件-硬件 (SW-HW) 协同设计，它允许定制创建 DNN 模型和硬件架构，以最佳地利用可用资源 ...

0 0 0 0 2025/10/25 arXiv:2306.06923v1 Atlantis

Prompt Inversion Attack against Collaborative Inference of Large Language Models

大型语言模型（LLM）因其卓越的内容生成能力而得到广泛应用。然而，开源 LLM 的实际使用受到高资源需求的阻碍，使得部署成本高昂并限制了广泛的发展。协作推理是解决此问题的一个有前途的解决方案，其中用户通过每个托管层的子集并传输中间激活来进行协作 ...

0 0 0 0 2025/10/25 arXiv:2503.09022v3 hhhhh

DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting

这项工作提出了 DLO-Splatting，这是一种通过预测更新过滤从多视图 RGB 图像和夹具状态信息估计可变形线性物体 (DLO) 3D 形状的算法。 DLO-Splatting 算法使用基于位置的动力学模型，具有形状平滑度和刚度阻尼校正来预测对象形状。使用基于 3D 高斯泼溅的渲染损失进行优化，迭代渲染并细化预测，使其与更新步骤中的视觉观察结果保持一致 ...

0 0 0 0 2025/10/25 arXiv:2505.08644v2 rommelcyzyb

Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting

在这项工作中，我们提出了一种使用光学触觉传感器监督 3D 高斯泼溅 (3DGS) 场景的新颖方法。光学触觉传感器已广泛应用于机器人技术中的操纵和对象表示；然而，原始光学触觉传感器数据不适合直接监督 3DGS 场景。我们的表示利用高斯过程隐式曲面来隐式表示对象，将许多触摸组合成具有不确定性的统一表示 ...

0 0 0 0 2025/10/25 arXiv:2403.09875v3 rommelcyzyb

DiffVLA++: Bridging Cognitive Reasoning and End-to-End Driving through Metric-Guided Alignment

传统的端到端（E2E）驾驶模型可以有效地生成物理上合理的轨迹，但由于缺乏理解和推理周围环境的基本世界知识，通常无法推广到长尾场景。相比之下，视觉-语言-动作 (VLA) 模型利用世界知识来处理具有挑战性的案例，但其有限的 3D 推理能力可能会导致物理上不可行的动作。在这项工作中，我们介绍了 DiffVLA++，这是一种增强的自动驾驶框架，它通过度量引导的对齐方式明确地连接认知推理和 E2E 规划 ...

0 0 0 0 2025/10/25 arXiv:2510.17148v2 chenlei

TokenLake: A Unified Segment-level Prefix Cache Pool for Fine-grained Elastic Long-Context LLM Serving

前缀缓存对于加速具有共享前缀的多轮交互和请求至关重要。在集群层面，现有的前缀缓存系统与请求调度紧密耦合，共同优化缓存效率和计算性能，导致跨实例的缓存系统出现负载不平衡、数据冗余和内存碎片等问题。为了解决这些问题，内存池有望使调度程序免受底层缓存管理的影响，以便它可以专注于计算优化 ...

0 0 0 0 2025/10/25 arXiv:2508.17219v1 tea5

Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

开发具体的人工智能代理需要可扩展的训练环境，以平衡内容多样性和物理准确性。世界模拟器提供了这样的环境，但面临明显的限制：基于视频的方法生成不同的内容，但缺乏用于交互式学习的实时物理反馈，而基于物理的引擎提供准确的动态，但面临昂贵的手动资产创建的可扩展性限制。我们推出 Seed3D 1 ...

0 0 0 0 2025/10/25 arXiv:2510.19944v1 GUN

Generating Physically Stable and Buildable Brick Structures from Text

我们介绍 BrickGPT，这是第一种根据文本提示生成物理稳定的互连砖块装配模型的方法。为了实现这一目标，我们构建了一个大规模的、物理稳定的砖块结构数据集及其相关的标题，并训练一个自回归大型语言模型来通过下一个标记预测来预测要添加的下一个砖块。为了提高最终设计的稳定性，我们在自回归推理期间采用了有效的有效性检查和物理感知回滚，这使用物理定律和装配约束来修剪不可行的标记预测 ...

0 0 0 0 2025/10/25 arXiv:2505.05469v2 GUN

LongCodeZip: Compress Long Context for Code Language Models

由于需要大型语言模型 (LLM) 对代码库中的大量信息进行推理，因此长上下文下的代码生成变得越来越重要。虽然最近的进展使代码 LLM 能够处理长输入，但高 API 成本和生成延迟仍然是重大瓶颈。现有的上下文修剪技术（例如 LLMLingua）对于一般文本取得了有希望的结果，但忽略了特定于代码的结构和依赖性，导致编程任务的性能不佳 ...

0 0 1 1 2025/10/25 arXiv:2510.00446v1 bamanzi

Efficient Multimodal Dataset Distillation via Generative Models

数据集蒸馏的目的是从大数据集中合成小数据集，使在其上训练的模型能够在原始数据集上表现良好。随着大语言模型和多模态大语言模型的蓬勃发展，多模态数据集，特别是图像文本数据集的重要性显着增长。然而，现有的多模态数据集蒸馏方法受到匹配训练轨迹算法的限制，这显着增加了计算资源需求，并且需要数天的时间来处理蒸馏 ...

0 0 0 0 2025/10/25 arXiv:2509.15472v2 Ollama