arxiv的文档

arxiv 南京

个性签名 ...

ControlMM: Controllable Masked Motion Generation

运动扩散模型的最新进展已实现了可以在空间控制的文本到动作生成的能力。但是，尽管达到了可接受的控制精度，但这些模型仍遭受了生成速度和忠诚度的限制。为了应对这些挑战，我们提出了ControlMM，这是一种新型方法，将空间控制信号纳入生成性掩盖运动模型中 ...

0 0 0 0 2025/07/11 arXiv:2410.10780v2 qinhui_cici

UOR: Universal Backdoor Attacks on Pre-trained Language Models

植入预训练的语言模型（PLM）的后门可以转移到各种下游任务中，这暴露了严重的安全威胁。但是，对PLM的大多数现有后门攻击都是未靶向的，并且特定于任务。很少有针对性和任务不合时宜的方法使用手动预定义的触发器和输出表示，这阻止了攻击更加有效和一般 ...

0 0 0 0 2025/07/11 arXiv:2305.09574v2 wangchongyu12

SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks

现代的NLP模型通常在从不同来源绘制的公共数据集上进行培训，从而使它们容易受到数据中毒攻击的影响。这些攻击可以通过攻击者设计的方式操纵模型的行为。一种这样的策略涉及植入后门，这是通过用文本触发器和目标类标签中毒特定训练实例实现的 ...

0 0 0 0 2025/07/11 arXiv:2405.11575v1 wangchongyu12

StableCodec: Taming One-Step Diffusion for Extreme Image Compression

通过利用大型预训练的文本到图像扩散模型的生成先验，基于扩散的图像压缩具有具有高现实主义的超低比特量编码（每个像素小于0.05位）的显着潜力。但是，当前的方法需要在解码器上进行大量的降级步骤，以在极端比特率约束下产生逼真的结果，从而限制其在实时压缩方案中的应用 ...

0 0 0 0 2025/07/11 arXiv:2506.21977v1 1150501302

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

随着具有大型语言模型（LLM）的文本推理已经显着提高，人们对增强大型视觉模型（LVLM）的多模式推理能力的兴趣越来越大。但是，现有方法主要以直接的，以文本为中心的方式来处理多模式推理，在这种方式中，推理和答案派生纯粹是通过文本进行的，唯一的区别在于存在多模式输入。结果，这些方法经常在空间推理任务中遇到基本局限性，这些任务需要人类通过心理可视化和操纵实现的精确几何理解和连续的空间跟踪障碍 ...

0 0 0 0 2025/07/11 arXiv:2506.09965v2 uu2222

Let the Poem Hit the Rhythm: Using a Byte-Based Transformer for Beat-Aligned Poetry Generation

诗歌与音乐之间的交集为计算创造力提供了一个有趣的案例，但仍然相对尚未探索。本文通过节拍模式的镜头探讨了诗歌和音乐的整合，研究了基于字节的语言模型是否可以生成在诗歌背景下适合特定节拍模式的单词。利用早期的研究，我们开发了一种方法来训练基于字节的 Transformer 模型BYT5，以使诗歌与节拍模式保持一致 ...

0 0 0 0 2025/07/11 arXiv:2406.10174v1 congshijun

Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey

Edge-Cloud协作计算（ECCC）已成为一种关键范式，用于解决现代智能应用程序的计算需求，将云资源与边缘设备集成在一起，以实现高效，低延迟的处理。 AI的最新进展，尤其是深度学习和大型语言模型（LLM），已大大提高了这些分布式系统的功能，但在模型部署和资源管理中引入了重大挑战。在这项调查中，我们全面研究了在边缘环境中分布式智能和模型优化的交集，从而提供了有关基本体系结构，启用技术和新兴应用程序的结构化教程 ...

0 0 0 0 2025/07/11 arXiv:2505.01821v2 1150501302

SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning

尽管在视觉语言模型（VLMS）中用于多模式任务的令人印象深刻的进步，但它们对RGB输入的依赖限制了精确的空间理解。集成空间提示的现有方法，例如点云或深度，要么需要专门的传感器，要么无法有效利用深度信息来进行高阶推理。为此，我们提出了一种新颖的空间意义和推理方法，称为SSR，这是一个新颖的框架，将原始的深度数据转换为结构化的，可解释的文本原理 ...

0 0 0 0 2025/07/11 arXiv:2505.12448v2 uu2222

GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering

视频稳定对于视频处理是关键的，因为它可以消除不必要的摇动，同时保留了原始的用户运动意图。现有的方法，取决于其操作的领域，遭受了几个问题的困扰（例如 ...

0 0 0 0 2025/07/11 arXiv:2506.23957v1 小小卡拉米

Jack Unit: An Area- and Energy-Efficient Multiply-Accumulate (MAC) Unit Supporting Diverse Data Formats

在这项工作中，我们介绍了一个区域和节能多功能（MAC）单元，名为Jack单元，该单元是全部贸易千斤顶，支持各种数据格式，例如Integer（INT），浮点（FP）和显微镜数据格式（MX）。它通过i）用i）在FP乘数中替换farrian-save乘数（CSM），从而提高了硬件效率，并使用精确量表的CSM，ii）基于CSM中的指数差异进行调整，并使用2D子字相似。为了评估有效性，我们实施了杰克单元和三个基线MAC单元的布局 ...

0 0 0 0 2025/07/11 arXiv:2507.04772v1 jane88