一译 —— 文档和论文翻译、对照阅读、讨论和社区

LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention

在这项工作中，我们提出了一个LLM模块的体系结构，该架构可以使用增强的跨注意机制将知识从大型预训练模型转移到较小的模型。在拟议的方案中，QWEN2-1.5B模型被冷冻，其表示形式通过特殊设计的注意层传递给GPT-NEO-125M模型，该模型对有限的计算资源进行了培训 ...

0 0 0 2025/07/12 arXiv:2502.08213v1 kkkk

Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models

大型语言模型（LLMS）提供了一个透明的大脑，其中包含可访问的参数编码广泛的知识，可以分析，定位和转移。因此，一个关键的研究挑战是超越植根于象征性语言并实现真正的参数知识转移（PKT）的传统知识转移范式。值得注意的是，探索通过参数转移不同尺度的LLM的知识的有效方法提出了一个有趣而有价值的研究方向 ...

0 0 0 2025/07/12 arXiv:2505.14436v1 kkkk

ControlMM: Controllable Masked Motion Generation

运动扩散模型的最新进展已实现了可以在空间控制的文本到动作生成的能力。但是，尽管达到了可接受的控制精度，但这些模型仍遭受了生成速度和忠诚度的限制。为了应对这些挑战，我们提出了ControlMM，这是一种新型方法，将空间控制信号纳入生成性掩盖运动模型中 ...

0 0 0 2025/07/11 arXiv:2410.10780v2 qinhui_cici

UOR: Universal Backdoor Attacks on Pre-trained Language Models

植入预训练的语言模型（PLM）的后门可以转移到各种下游任务中，这暴露了严重的安全威胁。但是，对PLM的大多数现有后门攻击都是未靶向的，并且特定于任务。很少有针对性和任务不合时宜的方法使用手动预定义的触发器和输出表示，这阻止了攻击更加有效和一般 ...

0 0 0 2025/07/11 arXiv:2305.09574v2 wangchongyu12

SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks

现代的NLP模型通常在从不同来源绘制的公共数据集上进行培训，从而使它们容易受到数据中毒攻击的影响。这些攻击可以通过攻击者设计的方式操纵模型的行为。一种这样的策略涉及植入后门，这是通过用文本触发器和目标类标签中毒特定训练实例实现的 ...

0 0 0 2025/07/11 arXiv:2405.11575v1 wangchongyu12

StableCodec: Taming One-Step Diffusion for Extreme Image Compression

通过利用大型预训练的文本到图像扩散模型的生成先验，基于扩散的图像压缩具有具有高现实主义的超低比特量编码（每个像素小于0.05位）的显着潜力。但是，当前的方法需要在解码器上进行大量的降级步骤，以在极端比特率约束下产生逼真的结果，从而限制其在实时压缩方案中的应用 ...

0 0 0 2025/07/11 arXiv:2506.21977v1 1150501302

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

随着具有大型语言模型（LLM）的文本推理已经显着提高，人们对增强大型视觉模型（LVLM）的多模式推理能力的兴趣越来越大。但是，现有方法主要以直接的，以文本为中心的方式来处理多模式推理，在这种方式中，推理和答案派生纯粹是通过文本进行的，唯一的区别在于存在多模式输入。结果，这些方法经常在空间推理任务中遇到基本局限性，这些任务需要人类通过心理可视化和操纵实现的精确几何理解和连续的空间跟踪障碍 ...

0 0 0 2025/07/11 arXiv:2506.09965v2 uu2222

Let the Poem Hit the Rhythm: Using a Byte-Based Transformer for Beat-Aligned Poetry Generation

诗歌与音乐之间的交集为计算创造力提供了一个有趣的案例，但仍然相对尚未探索。本文通过节拍模式的镜头探讨了诗歌和音乐的整合，研究了基于字节的语言模型是否可以生成在诗歌背景下适合特定节拍模式的单词。利用早期的研究，我们开发了一种方法来训练基于字节的 Transformer 模型BYT5，以使诗歌与节拍模式保持一致 ...

0 0 0 2025/07/11 arXiv:2406.10174v1 congshijun

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）