提取性摘要可以产生忠实的摘要,但通常需要其他约束,例如所需的摘要长度。传统的句子压缩模型通常不会考虑限制模型能力,这需要模型修改以应对它们。为了弥合这一差距,我们提出了基于指令的压缩(ConsendCMP),这是一种句子压缩任务的方法,可以通过说明大型语言模型(LLMS)的零摄像任务解决能力来考虑长度约束 ...

0 0 0 0 2025/07/27 arXiv:2406.11097v2 gengxufan

大型语言模型(LLM)在广泛的NLP任务上表现出色,引起了极大的关注。实际上,用户通常期望生成的文本属于特定的长度范围内,使长度受控的一代成为重要的主题,尤其是对于GPT风格的模型。现有的长度控制方法主要集中在“等于”目标长度的简单控制类型上 ...

0 0 0 0 2025/07/27 arXiv:2406.10278v1 gengxufan

强化学习列式(RFT)通过实现长长的思想链,自我纠正和有效的工具使用来显着提高大语言模型(LLM)的推理能力。尽管最近的作品试图将RFT扩展到视觉模型(VLM),但这些努力在很大程度上产生了以静态图像输入为条件的纯文本推理,在响应中没有真正的多模式推理。相反,诸如Visual Sketchpad之类的测试时间方法包含了视觉步骤,但缺乏训练机制 ...

0 0 0 0 2025/07/27 arXiv:2505.19255v3 Curry123

通过嵌入在个人设备中的惯性测量单元(IMU)来传感人类运动,从而实现了健康和保健方面的重要应用。标记的IMU数据稀缺,但是,未标记或弱标记的IMU数据可用于建模人类运动。对于视频或文本模式,“预处理和适应”方法利用大量未标记或弱标记的数据来构建一个强功能提取器,然后使用有限的标记数据适应特定任务 ...

0 0 0 0 2025/07/27 arXiv:2411.15127v2 周传杰

为了计划安全有效的途径,自动驾驶汽车应预期其他代理商的未来动议。运动预测是一项极具挑战性的任务,最近在研究社区中引起了重大关注。在这项工作中,我们为纯粹基于卷积神经网络的多模式运动预测提供了一个简单但非常强大的基线 ...

0 0 0 0 2025/07/27 arXiv:2206.02163v1 wang12

与多种社会相互作用的代理人进行的人类轨迹预测对于人类环境中的自主航行至关重要,例如自动驾驶汽车和社会机器人 ...

0 0 0 0 2025/07/27 arXiv:2004.02025v3 wang12

扩散模型在视频生成中表现出了出色的视觉质量,使它们有望在自动驾驶世界建模中。但是,现有的基于视频扩散的世界模型在灵活的长度,长马预测和整合轨迹计划方面进行了努力。这是因为传统的视频扩散模型依赖于固定长度序列序列的全局关节分布建模,而不是在每个时间步中顺序构建局部分布 ...

0 0 0 0 2025/07/26 arXiv:2506.24113v1 Mr.Bean

通过最小化适当的损失函数(例如Infonce损失),对比度学习(CL)通过将正面样本彼此接近,同时将负样本推向嵌入空间中远距离,从而学习了有用的表示函数。阳性样品通常是使用“标签保护”增强物创建的,即 ...

0 0 0 0 2025/07/26 arXiv:2209.00078v2 1178945530

很少有射击图像分类因克服有限分类性能的挑战而受到新颖班级的有限样本的挑战,因此受到了极大的关注。大多数现有作品采用复杂的学习策略和功能学习模块来减轻这一挑战。在本文中,我们提出了一种名为PrototypeFormer的新颖方法,在几种镜头场景中探索了类别原型之间的关系 ...

0 0 0 0 2025/07/26 arXiv:2310.03517v2 mmmmp

Transformer 在高光谱图像(HSI)分类领域取得了令人满意的结果。但是,现有的 Transformer 模型在处理以各种土地覆盖类型和丰富的光谱信息为特征的HSI场景时面临两个关键挑战:(1)固定的接收场忽略了各种HSI对象所需的有效上下文量表; (2)上下文融合中无效的自我注意力特征会影响模型性能。为了解决这些局限性,我们提出了一种新型的双重选择融合 Transformer 网络(DSFORMER),以用于HSI分类 ...

0 0 0 0 2025/07/26 arXiv:2410.03171v3 zyy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)