随着6G网络的出现和视觉应用的增殖,在不良通道条件下有效的图像传输至关重要。我们提出了一个文本引导的 Token 通信系统,利用了具有低带宽的无线图像传输的预训练的基础模型。我们的方法将图像转换为离散 Token ,应用5G NR极地编码,并采用文本引导的 Token 预测进行重建 ...
大语言模型(LLM)的功能在某种程度上仅限于培训,因此一些研究人员通过培训来优化LLMS。现有的训练后策略,例如基于内存的检索或偏好优化,可以改善用户对齐,但无法增强模型的域认知。为了弥合这一差距,我们提出了一个新型的双相自我进化(DPSE)框架,该框架共同优化了用户偏好适应和特定于域的能力 ...
开源多模式大型语言模型(MLLM)在涉及文本和视觉输入的各种任务中都表现出色,但仍在复杂的多模式数学推理中挣扎,落后于GPT-4V(ISION)和GEMINI-PRO等专有模型。虽然通过中间步骤进行微调(即 ...
大型多模型(LMM)受益于训练有素训练的视觉编码器,在各种视觉感知任务中都取得了出色的性能。但是,对比度学习对总结描述的固有局限性从根本上限制了模型在细致的推理中的能力,尤其是在几何问题解决的关键情况下。为了增强几何理解,我们为视觉编码器提出了一个新型的硬性负面对比学习框架,该框架结合了基于图像的对比度学习,该学习使用基于生成的硬核剂来通过扰动图生成代码创建的基于世代的硬质量,以及基于基于规则的基 ...
视频时间基础(VTG)旨在精确识别响应文本查询的视频事件段。 VTG任务的输出表现为事件序列,每个序列由精确的时间戳,显着性得分和文本描述定义。尽管有最近的进步,但现有的视频大语模型(视频llms)仍存在基本限制:他们通过相同和静态的途径处理所有任务 Token ,未能认识到时间定位,显着性评估和文本生成代表了基本上不同的任务,这些任务从根本上代表了需要专业处理的 ...
通过探索和互动来优化和完善动作执行是机器人操纵的一种有希望的方法。然而,互动驱动的机器人学习的实用方法仍未得到充实,尤其是对于长途任务,顺序决策,身体约束和感知不确定性带来了重大挑战。在体现认知理论的动机中,我们提出了Roboseek,这是一个体现动作执行的框架,利用交互式经验来完成操纵任务 ...
最新的检索大型语言模型(LLM)在生物医学应用中表现出了巨大的希望。然而,关键的差距仍然存在于可靠地评估其策划能力的过程中,模型在过滤噪声时选择和集成相关参考的过程。为了解决这个问题,我们介绍了生物医学(Crab)中检索型LLM的基准,这是第一个量身定制的多语言基准测试,该基准量化,用于评估以英语,法语,法国,德国和中文的方式评估检索效果的LLM的生物医学策划,可提供 ...
基于注意力的体系结构在多元时间序列预测中取得了卓越的性能,但计算上却很昂贵。已经开发了诸如修补和自适应掩蔽之类的技术,以减少其大小和潜伏期。在这项工作中,我们提出了一种结构化的修剪方法,spat($ \ textbf {s} $ nesitivity $ \ textbf {p} $ pruner for $ \ textbf {at} $ tention)选择性地消除了冗余的注意机制,并产生了高 ...