在本文中,我们介绍了Llava-$ \ phi $(llava-phi),这是一位有效的多模式助手,利用最近高级小型语言模型PHI-2的力量,以促进多模式对话。 llava-phi标志着紧凑的多模式模型领域的显着进步。它表明,即使是较小的语言模型,只有2个模型 ...
大量工作表明,机器学习(ML)模型可以泄漏有关其培训数据的敏感或机密信息。最近,由于分布推断(或属性推断)攻击引起的泄漏正在引起人们的注意。在此攻击中,对手的目标是推断有关培训数据的分配信息 ...
我们提出了Kimi-vl,这是一种有效的开放源代码混合物(MOE)视觉模型(VLM),它提供了高级的多模式推理,长期理解和强大的代理能力 - 同时仅激活其语言解码器的2.8B参数(Kimi-i-vl-vl-a3b)。 KIMI-VL在具有挑战性的领域表现出强大的性能:作为通用VLM,Kimi-VL在多转变代理任务中脱颖而出(e ...
机器学习的成功(ML)伴随着对其可信度的越来越关注。几个司法管辖区正在准备ML监管框架。这样的问题是确保模型培训数据具有某些敏感属性的理想分布特性 ...
大型语言模型(LLM)在功能级代码翻译中表现良好,而没有存储库级的上下文。但是,由于复杂的依赖关系和上下文,在存储库级上下文代码翻译中LLM的性能仍然不佳,从而阻碍了其在工业环境中的采用。在这项工作中,我们提出了一种基于LLM的新型代码翻译技术K-Trans,该技术利用三重知识增强来增强LLM在现实世界软件开发中的存储库背景下的翻译质量 ...
对于现代开源开发人员来说,软件受欢迎程度是一个有价值的信息,他们不断地想知道他们的系统是否吸引了新用户,新版本是否正在接受,或者是否满足用户的期望。在本文中,我们描述了一项关于GitHub托管的软件系统的普及的研究,Github是世界上最大的开源软件集合。 Github为用户提供了一种明确的方法,可以使他们对托管存储库的满意度:星际录取器按钮 ...
这项研究的重点是野外隐藏物体的发现和定位,并为无人系统提供服务。通过经验分析,红外和可见的图像融合(IVIF)使难以找到的对象明显,而多模式显着对象检测(SOD)可以准确地描述图片中对象的精确空间位置。它们从不同源图像中寻求互补线索的共同特征激发了我们探索融合与显着对象检测任务之间的协作关系,并首次通过交互加强的多任务范式在红外和可见图像上首次称为IRF ...
随着对现实世界视频挑战的解决方案的需求不断增长,对密集的视频字幕(DVC)的兴趣一直在上升。 DVC涉及未修剪视频的自动字幕和本地化。几项研究突出了DVC的挑战,并利用先验知识(例如训练和外部记忆)引入了改进的方法 ...