时间序列分析在众多应用中发挥着关键作用,支持预测、分类、异常检测和插补等任务。在这项工作中,我们提出了时间序列模式机(TSPM),该模型旨在通过强大的表示和模式提取功能在广泛的时间序列任务中表现出色。传统的时间序列模型通常难以捕捉通用模式,从而限制了它们在不同任务中的有效性 ...
尽管通过外部检索扩展了大型语言模型(LLM)功能的检索型生成(RAG)系统的显着进步,但这些系统通常很难满足现实世界工业应用的复杂和多样化的需求。仅靠检索的依赖证明不足以从专业语料库中提取逻辑推理中的深层,特定于领域的知识。为了解决这个问题,我们介绍了专门的知识和理由增强生成(派克布),重点是提取,理解和应用专业知识,同时构建相干的理由以逐步将LLMS逐步转向准确的响应 ...
近年来,从小学级别到前沿问题的迅速升级,即LLM基准难度的问题,这为研究人员编织了一个奇迹,即我们距离超过人类智能只有几英寸的距离。但是,LLMS的非凡推理能力确实来自人类标准的真正智能,还是仅仅在互联网培训期间见证了解决方案?为了研究这个问题,我们提出了ROR Bench,这是一种新型的多模式基准测试,用于检测LLM的朗诵行为时,当被问及简单的推理问题,但条件巧妙地转移,并对我们的基准进行了经验分析。令人惊讶的是,我们发现现有的尖端LLM一致表现出极为严重的朗诵行为。通过在这种情况下更改一个短语,OpenAI-O1和DeepSeek-R1等顶级模型可能会遭受$ 60 \%$ $的性能损失,而小学级别的算术和推理问题 ...
我们介绍了MEDXPERTQA,这是一种高度挑战性和全面的基准,用于评估专家级的医学知识和高级推理。 MEDXPERTQA包括4,460个问题,涵盖17个专业和11个身体系统。它包括两个子集,文本评估的文本和用于多模式评估的MM ...
该段的任何模型(SAM)的成功证明了以数据为中心的机器学习的重要性。但是,由于与遥感(RS)图像相关的困难和高成本,因此大量有价值的RS数据仍然没有标记,尤其是在像素级别上。在这项研究中,我们利用SAM和现有的RS对象检测数据集开发有效的管道,以生成称为SAMRS的大规模RS分割数据集 ...
几乎没有学习的学习代表和获取知识,因此可以在监督和数据受到限制的情况下解决新任务。通过转导推断,可以同时使用整个测试集,以及半监督的学习,可以通过转移性推理进行改进的性能。为了关注这两种设置,我们引入了一种新的算法,该算法利用标签和未标记的数据分布的多种结构来预测伪标签,同时平衡类并使用有限能力分类器的损失价值分布来选择最清洁的标签,从而改善了Pseudo-Labels质量的质量 ...
图形采样集选择,其中选择节点的子集收集样品以重建平滑的图形信号,是图形信号处理(GSP)的基本问题。以前的作品采用无偏见的最小二乘(LS)信号重建方案,并通过昂贵的极端特征向量计算选择样品。取而代之的是,我们假设基于偏见的图拉拉氏固定化(GLR)方案,该方案求解了线性方程系统的重建系统 ...
渗透测试是软件安全测试的重要组成部分,使组织能够识别和补救系统中的漏洞,从而加强对网络攻击的防御机制。渗透测试领域的最新进步是语言模型(LLMS)的利用。我们探索LLM和渗透测试的交集,以深入了解其在特权升级的背景下的能力和挑战 ...
普遍存在的缺失值导致多元时间序列数据被部分观测,破坏了时间序列的完整性,阻碍了有效的时间序列数据分析。最近,深度学习插补方法在提高损坏的时间序列数据的质量方面取得了显着的成功,从而提高了下游任务的性能。在本文中,我们对最近提出的深度学习插补方法进行了全面的调查 ...
当前的视觉自我监督学习(SSL)当前表现不佳的语言图像预处理(剪辑)在多模式设置中,例如视觉质疑答案(VQA)。这种多模式差距通常归因于语言监督引入的语义,即使Visual SSL和剪辑模型经常受到不同数据的培训。在这项工作中,我们提出了一个问题:“由于缺乏语言监督或培训数据的差异,视觉自我监督的方法是否会滞后在剪辑后面?”我们通过在相同的元数据数据上训练视觉SSL和剪辑模型来研究这个问题,并利用VQA作为视觉编码器的多样化测试床 ...