LLM 所展示的代码理解能力提出了一个问题:它们是否可以用于自动程序验证,这项任务需要对程序属性进行高级抽象推理,这对验证工具来说是一个挑战。我们提出了一种通用方法,将 LLM 和自动推理机的力量结合起来,进行自动程序验证。我们正式将这种方法描述为一组转换规则并证明其合理性 ...
0 0 0 2025/01/16 arXiv:2310.04870v5 liukai
我们对微调的影响缺乏系统的理解(通过指令调整或来自人类反馈的强化学习等方法),特别是在狭窄的微调分布之外的任务上。在一个简化的场景中,我们证明了在微调数据分布中提高任务性能是以牺牲其他任务的能力为代价的。我们假设语言模型隐式地推断出提示的任务,并且微调使这种推断偏向于微调分布中的任务 ...
0 0 0 2025/01/16 arXiv:2309.10105v2 liukai
大型语言模型 (LLM) 表现出卓越的能力,但在执行复杂的知识推理任务时,会与幻觉和过时的知识作斗争,从而导致事实上不正确的输出。之前的研究试图通过从大规模知识图(KG)中检索事实知识来帮助 LLM 进行逻辑推理和预测答案来缓解这一问题。然而,这种方法经常引入噪声和不相关的数据,特别是在具有来自多个知识方面的广泛上下文的情况下 ...
0 0 0 2025/01/16 arXiv:2412.18537v2 xixiaixixi
最近提出的伪装物体检测(COD)试图分割视觉上融入周围环境的物体,这在现实场景中极其复杂和困难。除了被伪装物体与背景之间具有高度的内在相似性外,这些物体通常尺度多样、外观模糊,甚至被严重遮挡。为了解决这些问题,我们提出了一个混合尺度的三元组网络 \textbf{ZoomNet},它模仿人类在观察模糊图像时的行为,即 ...
0 0 0 2025/01/16 arXiv:2203.02688v1 Jht
上下文学习(ICL)是大型语言模型令人惊讶且有用的功能之一,也是深入研究的主题。最近,设计了类似元学习的 ICL 设置,可以在输入输出对 $(x, f(x))$ 序列上训练 Transformer。函数 $f$ 来自函数类,并通过评估同一类中未见过的函数生成的序列来检查泛化性 ...
0 0 0 2025/01/16 arXiv:2306.04891v2 liukai
我们推出了 Bongard-OpenWorld,这是一个用于评估机器视觉现实世界少镜头推理的新基准。它源于经典的邦加德问题(BP):给定两组图像(正图像和负图像),模型需要通过归纳视觉概念来识别查询图像所属的集合,该视觉概念仅由正集合中的图像来描述。我们的基准继承了原始 BP 的少镜头概念归纳,同时添加了两个新颖的挑战层:1)开放世界自由形式概念,因为 Bongard-OpenWorld 中的视觉 ...
0 0 0 2025/01/16 arXiv:2310.10207v6 liukai
张量网络对于极高维表示非常有效,但其模型选择(称为张量网络结构搜索(TN-SS))是一个具有挑战性的问题。尽管有一些工作针对 TN-SS,但大多数现有算法都是手动设计的启发式算法,性能较差,受到维数灾难和局部收敛的影响。在这项工作中,我们跳出框框,研究如何利用大型语言模型 (LLM) 自动发现新的 TN-SS 算法,从而取代人类专家的参与 ...
0 0 0 2025/01/16 arXiv:2402.02456v2 liukai
大型语言模型(LLM)已成为人工智能的强大工具,具有上下文学习(ICL)的关键能力,它们可以根据一系列简短的任务示例在未见过的任务上表现良好,而无需对模型进行任何调整。模型参数。最近一项有趣的神秘观察是,不同尺度的模型可能有不同的 ICL 行为:较大的模型往往对测试环境中的噪声更敏感。这项工作从理论上研究了这一观察结果,旨在提高对 LLM 和 ICL 的理解 ...
0 0 0 2025/01/16 arXiv:2405.19592v1 liukai

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)