自我监督的多帧单眼估计取决于在静态场景的假设下连续帧之间的几何一致性。但是,动态场景中移动物体的存在引起了不可避免的矛盾,从而导致训练期间的多帧功能匹配和误导性的自我选择。在本文中,我们提出了一个名为Prodepth的新型框架,该框架有效地解决了使用概率方法由动态对象引起的不匹配问题 ...
0 0 0 2025/02/12 arXiv:2407.09303v1 jevonhhh
NLGraph和GraphQA(GraphQa)等现有基准测试通过主要关注成对关系来评估图表上的LLM,从而忽略了现实世界数据中发现的高阶相关性。可以为超越铅的关系建模复杂的超图提供了一个更强大的框架,但在LLM的背景下仍未被忽略。为了解决这一差距,我们介绍了LLM4Hypergraph,这是第一个综合基准,其中包括八个低阶,五个高阶和两个同构任务的21,500个问题,它利用了来自引文网络和蛋白质 ...
0 0 0 2025/02/12 arXiv:2410.10083v2 fridaly
图形神经网络(GNN)已成为编码图形结构数据的强大工具。由于其广泛的应用程序,越来越需要开发工具来解释GNN如何决定给定的图形结构数据。现有的基于学习的GNN解释方法在培训中是特定于任务的,因此遭受了关键的缺点 ...
0 0 0 2025/02/12 arXiv:2202.08335v2 774
随着个性化推荐系统在信息超负荷时代至关重要,仅依靠历史用户互动的传统方法通常无法完全捕获人类利益的多方面性质。为了实现以用户偏好为中心的以人为中心的建模,这项工作提出了一个新颖的可解释推荐框架,即 ...
0 0 0 2025/02/12 arXiv:2401.08217v2 fridaly
了解人类如何利用语义知识来应对陌生的环境并决定接下来要在哪里探索,这对于开发具有类似人类搜索行为的机器人至关重要。我们介绍了零拍导航方法,视觉语言边界地图(VLFM),该方法灵感来自人类推理,并旨在导航在新颖环境中朝着看不见的语义对象导航。 VLFM从深度观测值中构建了占用图,以识别前沿,并利用RGB观测值和预训练的视觉语言模型来生成语言接地的价值图 ...
0 0 0 2025/02/12 arXiv:2312.03275v1 hx5563
推理能力,尤其是解决复杂数学问题的能力,是一般智能的关键组成部分。专有公司的最新进展,例如Openai的O系列模型,在推理任务上取得了显着进步。但是,完整的技术细节仍然没有透露,并且认为被认为要采用的技术仅仅是强化学习(RL)和漫长的思想链 ...
0 0 0 2025/02/12 arXiv:2502.06781v1 ppxia2008
愉悦和痛苦通过为解决动机冲突提供共同的货币来在人类决策中起重要作用。尽管大型语言模型(LLMS)可以产生愉悦和痛苦经历的详细描述,但在选择场景中,LLM是否可以重现愉悦和痛苦的动力 - 这个问题可能会涉及有关LLM的辩论的问题价值体验状态的能力。我们使用一个简单的游戏探究了这个问题,在该游戏中,既定目标是最大化积分,但是据说要么达到最大化的选项会引起疼痛处罚,也可以说是非最大化的选项,据说会产生愉 ...
0 0 0 2025/02/12 arXiv:2411.02432v1 读个论文看看吧
图形用户界面(GUI)对人类计算机的交互至关重要,但是由于视觉环境的复杂性和可变性,自动化的GUI任务仍然具有挑战性。现有的方法通常依赖于GUI的文本表示,这些表示引入了概括,效率和可扩展性的局限性。在本文中,我们介绍了Aguvis,这是一个统一的基于纯视觉的框架,用于在各个平台上运行的自主GUI代理 ...
0 0 0 2025/02/12 arXiv:2412.04454v1 dqyzhwk

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)