OpenStreetMap(OSM)是一种在线和多功能的志愿地理信息(VGI),通过将附近的视觉观测与矢量化的地图数据匹配,用于人类自定位。但是,由于方式和观点的分歧,图像到OSM(I2O)的匹配和本地化对于机器人来说仍然具有挑战性,从而阻止了无人接地车辆和物流行业中VGI数据的全部利用。受到人脑依赖于对空间定位任务的感觉信息的几何和语义理解的启发,我们在本文中提出了OSMLOC ...
顺序推荐(SEQREC)旨在通过从用户的历史互动中捕获顺序模式,在许多现实世界中的推荐系统中起着至关重要的作用来预测下一项。但是,现有方法主要采用直接的前向计算范式,其中序列编码器的最终隐藏状态用作用户表示。我们认为,由于其计算深度有限,这种推论范式努力模拟用户偏好的复杂发展性质,并且缺乏对长尾项目的细微理解,从而导致了次优性能 ...
大型语言模型(LLM)的快速发展促进了多机构系统的开发,其中多个基于LLM的代理协作以解决复杂的任务。但是,现有系统主要依赖于集中协调,该协调引入了可扩展性瓶颈,限制适应性并创建单点故障。此外,对隐私和专有知识共享的担忧阻碍了跨组织合作,从而导致了孤立的专业知识 ...
最近的开源大型推理模型(LRMS)在复杂的推理任务上表现出很强的性能,但是它们的大参数计数使它们对个人来说非常昂贵。大型语言模型(LLM)的压缩提供了一种有效的解决方案,以降低计算资源的成本。但是,缺乏对压缩LLM在复杂推理任务(尤其是针对LRMS)中的性能的系统研究 ...
在语言模型中,如何实现强大的推理能力?在这个基本问题的驱动下,我们提出了蒂娜(Tina),这是一个以高成本效率实现的微小推理模型的家族。值得注意的是,蒂娜(Tina)证明,只能使用最小资源来开发实质性的推理性能,即通过在增强学习过程中应用参数有效的更新(RL),使用低级别适应性(LORA),并将其用于已经很小的1.5B参数基础模型 ...
扩散模型已彻底改变了图像的产生,其扩展到视频生成已经显示出希望。但是,当前的视频扩散模型〜(VDMS)依赖于在剪辑级别应用的标量时间段变量,这限制了其对各种任务(如图像到视频生成)所需的复杂时间依赖性建模的能力。为了解决这一限制,我们提出了一个框架感知的视频扩散模型〜(FVDM),该模型引入了一种新颖的矢量矢量时间段变量〜(VTV) ...
随着大语言模型(LLM)的快速发展,已经进行了广泛的研究来研究LLM的代码生成能力。但是,现有的努力主要集中在通用域任务上,而LLMS在现实世界应用程序域中的代码生成性能尚未被置于范围内。这提出了一个关键的问题:模型的通用域编码能力可以可靠地代表其在专业领域中的能力吗?在本文中,我们介绍了DomainCodeBench,这是一种多域代码生成基准测试,旨在系统地评估12个软件应用程序域和15种编程语 ...
在机器人技术和AI中,使用一组预定义的技能计划长跑运动是一个关键挑战。应对这一挑战需要系统地探索技能组合的方法,以发现任务解决序列,利用通用,易于学习的技能(例如, ...