在本文中,我们提出了视觉排列器,这是一种概念上简单且具有数据效率的MLP样体系结构,用于视觉识别。通过意识到2D特征表示携带的位置信息的重要性,与沿扁平的空间维度编码空间信息的最新类似MLP的模型不同,Vision置换器分别用线性预测沿高度和宽度维度编码特征表示。这允许视觉排列器沿一个空间方向捕获远程依赖关系,同时保留沿另一个方向的精确位置信息 ...
0 0 0 2025/09/14 arXiv:2106.12368v1 mmc
随着与大语言模型(LLMS)的多转交谈更长,更复杂,用户如何更好地评估和审查其对话目标的进度?我们提出了一个LLM聊天界面的Ongoal,可帮助用户更好地管理目标进度。 Ongoal通过LLM辅助评估提供了有关目标对齐的实时反馈,示例评估结果的解释以及随着时间的推移概述目标进步,使用户能够更有效地导航复杂的对话。通过与20名参与者的写作任务的研究,我们对基线聊天界面进行了评估,而无需目标跟踪 .. ...
0 0 0 2025/09/14 arXiv:2508.21061v1 waterfall666
我们推出成像,一种文本到图像的扩散模型,具有前所未有的照片真实感和深层次的语言理解。成像建立在大型 Transformer 语言模型在理解文本方面的能力之上,并依赖于扩散模型在高保真图像生成方面的能力。我们的关键发现是通用的大语言模型(例如 ... ...
0 2 0 2025/09/14 arXiv:2205.11487v1 heuwangchao
表结构识别是文档图像分析域的关键部分。它的困难在于需要同时解析每个单元的物理坐标和逻辑指标。但是,现有的方法很难实现这两个目标,尤其是当表分裂线被模糊或倾斜时 ...
0 0 0 2025/09/14 arXiv:2208.14687v1 kanze
理解表是自然语言理解的重要方面。现有的用于表理解的模型需要对表结构进行线性化,其中行或列顺序被编码为不必要的偏差。这种虚假的偏见使该模型容易受到行和列顺序扰动的影响 ...
0 0 0 2025/09/14 arXiv:2203.00274v2 kanze
目标检测的进展是由数据集推动的,这些数据集将研究界的注意力集中在开放挑战上。这个过程引导我们从简单图像到复杂场景 ...
0 1 0 2025/09/14 arXiv:1908.03195v2 ydiaryj
现代AI的计算需求激发了对光学神经网络(ONN)的兴趣,这些神经网络(ONNS)提供了增加速度和降低功耗的潜在好处。但是,当前的ONN面临着各种挑战,最明显的是有限的计算精度(通常约为4位),并且需要高分辨率信号格式转换器(数字到Analogue转换(DAC)和模数转换(ADC))的要求。这些挑战是其模拟计算本质所固有的,并在实际实施中构成了重大障碍 ...
0 0 0 2025/09/14 arXiv:2401.15061v1 KingXHJ
传统上,机器人技术中的视觉导航依赖于全球一致的3D地图或学习的控制器,这在计算上可能很昂贵,并且难以在不同的环境中推广。在这项工作中,我们提出了一种新颖的仅RGB,仅对象级的上式导航管道,该管道可实现零射击,长远程机器人导航,而无需3D地图或预训练的控制器。我们的方法将全球拓扑路径计划与局部度量轨迹控制集成在一起,从而使机器人可以朝对象级别的子目标导航,同时避免障碍 ...
0 0 0 2025/09/14 arXiv:2509.08699v1 KingXHJ

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)