最近的多模式检索方法通过利用预训练策略进行视觉文本对齐,具有具有多模式能力的基于文本的检索器。他们经常将两种方式直接融合在一起,以便在对齐过程中了解多模式查询。但是,现有方法通常由于文本主导问题而忽略关键的视觉信息,这过于取决于文本驱动的信号 ...
0 0 0 2025/06/25 arXiv:2411.08334v3 arthur
GPU体系结构在执行通用程序方面已经很受欢迎。他们的多核体系结构支持大量线程,这些线程同时运行,以隐藏因指令之间的延迟。在现代GPU架构中,每个SM/核心通常由几个子核组成,每个子核都有自己的独立管道 ...
0 1 0 2025/06/25 arXiv:2401.10082v1 hwrabbit
每年都会引入新颖的NVIDIA GPU设计。这种快速的建筑和技术进步,加上制造商不愿披露低级细节,即使是最熟练的GPU软件设计师也很难与微体系层面的技术进步保持最新状态。为了解决公众的匮乏,有关新型NVIDIA GPU的微体系式级别的信息,独立的研究人员已诉诸基于微基准的解剖和发现 ...
0 0 0 2025/06/25 arXiv:1804.06826v1 hwrabbit
大型语言模型(LLMS)在随后的语言生成和指导中显示出令人鼓舞的结果,但经常“幻觉”,从而使他们的输出降低。尽管不确定性量化(UQ)的潜在解决方案,但在LLM中准确实施它还是具有挑战性的。我们的研究介绍了一个简单的启发式:自动回归LLM文本中的所有 Token 并非所有 Token 同样代表了基本含义,因为“语言冗余”通常会允许一些关键字传达长期句子的本质 ...
0 0 0 2025/06/25 arXiv:2307.01379v3 hinsay
LIDAR点云中的3D单一对象跟踪(3D SOT)在自主驾驶中起着至关重要的作用。当前方法都根据外观匹配遵循暹罗范式。但是,激光点云通常是无纹理和不完整的,这会阻碍有效的外观匹配 ...
0 0 0 2025/06/25 arXiv:2203.01730v1 hulin01
行为克隆(BC)模仿学习方法的基本局限性是,它只教给专家在专家所访问的州所做的专家所做的事情。这意味着,当卑诗省代理人犯了一个错误,将他们带到了示威活动的支持下时,他们常常不知道如何从示威中恢复过来。从这个意义上讲,卑诗省类似于给特工给鱼类 - 在狭窄的州范围内给予他们密切的监督 - 而不是教他们钓鱼:即使在测试时间面对看不见的情况时,也能够独立地推理专家的成果 ...
0 0 0 2025/06/25 arXiv:2506.05294v1 lihongchen
我们介绍“谈话头脑的注意”  - 多头注意的一种变化,包括在注意力头维度上的线性质量注射,紧接在软磁性之前和之后,此HTTP URL仅插入少数其他参数,并且在掩盖语言上更好地构建语言,以更好地构建语言,并在掩盖语言上进行更好的回答,以使语言的质量更好地构建,并在掩盖语言上进行更高的质疑,以使其更加良好地构建了质量,并构建了质量的质量。任务.. ...
0 0 0 2025/06/25 arXiv:2003.02436v1 xuwenlong
在搜索广告中,关键字匹配将用户查询与相关广告联系起来。基于 Token 的匹配增加了广告范围,但由于语义过度扩展,它可以降低相关性。这项工作通过文档侧语义关键字扩展扩展了关键字,使用语言模型来扩展 Token 级别的匹配而无需更改查询 ...
0 0 0 2025/06/25 arXiv:2505.18897v1 fokazheng

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)