感知和理解是计算机视觉的两大支柱。虽然多模态大语言模型(MLLM)表现出了卓越的视觉理解能力,但它们可能缺乏准确的感知能力,例如 ...
个性化的搜索排名系统对于在现代电子商务和短视频平台中推动参与和收入至关重要。尽管现有的方法在基于过滤的历史行为估算用户的广泛兴趣方面表现出色,但它们通常在用户的实时意图(由用户查询代表)与过去的操作之间的明确对齐。在本文中,我们提出了一种新型且可扩展的方法,该方法由生成模型提供动力 ...
点击率(ctr)预测对于推荐系统和在线广告等工业应用至关重要。实际上,它通过从丰富的历史行为数据中挖掘用户兴趣,在这些应用程序中的点击率建模中发挥着重要作用。在深度学习发展的推动下 ...
最近的网格生成方法通常将三角形网状网格定为 Token 序列和训练自回归模型的序列,以依次生成这些 Token 。尽管取得了很大的进步,但这种 Token 序列不可避免地多次重复使用顶点以完全表示多种多样的网格,因为每个顶点都由多个面共享。这种冗余导致令状序列过长和效率低下的生成过程 ...
这篇全面的评论深入探讨了即时工程在释放大型语言模型 (LLM) 功能方面的关键作用。人工智能 (AI) 的发展,从 20 世纪 50 年代兴起到先进神经网络和深度学习架构的出现,在 LLM 领域取得了突破,出现了 GPT-4o 和 Claude-3 等模型,在视觉领域也取得了突破。语言模型 (VLM),包括 CLIP 和 ALIGN 等模型。即时工程是构建输入的过程,它已成为最大化这些模型的实用性 ...
我们研究机器人臂是否可以学会快速准确地将任意对象挑选到选定的框中。投掷有可能提高机器人臂的物理可及性和拾取速度。但是,精确地将任意对象抛在非结构化的设置中提出了许多挑战:从获得可靠的预先预测条件(e ...
针对特定领域应用程序的大型语言模型(LLMS)的现有修剪技术通常遵循两个阶段的过程:修剪预验证的通用通用LLM,然后在特定域上对修剪的LLM进行微调。但是,即使重量已更新,从预算的重量中得出的修剪决策在微调过程中保持不变。因此,修剪决策和固定权重的这种组合可能是次优的,导致不可忽略的性能退化 ...