由于各种模态的综合信息,特别是互补信息,多模态学习在情感分析任务中表现出显着的优势。因此,许多新兴研究的重点是从输入数据中分离出模态不变和模态特定的表示,然后融合它们进行预测。然而,我们的研究表明,特定于模态的表示可能包含与任务无关或冲突的信息,这会降低学习的多模态表示的有效性。我们重新审视解缠结问题,并提出了一种新颖的三重解缠结方法 TriDiRA,该方法从输入数据中解离模态不变、有效模态特定和无效模态特定表示。通过仅融合模态不变和有效的模态特定表示,TriDiRA 可以显着减轻模型训练期间跨模态的不相关和冲突信息的影响。在四个基准数据集上进行的大量实验证明了我们的三重解缠的有效性和泛化性,其性能优于 SOTA 方法 ...
本文旨在有效地使大型语言模型(LLM)能够使用多模式工具。高级专有 LLM (例如 ChatGPT 和 GPT-4)通过复杂的提示工程显示出工具使用的巨大潜力。然而,这些模型通常依赖于高昂的计算成本和公开不可访问的数据。为了应对这些挑战,我们提出了基于自指导的GPT4Tools,使LLaMA和OPT等开源LLM能够使用工具。它通过向高级教师提示各种多模式上下文来生成遵循指令的数据集。通过使用低秩适应(LoRA)优化,我们的方法有助于开源 LLM 解决一系列视觉问题,包括视觉理解和图像生成。此外,我们还提供了一个基准来评估 LLM 使用工具的能力,该基准以零样本和微调的方式进行。大量的实验证明了我们的方法在各种语言模型上的有效性,不仅显着提高了调用已见工具的准确性,而且还实现了未见工具的零样本能力。代码和演示可在此 https URL 获取 ...
稀疏视图 3D 建模代表了重建保真度和生成合理性之间的根本张力。虽然前馈重建在效率和输入对齐方面表现出色,但它通常缺乏结构完整性所需的全局先验。相反,基于扩散的生成提供了丰富的几何细节,但难以实现多视图一致性。我们提出了 UniRecGen,这是一个将这两种范式集成到单个协作系统中的统一框架。为了克服坐标空间、3D 表示和训练目标中的固有冲突,我们在共享的规范空间内对齐这两个模型。我们采用解开的合作学习,它可以保持稳定的训练,同时在推理过程中实现无缝协作。具体来说,重建模块适用于提供规范的几何锚点,而扩散生成器则利用潜在增强条件来细化和完成几何结构。实验结果表明,UniRecGen 实现了卓越的保真度和鲁棒性,在根据稀疏观测创建完整且一致的 3D 模型方面优于现有方法。代码可从此 https URL 获取 ...
多模态工业异常检测的目的是检测复杂的几何形状缺陷,例如微妙的表面变形和不规则轮廓,这些缺陷在基于2D的方法中难以检测。然而,当前的多模态工业异常检测缺乏对表面法向量和3D形状拓扑等关键几何信息的有效利用,导致检测精度较低。在本文中,我们提出了一种新颖的基于几何先验的异常检测网络(GPAD)。首先,我们提出了一种点云专家模型来执行细粒度的几何特征提取,采用差分法向量计算来增强提取的特征的几何细节并生成几何先验。其次,我们提出了一种两阶段融合策略,以有效地利用多模态数据的互补性以及 3D 点固有的几何先验。我们进一步提出基于几何先验的注意力融合和异常区域分割,增强了模型感知几何缺陷的能力。大量实验表明,我们的多模式工业异常检测模型在 MVTec-3D AD 和 Eyecandies 数据集上的检测精度均优于最先进的 (SOTA) 方法 ...
我们提出 NeuroLKH,一种新颖的算法,它将深度学习与强大的传统启发式 Lin-Kernighan-Helsgaun (LKH) 相结合,用于解决旅行商问题。具体来说,我们训练了一个稀疏图网络(SGN),对边缘分数进行监督学习,对节点惩罚进行无监督学习,这两者对于提高 LKH 的性能都至关重要。基于SGN的输出,NeuroLKH创建边缘候选集并变换边缘距离以指导LKH的搜索过程。大量实验有力地证明,通过在各种问题规模上训练一个模型,NeuroLKH 的性能显着优于 LKH,并且可以很好地推广到更大的规模。此外,我们还表明 NeuroLKH 可以应用于其他路由问题,例如容量车辆路由问题(CVRP)、取货和送货问题(PDP)以及带时间窗的 CVRP(CVRPTW) ...
在这项工作中,我们追求多模式预训练的统一范例,以打破复杂任务/特定模式定制的支架。我们提出了 OFA,一个支持任务综合性的任务无关和模态无关的框架。 OFA 在一个简单的序列到序列学习框架中统一了一组不同的跨模态和单模态任务,包括图像生成、视觉基础、图像字幕、图像分类、语言建模等。 OFA 在预训练和微调阶段都遵循基于指令的学习,下游任务不需要额外的特定于任务的层。与最近依赖于极大跨模态数据集的最先进的视觉和语言模型相比,OFA 仅在 2000 万个公开可用的图像文本对上进行了预训练。尽管其简单且训练数据规模相对较小,OFA 在一系列跨模态任务中实现了新的 SOTA,同时在单模态任务上获得了极具竞争力的表现。我们的进一步分析表明,OFA 还可以有效地转移到看不见的任务和看不见的领域。我们的代码和模型可通过此 https URL 公开获取 ...
大型语言模型(LLM)越来越多地应用于检索和推荐中的排序任务。尽管推理提示可以增强排名效用,但我们的初步探索表明,其好处是不一致的,并且需要大量的计算成本,这表明何时推理与如何推理同样重要。为了解决这个问题,我们提出了一种推理路由框架,该框架采用轻量级、即插即用的路由器头来决定在生成之前对每个实例是使用直接推理(Non-Think)还是推理(Think)。路由器头仅依赖于预生成信号:i)紧凑的排名感知特征(例如候选分散度)和 ii)从反映模型估计推理需求的诊断清单导出的模型感知难度信号。通过在生成之前利用这些特性,路由器会输出一个可控 Token 来决定是否应用Think模式。此外,路由器可以在部署期间沿着验证帕累托前沿自适应地选择其操作策略,从而能够在不同的系统约束下将计算资源动态分配给最有可能从 Think 中受益的实例。在具有不同规模的开源 LLM 的三个公共排名数据集上进行的实验表明,排名效用在减少 Token 消耗的情况下得到了持续改进(例如,在采用 Qwen3-4B 的 MovieLens 上,+6.3\% NDCG@10 和 -49.5\% Token ),证明推理路由是准确率与效率权衡的实用解决方案 ...
大语言模型 (LLM) 的最新进展通过自然语言生成实现了更多语义感知推荐。现有的LLM推荐(LLM4Rec)方法大多以类似系统1的方式运行,依靠表面特征根据点击历史来匹配相似的项目,而不是通过更深层次的行为逻辑进行推理。这通常会导致肤浅和错误的建议。受此启发,我们提出了ThinkRec,一个基于思维的框架,将LLM4Rec从系统1转移到系统2(理性系统)。从技术上讲,ThinkRec引入了一种思维激活机制,通过关键词摘要来增强项目元数据,并注入合成推理痕迹,引导模型形成可解释的推理链,包括分析交互历史、识别用户偏好并根据目标项目做出决策。除此之外,我们提出了一种实例级专家融合机制来降低推理难度。通过根据用户的潜在特征动态地为专家模型分配权重,ThinkRec 可以根据个人用户调整其推理路径,从而提高精度和个性化。对现实世界数据集的大量实验表明,ThinkRec 显着提高了推荐的准确性和可解释性。我们的实现可以通过此 https URL 获得 ...
LLM 在推荐系统中引起了广泛关注。然而,在捕获复杂的偏好模式时,它们无法达到传统推荐器的要求。最近的工作尝试将传统的推荐嵌入集成到 LLM 中来解决这个问题,但连续嵌入和离散语义空间之间仍然存在核心差距。直观地说,从交互中得出的文本属性可以作为 LLM 推荐逻辑的关键偏好理由。然而,直接输入此类属性知识存在两个核心挑战:(1)稀疏交互不足以反映对未见过的项目的偏好提示; (2) 将所有属性视为提示而引入大量噪声。为此,我们提出了一种基于交互集成知识图谱的偏好提示发现模型,增强了基于LLM的推荐。它利用传统的推荐原理有选择地提取关键属性作为提示。具体来说,我们设计了一种协作偏好提示提取模式,该模式利用来自相似用户显式交互的语义知识作为未见过项目的提示。此外,我们开发了一种实例级的双重注意机制来量化候选属性的偏好可信度,识别每个未见项目的特定提示。使用这些基于项目和用户的提示,我们采用扁平化提示组织方法来缩短输入长度,并将文本提示信息提供给 LLM 进行常识推理。对成对和列表推荐任务的广泛实验验证了我们提出的框架的有效性,表明相对于基线的平均相对改进超过 3.02% ...
推荐系统旨在为用户提供相关建议,但往往缺乏可解释性,无法捕获用户行为和个人资料之间的更高层次的语义关系。在本文中,我们提出了一种利用大型语言模型(LLM)构建个性化推理图的新颖方法。这些图表通过因果和逻辑推理将用户的个人资料和行为序列联系起来,以可解释的方式表示用户的兴趣。我们的方法,LLM 推理图(LLMRG),有四个组成部分:链式图推理、发散扩展、自我验证和评分以及知识库自我完善。生成的推理图使用图神经网络进行编码,该神经网络可作为改进传统推荐系统的附加输入,而不需要额外的用户或项目信息。我们的方法展示了 LLM 如何通过个性化推理图启用更具逻辑性和可解释性的推荐系统。 LLMRG 允许推荐受益于工程推荐系统和 LLM 派生的推理图。我们证明了 LLMRG 在基准和现实场景中增强基本推荐模型的有效性 ...