多模态大语言模型 (MLLM) 已成为集成视觉和文本信息的强大范例,支持广泛的多模态任务。然而,这些模型经常产生幻觉,产生看似合理但与输入内容或既定世界知识相矛盾的内容。这项调查对图像到文本(I2T)和文本到图像(T2I)生成任务的幻觉评估基准和检测方法进行了深入回顾 ...
大型语言模型 (LLM) 最近的成功重新引发了人们对推荐系统是否能够实现类似的扩展优势的兴趣。传统的推荐系统以大量嵌入表为主,随着嵌入维度的增长,往往会趋于稳定。相比之下,新兴的生成范式用自回归 Transformer 生成的紧凑语义 ID (SID) 序列取代了嵌入 ...
深度分类器在视觉识别领域取得了巨大的成功。然而,现实世界的数据本质上是长尾的,导致训练和测试分布之间的不匹配。在本文中,我们表明 Softmax 函数虽然用于大多数分类任务,但在长尾设置下给出了有偏差的梯度估计 ...
机器学习系统的训练和测试阶段都普遍存在噪声数据,这不可避免地导致模型性能下降。在过去的十年里,有很多工作集中在使用分布内(IND)噪声标签进行学习,即 ...
班级增量学习(CIL)旨在适应不断出现的新班级,同时保留以前学过的知识。小样本类增量学习(FSCIL)提出了更大的挑战,要求模型仅从每个类的有限数量的样本中学习新类。虽然增量学习通常假设对过去数据的访问受到限制,但它通常在许多现实场景中仍然可用 ...
幻觉仍然是大型语言模型(LLM)可靠部署的主要障碍之一,特别是在现实世界的应用程序中。在各种缓解策略中,检索增强生成(RAG)和推理增强已成为最有效且广泛采用的两种方法,标志着从仅仅抑制幻觉到平衡创造力和可靠性的转变。然而,它们的协同潜力和减轻幻觉的潜在机制尚未得到系统研究 ...
Few-shot 字体生成旨在创建具有有限数量的字形引用的新字体。它可以用来显着减少手工字体设计的人力成本。然而,由于字体样式的多样性和复杂性,现有方法生成的结果经常存在明显的缺陷,例如笔划错误、伪像和模糊 ...
在人机对话场景中,决定机器轮流的适当时间是一个开放的研究问题。相比之下,参与对话的人能够及时决定何时出于竞争或非竞争原因打断说话者。在最先进的逐轮对话系统中,下一个对话动作的决定是在话语结束时做出的 ...