将大型语言模型 (LLM) 集成到生物医学研究中为特定领域推理和知识表示提供了新的机会。然而,它们的性能在很大程度上取决于训练数据的语义质量。在肿瘤学中,精度和可解释性至关重要,构建结构化知识库的可扩展方法对于有效的微调至关重要。本研究提出了使用开放信息提取 (OpenIE) 开发肺癌知识库的管道。该过程包括:(1)利用MeSH同义词库识别医学概念; (2) 过滤具有许可许可 (CC0) 的开放获取 PubMed 文献; (3)利用OpenIE方法提取(主语、关系、宾语)三元组; (4) 使用命名实体识别 (NER) 丰富三元组集,以确保生物医学相关性。由此产生的三元组集为 LLM 的微调提供了特定于领域的、大规模的、噪声感知的资源。我们评估了通过监督语义微调在此数据集上微调的 T5 模型。与 ROUGE 和 BERTScore 的比较评估显示性能和语义一致性显着提高,证明了 OpenIE 衍生资源作为增强生物医学 NLP 的可扩展、低成本解决方案的潜力 ...

0 0 0 0 2026/01/07 arXiv:2601.02604v1 Ian233

我们提出了第一个针对 Transformer 模型的字符级白盒对抗攻击方法。我们方法的直觉来自于对单词在输入到 Transformer 模型之前被分割成子标记的观察,并且两个接近的子标记之间的替换具有与字符修改类似的效果。我们的方法主要包含三个步骤。首先,采用基于梯度的方法来查找句子中最脆弱的单词。然后,我们将选定的单词拆分为子标记,以替换来自转换器标记化器的原始标记化结果。最后,我们利用对抗性损失来指导可附加子 Token 的替换,其中引入了 Gumbel-softmax 技巧来确保梯度传播。同时,我们在优化过程中引入视觉和长度约束,以实现最小的字符修改。对句子级和标记级任务的大量实验表明,我们的方法在成功率和编辑距离方面都优于以前的攻击方法。此外,人类评估验证了我们的对抗性示例可以保留其来源标签 ...

0 0 0 0 2026/01/07 arXiv:2210.17004v1 qiuyan

事实证明,针对离散数据(例如文本)的对抗性攻击比连续数据(例如图像)更具挑战性,因为使用基于梯度的方法很难生成对抗性样本。当前成功的文本攻击方法通常采用字符或单词级别的启发式替换策略,在保持语义一致性和语言流畅性的同时,在大量可能的替换组合空间中找到最佳解决方案仍然具有挑战性。在本文中,我们提出了 \textbf{BERT-Attack},这是一种使用以 BERT 为代表的预训练掩码语言模型生成对抗样本的高质量且有效的方法。我们在下游任务中将 BERT 与它的微调模型和其他深度神经模型进行对比,这样我们就可以成功地误导目标模型进行错误的预测。我们的方法在成功率和扰动百分比方面都优于最先进的攻击策略,而生成的对抗样本是流畅的且语义保留的。此外,计算成本较低,因此可以进行大规模生成。该代码可从此 https URL 获取 ...

0 0 0 0 2026/01/07 arXiv:2004.09984v3 qiuyan

我们提出了第一个针对“野外”收集的三个会话人工智能系统的辱骂语言的英语语料库研究:开放域社交机器人、基于规则的聊天机器人和基于任务的系统。为了考虑到任务的复杂性,我们采取了一种更加“细致入微”的方法,其中我们的 ConvAI 数据集反映了细粒度的滥用概念,以及来自多个专家注释者的观点。我们发现,与其他常用数据集相比,滥用行为的分布有很大不同,对这些系统的虚拟角色具有更多的性侵犯。最后,我们报告根据这些数据对现有模型进行基准测试的结果。毫不奇怪,我们发现 F1 分数低于 90% 时还有很大的改进空间 ...

0 0 0 0 2026/01/07 arXiv:2109.09483v1 qiuyan

我们提出了 UniSH,这是一个用于联合度量尺度 3D 场景和人体重建的统一前馈框架。该领域的一个关键挑战是缺乏大规模、带注释的现实世界数据,迫使人们依赖合成数据集。这种依赖引入了显着的模拟与真实域差距,导致泛化能力差、人体几何保真度低以及野外视频的对齐不良。为了解决这个问题,我们提出了一种创新的训练范例,可以有效地利用未标记的野外数据。我们的框架连接了来自场景重建和 HMR 的强大的、不同的先验,并通过两个核心组件进行训练:(1) 稳健的蒸馏策略,通过从专家深度模型中提取高频细节来细化人体表面细节;(2) 两阶段监督方案,首先学习合成数据的粗略定位,然后通过直接优化 SMPL 网格和人体点云之间的几何对应关系来对真实数据进行微调。这种方法使我们的前馈模型能够在一次前向传递中联合恢复高保真场景几何、人体点云、相机参数和连贯的、公制尺度的 SMPL 体。大量实验表明,我们的模型在以人为中心的场景重建方面实现了最先进的性能,并在全局人体运动估计方面提供了极具竞争力的结果,与基于优化的框架和仅 HMR 的方法相比具有优势。项目页面:此 https URL ...

0 0 0 0 2026/01/07 arXiv:2601.01222v1 小小卡拉米

从提取功能到生成文本,大型语言模型(LLM)的输出通常依赖于其最终层,遵循传统的智慧,即早期层仅捕获低级提示。但是,我们的分析表明,中间层可以编码更丰富的表示形式,通常会在各种下游任务上提高性能。为了解释和量化这些隐藏层的属性,我们提出了一个基于信息理论,几何形状和输入扰动的不变性的表示质量指标的统一框架 ...

0 0 0 0 2026/01/07 arXiv:2502.02013v2 15966829631

医疗对话人工智能(AI)在开发更安全、更有效的医疗对话系统中发挥着关键作用。然而,现有的用于评估医学大语言模型(LLM)信息收集和诊断推理能力的基准和评估框架尚未经过严格评估。为了弥补这些差距,我们推出了 MedDialogRubrics,这是一个新颖的基准,包含 5,200 个综合构建的患者病例和 60,000 多个由 LLM 生成并随后由临床专家完善的细粒度评估标准,专门用于评估 LLM 的多轮诊断能力。我们的框架采用多代理系统来合成真实的患者记录和来自潜在疾病知识的主诉,而无需访问现实世界的电子健康记录,从而减轻隐私和数据治理问题。我们设计了一个强大的患者代理,它仅限于一组原子医学事实,并通过动态指导机制进行增强,该机制在整个对话过程中不断检测和纠正幻觉,确保模拟病例的内部一致性和临床合理性。此外,我们提出了一个基于 LLM 和专家注释的结构化标题生成管道,该管道检索循证医学 (EBM) 指南,并利用拒绝抽样为每个案例导出一组优先的标题项目(“必须询问”项目)。我们对最先进的模型进行了全面评估,并证明,在多个评估维度上,当前模型面临着巨大的挑战。我们的结果表明,改善医疗对话需要对话管理架构的进步,而不仅仅是对基本模型的增量调整 ...

0 0 0 0 2026/01/07 arXiv:2601.03023v1 Ian233

自回归 (AR) 生成是大型语言模型 (LLM) 的标准解码范例,但其逐个 Token 的性质限制了推理时的并行性。扩散语言模型 (DLLM) 通过每步恢复多个屏蔽标记来提供并行解码;然而,在实践中,他们常常无法将这种并行性转化为优化 AR 引擎(例如 vLLM)的部署速度增益。一个关键原因是许多 DLLM 依赖于双向注意力,这打破了标准前缀 KV 缓存并强制重复上下文化,从而降低了效率。我们提出了 WeDLM,一种完全基于标准因果注意力构建的扩散解码框架,以使并行生成前缀缓存友好。核心思想是让每个屏蔽位置条件在所有当前观察到的 Token 上,同时保持严格的因果屏蔽,这是通过拓扑重新排序实现的,将观察到的 Token 移动到物理前缀,同时保留其逻辑位置。在此属性的基础上,我们引入了一种流式解码过程,该过程不断地将置信 Token 提交到不断增长的从左到右的前缀中,并保持固定的并行工作负载,从而避免了块扩散方法中常见的停止和等待行为。实验表明,WeDLM 保留了强大的 AR 主干的质量,同时提供了显着的加速,在具有挑战性的推理基准上接近 3 倍,在低熵生成机制中高达 10 倍;至关重要的是,我们的比较是在匹配的部署设置下与 vLLM 提供的 AR 基线进行比较,这表明扩散式解码在实践中可以胜过优化的 AR 引擎 ...

0 0 0 0 2026/01/07 arXiv:2512.22737v1 mamile

Context-grounded hallucinations are cases where model outputs contain information not verifiable against the source text. We study the applicability of LLMs for localizing such hallucinations, as a more practical alternative to existing complex evaluation pipelines.在缺乏幻觉定位元评估既定基准的情况下,我们构建了一个专为 LLM 量身定制的基准,其中涉及对 1,000 多个示例进行具有挑战性的人类注释。我们通过基于 LLM 的评估协议来补充该基准,并在人工评估中验证其质量。由于现有的幻觉表示限制了可以表达的错误类型,因此我们提出了一种基于自由形式文本描述的新表示,捕获了所有可能的错误。我们进行了一项全面的研究,评估了四所大型 LLM ,这凸显了基准的难度,因为最佳模型的 F1 分数仅为 0.67。通过仔细分析,我们深入了解该任务的最佳提示策略,并确定对 LLM 来说具有挑战性的主要因素:(1)尽管被指示仅检查输出中的事实,但倾向于错误地将缺失的细节标记为不一致; (2) 由于与模型的参数知识保持一致,输出中难以包含源中不存在的事实正确的信息,因此无法验证 ...

0 0 0 0 2026/01/07 arXiv:2509.22582v2 annlyq

由于推荐系统(RS)在引导客户购买方面发挥着关键作用,不法分子自然有动机通过欺骗推荐系统来获取利润。在本文中,我们研究先令攻击,其中敌方出于不正当目的注入大量虚假用户配置文件。传统的先令攻击方法缺乏攻击可转移性(即,攻击对某些受害者 RS 模型无效)和/或攻击不可见性(即,可以轻松检测到注入的配置文件)。为了克服这些问题,我们提出了 Leg-UP,一种基于生成对抗网络的新型攻击模型。 Leg-UP 从采样“模板”中的真实用户那里学习用户行为模式,并构建虚假的用户配置文件。为了模拟真实用户,Leg-UP 中的生成器直接输出离散额定值。为了增强攻击的可转移性,通过最大化代理 RS 模型的攻击性能来优化生成器的参数。为了提高攻击的隐蔽性,Leg-UP 采用鉴别器来引导生成器生成不可检测的虚假用户配置文件。基准测试实验表明,Leg-UP 在各种受害 RS 模型上均超过了最先进的先令攻击方法。我们工作的源代码可在以下位置找到:此 https URL ...

0 0 0 0 2026/01/07 arXiv:2206.11433v1 13460850092