由大型语言模型(LLM)提供动力的Web浏览代理在自动化基于Web的任务方面具有巨大的潜力。现有方法通常依赖大型LLM(例如 ...
事件提取的问题需要检测事件触发器并提取其相应的参数。事件参数提取中的现有工作通常在很大程度上依赖于实体识别作为预处理/并发步骤,从而导致众所周知的错误传播问题。为了避免此问题,我们通过将其作为问题回答(QA)任务提出的新范式提取事件提取,该任务以端到端的方式提取事件参数 ...
ESP-MedSAM: Efficient Self-Prompting SAM for Universal Domain-Generalized Medical Image Segmentation
深度神经网络跨不同方式及其在医学图像分割中起着至关重要的作用。最近的任何模型(SAM)在两种情况下都表现出了潜力。但是,作为提示的提示和易于冲突的解码过程,巨大的计算成本,对手动注释的需求降低了其在临床情况下的普遍性和适用性 ...
使用外部工具增强大型语言模型(LLM)是增强其功能的一种有前途的方法,尤其是对于复杂的任务。通过现实世界仿真综合使用工具使用数据是实现它的有效方法。然而,我们的调查表明,(1)随着综合数据的增加,培训显着衰减 ...
通过图像数据进一步培训的预训练的LLM在视觉任务上表现良好。在第二个训练阶段添加图像可以有效地解锁此能力,但目前尚不清楚这两步管道对VLM的增益或损失有多少,而VLM会在训练过程中及早整合到训练过程中。为了调查这一点,我们在引入视觉 Token 之前训练跨越各种数据集,量表,图像文本比和预训练量的模型 ...
受到AI驱动的心理健康的成本和道德问题的限制,研究人员开发了基于LLM的对话剂(CAS),其量身定制的配置,例如配置,症状和场景,以模拟寻求者。尽管这些努力在心理健康方面提高了AI,但实现更现实的寻求者模拟仍受到两个关键挑战的阻碍:动态进化和多课程记忆。寻求者的心理状态在咨询过程中经常发生波动,通常会涵盖多次会议 ...
最近,使大型语言模型(LLMS)能够通过视觉指导调整来解释图像的多模式大语言模型(MLLM)取得了巨大的成功。但是,现有的视觉指令调整方法仅利用图像语言指令数据来对齐语言和图像模态,缺乏更细粒度的跨模式对齐。在本文中,我们提出了位置增强的视觉指导调整(PVIT),该调整通过集成其他区域级视觉编码器来扩展MLLM的功能 ...
心理健康是一个日益增长的全球关注点,引发了人们对AI驱动的解决方案的兴趣,以扩大获得心理社会支持的机会。以生活经验为基础的同伴支持为专业护理提供了宝贵的补充。但是,培训,有效性和定义的差异引起了人们对质量,一致性和安全性的担忧 ...