15966829631的文档

15966829631

个性签名 ...

MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering

大型语言模型 (LLM) 虽然在一般领域中功能强大，但在医疗问答 (QA) 等特定领域任务上通常表现不佳。此外， LLM 往往充当“黑匣子”，这使得改变他们的行为具有挑战性。为了解决这个问题，我们的工作采用了透明的检索增强生成（RAG）过程，旨在提高 LLM 的反应，而无需进行微调或再培训 ...

0 0 0 0 2024/12/23 arXiv:2309.16035v3 15966829631

Towards Expert-Level Medical Question Answering with Large Language Models

最近的人工智能 (AI) 系统在从围棋到蛋白质折叠等“重大挑战”方面已经达到了里程碑。长期以来，检索医学知识、推理医学知识以及回答医学问题的能力一直被视为一项巨大的挑战。大型语言模型（LLM）促进了医学问答领域的重大进步； Med-PaLM 是第一个在美国医疗执照考试 (USMLE) 类型问题中超过“及格”分数的模型，得分为 67 分 ...

0 0 0 0 2024/12/23 arXiv:2305.09617v1 15966829631

Dr ChatGPT, tell me what I want to hear: How prompt knowledge impacts health answer correctness

ChatGPT 等生成式预训练语言模型 (GPLM) 会在模型在预训练阶段观察到的模型参数知识中进行编码。然后使用这些知识进行推理，以解决用户在提示中指定的任务。例如，对于问答任务，GPLM 利用在训练中学到的知识和语言模式来生成用户问题的答案 ...

0 0 0 0 2024/12/23 arXiv:2302.13793v1 15966829631

WebCPM: Interactive Web Search for Chinese Long-form Question Answering

长式问答 (LFQA) 旨在通过详细的段落长度回答来回答复杂的开放式问题。 LFQA 的事实范式需要两个过程：信息检索（搜索相关支持事实）和信息合成（将这些事实整合为连贯的答案）。在本文中，我们介绍了第一个中国 LFQA 数据集 WebCPM ...

0 0 0 0 2024/12/23 arXiv:2305.06849v2 15966829631

Evaluating Open-Domain Question Answering in the Era of Large Language Models

词汇匹配仍然是开放域问答（QA）事实上的评估方法。不幸的是，当合理的候选答案没有出现在黄金答案列表中时，词汇匹配就会完全失败，随着我们从提取模型转向生成模型，这种情况越来越多。最近用于 QA 的大型语言模型 (LLM) 的成功加剧了词汇匹配失败，因为候选答案变得更长，从而使与黄金答案的匹配变得更具挑战性 ...

0 0 0 0 2024/12/20 arXiv:2305.06984v3 15966829631

A Critical Evaluation of Evaluations for Long-form Question Answering

长格式问答（LFQA）可以回答广泛的问题，但其灵活性给评估带来了巨大的挑战。我们对长格式答案的评估进行了首次有针对性的研究，涵盖人工和自动评估实践。我们聘请了七个领域的领域专家来提供对答案对的偏好判断，以及他们选择的自由形式的理由 ...

0 0 0 0 2024/12/20 arXiv:2305.18201v1 15966829631

Natural Language to Code Translation with Execution

在大型程序语料库上进行预训练的代码生成模型在将自然语言翻译为代码方面取得了巨大成功（Chen 等人，2021；Austin 等人，2021；Li 等人 ...

0 0 0 0 2024/12/11 arXiv:2204.11454v2 15966829631

E&V: Prompting Large Language Models to Perform Static Analysis by Pseudo-code Execution and Verification

静态分析是检查代码而不执行代码的过程，对于识别软件问题至关重要。然而，静态分析因其复杂性和针对不同目标进行定制的需要而受到阻碍。传统的静态分析工具需要大量的人力，并且通常仅限于特定的目标程序和编程语言 ...

0 0 0 0 2024/11/21 arXiv:2312.08477v1 15966829631

Automated Proof Generation for Rust Code via Self-Evolution

确保正确性对于代码生成至关重要。形式验证提供了正确性的明确保证，但需要大量的人力来构建证明，因此迫切需要自动化。主要障碍在于严重缺乏数据——可供 LLM 训练的证据远少于代码 ...

0 0 0 0 2024/11/21 arXiv:2410.15756v1 15966829631

Instructive Code Retriever: Learn from Large Language Model's Feedback for Code Intelligence Tasks

最近的研究提出利用大型语言模型 (LLM) 和上下文学习 (ICL) 来处理代码智能任务，而无需进行微调。 ICL 采用任务指令和一组示例作为演示，指导模型在不更新参数的情况下生成准确的答案。虽然 ICL 已被证明对于代码智能任务有效，但其性能在很大程度上依赖于所选的示例 ...

0 1 0 0 2024/11/21 arXiv:2410.11300v1 15966829631