由上下文学习(icl)驱动的大型语言模型(llm)显着提高了文本到sql的性能。以前的方法通常采用两阶段推理框架,即,即2)逻辑综合,使得该框架不仅有效,使得该框架不仅有效,使得该框架不仅有效,使得该框架不仅有效而且可解释。尽管取得了这些进步,llm泛化固有的不良本质常常会导致幻觉,llm的全部潜力... ...
协作学习(CL)是一个分布式学习框架,旨在通过仅通过共享其梯度更新来共同培训模型来保护用户隐私。但是,从共享梯度中恢复用户培训数据的梯度反演攻击(GIAS)对CL构成了严重的隐私威胁。现有的防御方法采用不同的技术,例如 ...
大型语言模型(LLM)代理商在任务自动化和智能决策中表现出显着的功能,推动了诸如Langchain和Autogen等代理开发框架的广泛采用。但是,这些框架主要为开发人员提供广泛的技术专业知识的服务 - 考虑到只有0.03%的全球人口具有必要的编程技能,这一重大局限性 ...
由于其能力赋予大型语言模型(LLM)的能力以整合外部知识的能力,因此检索增强发电(RAG)获得了广泛的采用。但是,现有的RAG框架主要是为基于文本的LLM设计的,并依靠自动语音识别来处理语音输入,这会丢弃重要的音频信息,风险转录错误并增加计算开销。因此,我们介绍了WavRag,这是第一个带有本机端到端音频支持的增强生成框架 ...
光学相干断层扫描(OCT)提供了可用于诊断各种疾病的高分辨率横截面图像,但是它们与自然图像的独特特征有关在像Imagenet这样的数据集中进行大规模预培训是否总是有益的。在本文中,我们研究了基于Imagenet的预训练对视觉 Transformer (VIT)性能对不同数据集大小的OCT图像分类的影响。我们的实验涵盖了四类视网膜病理(CNV,DME,DRUSEN,正常) ...
在本文中,我们介绍了深度的诅咒,该概念突出显示,解释和解决了现代大型语言模型(LLMS)的最新观察结果,其中将近一半的层比预期的效率差。我们首先证实了这种现象在最受欢迎的LLM家族中的广泛存在,例如Llama,Mistral,Deepseek和Qwen。我们的理论和经验上的分析表明,LLMS中深层无效的根本原因是预层归一化的广泛使用(前LN) ...
大型语言模型(LLM)的最新进展已使软件工程(SE)的协作人与许多专业相似。但是,尚未完全探索将LLM纳入定性数据分析中的潜在好处和含义。例如,对研究人员来说,手动进行定性数据分析可能是耗时,努力且容易出错的任务 ...
在现代商业搜索引擎和推荐系统中,可以使用来自多个领域的数据来联合训练多领域模型。传统方法在多任务设置中训练多域模型,使用共享参数来学习多个任务的相似性,使用特定于任务的参数来学习各个任务的特征、标签和样本分布的差异。随着大型语言模型的发展,llm可以提取全局域不变的文本特征,服务于搜索和推荐任务... ...