大型语言模型(LLMS)通过测试时间缩放方法(例如自遇到性能和多数投票)在推理任务方面表现出了巨大的潜力。但是,这种方法通常会导致准确性和高计算开销的回报降低。为了应对这些挑战,我们充满信心地介绍了深层思考(DeepConf),这是一种简单而强大的方法,可在测试时提高推理效率和性能 ...
0 0 0 2025/08/24 arXiv:2508.15260v1 quziyan
Longrope2是一种新颖的方法,它将预训练的大语言模型(LLM)的有效上下文窗口扩展到目标长度,同时保留在原始较短上下文窗口上的性能。这是通过三个贡献来实现的:(1)一个假设,即较高绳索维度的训练不足有助于在现有方法中观察到的持续分布(OOD)问题; (2)一种有效的绳索恢复算法,该算法采用以“针驱动”的困惑为指导的进化搜索来解决训练问题不足; (3)一种混合的上下文窗口训练方法,该方法微调型 ...
0 0 0 2025/08/24 arXiv:2502.20082v1 ymx
经济学家和计算机科学家的注意,股票市场的价格运动预测一直是一个经典而又具有挑战性的问题。近年来,图形神经网络通过对公司关系进行深入学习,从而大大改善了预测性能。但是,现有的关系图通常是由手工制作的人类标签或自然语言处理构建的,这些手法构成了资源大量要求和较低准确性 ...
0 0 0 2025/08/24 arXiv:2305.08740v1 打笨蛋
扩散模型因其产生不仅具有视觉吸引力而且具有高艺术质量的图像的能力而被认可。结果,已经提出了布局到图像(L2i)生成,以利用特定区域的位置和描述,以使其更加精确,可控制。但是,以前的方法主要集中于基于UNET的模型(e ...
0 1 0 2025/08/24 arXiv:2412.03859v3 yisinoya
近似计算是一种有前途的方法,以提高深度神经网络处理中计算中的计算(CIM)系统的效率。但是,传统的近似技术通常会显着取得高度的能量效率的准确性,并且无法减少主内存和CIM银行之间的数据传输,从而占据了电力消耗。本文介绍了一种新型的概率近似计算(PAC)方法,该方法利用统计技术来近似乘数和积累(MAC)操作,与现有方法相比,近似误差减少了4倍 ...
0 0 0 2025/08/24 arXiv:2408.16246v1 wangjun
大型语言模型已成为有效的机器翻译系统。在本文中,我们探讨了如何使用相对较少产生的数据资源来改进通用指导调整的大语言模型。使用Slovene作为用例,我们使用直接偏好优化(DPO)培训在编程策划和增强的公共数据集子集上改进了GAMS-9B  - 教学模型 ...
0 0 0 2025/08/24 arXiv:2508.14951v1 ChenSF1998
有效利用私人数据集在开发基础模型方面仍然是一个重大挑战。 Federated Learning(FL)最近成为了一个协作框架,使多个用户可以在减轻数据隐私风险的同时微调这些模型。同时,通过大大减少可训练参数的数量,低级适应(LORA)为微调基础模型提供了资源有效的替代方案 ...
0 1 0 2025/08/24 arXiv:2505.13502v1 kk1943
事件提取(EE)通过微调从预训练的语言模型(PLM)中受益匪浅。但是,现有的训练方法不涉及建模事件特征,从而导致开发的EE模型无法充分利用大规模的无监督数据。为此,我们提出了Cleve,这是EE从大型无监督数据及其语义结构中更好地学习事件知识的对比前训练框架(e ...
0 0 0 2025/08/24 arXiv:2105.14485v1 BanXiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)