大型语言模型(LLM)表现出了令人印象深刻的自然语言处理能力,但面临诸如幻觉和过时的知识之类的挑战。检索演出的一代(RAG)已成为减轻这些问题的最先进方法。尽管RAG增强了LLM输出,但它仍然容易受到中毒攻击的影响 ...
0 0 29 2025/04/27 arXiv:2504.03957v1 0x211
尽管机器学习研究的迅速增长,但相应的代码实施通常无法实现,这使研究人员重现结果并在先前的工作基础上进行劳动密集型。同时,最近的大型语言模型(LLMS)在了解科学文档并生成高质量代码方面表现出色。受此启发的启发,我们介绍了PaperCoder,这是一个多代理LLM框架,将机器学习论文转换为功能代码存储库 ...
0 0 0 2025/04/27 arXiv:2504.17192v1 sealaes
最近,剪辑在像素级零弹射段任务的域中发现了实用性。目前的景观以两阶段的方法为特征,这些方法被复杂的管道和计算成本提高等问题所吸引。尽管当前的一阶段方法可以减轻这些关注点,并将视觉及时培训(VPT)纳入夹具的概括能力,但它们仍然无法完全利用Clip的像素级别的未看到类别的类别划分和精确的像素预测的潜力 ...
0 0 0 2025/04/27 arXiv:2312.12754v2 Jht
具有自主机器人的气源定位(GSL)是许多潜在应用的问题,从发现管道泄漏到紧急响应方案。在这项工作中,我们提出了一种在现实的室内环境中执行GSL的新方法,具有障碍和动荡的流动。鉴于源位置与机器人可用的测量值之间的高度复杂关系(单点气体浓度和风向矢量),我们提出了一个观察模型,该观察模型来自于将任何候选源定位的在线实时模拟与从传感器读取构建的气体浓度构建的实时模拟 ...
0 0 0 2025/04/27 arXiv:2304.08879v3 cjjj.
一次性3d说话肖像生成旨在从看不见的图像中重建3d头像,然后使用参考视频或音频对其进行动画处理,以生成说话肖像视频。现有方法无法同时实现精确的3d头像重建和稳定的说话人脸动画的目标。此外,虽然现有的作品主要集中在合成头部,但生成自然的躯干和背景片段对于获得逼真的说话肖像视频也至关重要 ...
0 0 0 2025/04/27 arXiv:2401.08503v3 lllll
逐步验证器(也称为过程奖励模型(PRM))是测试时间缩放的关键要素。 PRM需要阶梯级监督,使其训练昂贵。这项工作旨在将数据效率的PRM构建为口头上的逐步奖励模型,这些模型通过生成验证链(COT)来验证解决方案中的每个步骤 ...
0 0 0 2025/04/27 arXiv:2504.16828v1 dm616703
视觉 Transformer (VIT)正在成为卷积神经网络(CNN)的替代品以进行视觉识别。他们通过CNN获得了竞争成果,但是缺乏典型的卷积感应偏见使它们比普通CNN更具数据渴望。它们通常在JFT-300M或至少ImageNet上估计,并且很少有数据培训培训培训 ...
0 0 0 2025/04/27 arXiv:2201.10728v1 link.yu
质量和多样性是大型语言模型(LLM)培训数据的两个关键指标,从而对性能产生积极影响。现有研究通常通过首先应用质量过滤然后调整数据比例来分别优化这些指标。但是,这些方法忽略了质量和多样性之间固有的权衡,因此需要共同考虑 ...
0 0 0 2025/04/27 arXiv:2504.16511v1 lalaxiao

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)