尽管时间变量很重要,但它在 NLP 和语言模型文献中基本上被忽视了。在本文中,我们提出了 TimeLM,这是一组专门研究历时 Twitter 数据的语言模型。我们表明,持续学习策略有助于增强基于 Twitter 的语言模型处理未来和未分发推文的能力,同时使其与标准化和更单一的基准相比具有竞争力 ...
0 0 0 2024/04/26 arXiv:2202.03829v2 deralnhund
两个有界线性算子 $A$ 和 $B$ 相对于范数 $\|\cdot\|$ 平行,如果 $\|A+\mu B\| = \|A\| + \|B\|$ 对于一些标量 $\mu$ 和 $|\mu| = 1 美元。获得双射线性映射的表征,将并行有界线性算子发送到相对于 Ky-Fan $k$-范数的并行有界线性算子 ...
0 0 0 2024/04/26 arXiv:2309.14357v1 still52
由于这些视觉数据中存在大量的局部冗余和复杂的全局依赖性,从图像和视频中学习判别性表示是一项具有挑战性的任务。卷积神经网络(CNN)和视觉变换器(ViT)是过去几年的两个主要框架。尽管 CNN 可以通过小邻域内的卷积有效地减少局部冗余,但有限的感受野使其难以捕获全局依赖性 ...
0 0 0 2024/04/26 arXiv:2201.09450v3 taotao1993
本文档描述了使用 Lucene Java 框架的 BM25 和 BM25F 实现。这两种模型都因其性能在 TREC 中脱颖而出,并被认为是 IR 社区中最先进的模型。 BM25 适用于“ad-hoc”检索,即不包含字段的文档,而 BM25F 适用于有结构的文档 ...
0 0 0 2024/04/26 arXiv:0911.5046v2 _xxt_
在这项工作中,我们研究了损失 Hessian 在许多分类任务中的演变,以了解损失曲率对训练动态的影响。虽然之前的工作重点关注不同的学习率如何影响训练期间观察到的 Hessian 损失,但我们还分析了模型初始化、架构选择和常见训练启发式(例如梯度裁剪和学习率预热)的影响。我们的结果表明,成功的模型和超参数选择允许早期优化轨迹避免或导航出高曲率区域并进入可容忍更高学习率的平坦区域 ...
0 0 0 2024/04/26 arXiv:2110.04369v1 huwenxing
车辆轨迹预测越来越依赖于数据驱动的解决方案,但它们扩展到不同数据域的能力以及较大数据集大小对其泛化的影响仍有待探索。虽然可以通过使用多个数据集来研究这些问题,但由于存在一些差异,因此具有挑战性 ...
0 0 0 2024/04/26 arXiv:2403.15098v2 jerome.zhou
编队飞行对于空中机器人群在各种应用中具有巨大的潜力。然而,现有方法缺乏在密集环境下实现完全自主的大规模编队飞行的能力。为了弥补这一差距,我们提出了一个完整的编队飞行系统,该系统可以有效地将现实世界的约束融入空中编队导航中 ...
0 0 0 2024/04/26 arXiv:2210.04048v2 qiufeiguye
尽管大型语言模型 (LLM) 在不同的应用程序中具有令人印象深刻的功能,但它们仍然存在可信度问题,例如幻觉和错位。检索增强语言模型(RAG)已被提出来通过基于外部知识来提高世代的可信度,但对其世代风险的理论理解仍有待探索。在本文中,我们回答:1)RAG 是否确实可以降低发电风险,2)如何为 RAG 和普通 LLM 的发电风险提供可证明的保证,3)什么充分条件使 RAG 模型能够降低发电风险 ...
0 0 0 2024/04/26 arXiv:2402.03181v3 云汐瑶

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)