一译 —— 文档和论文翻译、对照阅读、讨论和社区

CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning

大型视觉模型（LVLM）的快速发展已驱动了多模式任务的重大进展，使模型能够解释，推理和在视觉和文本域中生成输出。尽管在生成任务方面出色，但现有的LVLM经常面临需要高保真表示学习的任务的局限性，例如生成图像或文本嵌入以进行检索。最近的工作提出了用于代表性学习的Finetuntuntuntuntuntuntun，但是由于代表性学习培训范式，微调模型经常失去其生成能力 ...

0 0 0 2025/08/25 arXiv:2503.19900v1 15775773518

Recipes for Pre-training LLMs with MXFP8

在预训练期间，使用较少的位来表示模型参数和相关张量已成为提高GPU效率而无需牺牲准确性的技术。 Nvidia Blackwell Generation GPU引入的显微镜（MX）格式代表了该技术的主要进步，这使得将狭窄的浮点数据类型与每块尺度缩放因子的粒度更细的粒度相结合是可行的。反过来，这既可以比以前的方法量化更多的张量，又可以对这些张量的操作更有效地执行 ...

0 0 0 2025/08/25 arXiv:2506.08027v2 odenkkk

Pointer Networks

我们引入了一种新的神经架构来学习输出序列的条件概率，其中的元素是与输入序列中的位置相对应的离散标记。此类问题无法通过序列到序列和神经图灵机等现有方法轻松解决，因为输出的每个步骤中的目标类数量取决于输入的长度，而输入的长度是可变的。诸如对可变大小序列进行排序的问题以及各种组合优化问题都属于此类... ...

0 0 0 2025/08/25 arXiv:1506.03134v2 mosymxl

Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs?

语言模型处理诸如书籍摘要之类的任务的越来越长的上下文，但这导致键值（KV）缓存的内存成本不断增长。许多先前的作品提出了从内存中丢弃KV的方法，但是它们的方法是根据有利的设置量身定制的，掩盖了高峰记忆和性能降解等警告，并且方法之间的公平比较很困难。在本文中，我们将 * kV足迹 *作为统一度量，既说明存储的KV条目及其寿命 ...

0 0 0 2025/08/25 arXiv:2506.17121v1 zhangbing1203

CRYSIM: Prediction of Symmetric Structures of Large Crystals with GPU-based Ising Machines

在材料科学中解决黑盒优化问题越来越普遍。但是，由于原子坐标的对称性不可知论编码，它们在晶体结构预测（CSP）上的应用仍然无效。我们介绍Crysim，这是一种编码空间群，Wyckoff位置组合以及独立原子位点的坐标的算法，作为单独的变量 ...

0 0 0 2025/08/25 arXiv:2504.06878v1 奔跑吧

BCAT: A Block Causal Transformer for PDE Foundation Models for Fluid Dynamics

我们介绍了BCAT，这是一种PDE基础模型，旨在为二维流体动力学问题的解决方案进行自回归预测。我们的方法使用区块因果 Transformer 体系结构来建模下一帧预测，利用先前的框架作为上下文先验，而不是仅依赖于图像生成方法中常用的子帧或基于像素的输入。该阻滞因果框架更有效地捕获了非线性时空动力学和物理现象中固有的空间依赖性 ...

0 0 0 2025/08/25 arXiv:2501.18972v2 nydtk

Representation_learning_A_review_and_new_perspectives

0 0 1 2025/08/25 YoshuaBengio

Empirical_Evaluation_of_Gated_Recurrent_Neural_Networks

0 0 1 2025/08/25 YoshuaBengio

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）