一译 —— 文档和论文翻译、对照阅读、讨论和社区

An Explanation of In-context Learning as Implicit Bayesian Inference

gpt-3等大型语言模型（lm）具有惊人的上下文学习能力，lm从这些示例中学习，而无需明确地进行学习预训练。因此，尚不清楚什么能够实现情境学习... ...

0 0 0 2025/04/14 arXiv:2111.02080v6 rayjue

Moment Matching for Multi-Source Domain Adaptation

常规的无监督域适应性（UDA）假定训练数据是从单个域中采样的。这忽略了从多个来源收集培训数据的更实际的方案，需要多源域的适应性。我们为解决这个问题做出了三个主要贡献 ...

0 0 0 2025/04/14 arXiv:1812.01754v4 15966829631

AIBrix: Towards Scalable, Cost-Effective Large Language Model Inference Infrastructure

我们介绍了Aibrix，这是一种云原生，开源框架，旨在优化和简化云环境中的大规模LLM部署。与传统的云本地堆栈不同，Aibrix遵循共同设计的理念，确保基础架构的每一层都是专门建立的，可与Vllm这样的推理引擎无缝集成。 Aibrix引入了几项关键创新，以降低推理成本并提高性能，包括用于动态适配器调度的高密度LORA管理，LLM特定的自动制剂以及前缀感知，负载感知的路由 ...

0 0 0 2025/04/14 arXiv:2504.03648v1 Extious

UBAR: Towards Fully End-to-End Task-Oriented Dialog Systems with GPT-2

本文介绍了我们的面向任务的对话系统ubar，它在对话会话级别上对面向任务的对话进行建模。具体来说，ubar是通过对大型预训练单向语言模型gpt-2对整个对话会话的序列进行微调获得的，整个对话会话由每个对话的用户话语、信念状态、数据库结果、系统行为和系统响应组成转动。此外，ubar在更现实的环境中进行评估，其中其对话上下文可以访问用户话语及其生成的所有内容，例如信念状态、系统行为和系统响应 ...  ...

0 0 0 2025/04/14 arXiv:2012.03539v2 chengl

Mixture-of-Experts Graph Transformers for Interpretable Particle Collision Detection

CERN的大型强子对撞机产生了来自高能粒子碰撞的大量复杂数据，要求需要复杂的分析技术来有效解释。神经网络（包括图形神经网络）通过表示碰撞作为图表，在事件分类和对象识别等任务中显示了有希望。但是，尽管图形神经网络的预测精度表现出色，但它们的“黑匣子”性质通常会限制其解释性，因此很难相信他们的决策过程 ...

0 0 0 2025/04/14 arXiv:2501.03432v2 QingXiang

MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation

预训练的语言模型已在各种自然语言处理任务中表现出卓越的性能。但是，这些模型通常包含数亿个参数，这限制了它们的实用性，因为实际应用程序中的延迟要求。现有方法通过知识蒸馏训练小型压缩模型 ...

0 0 0 2025/04/14 arXiv:2204.07675v2 kkkrd

Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning

现有的微调方法要么调整预训练模型的所有参数（完整的微调），该参数效率不高，要么仅调节最后一个线性层（线性探测），与完整的微调相比，它的精度下降了明显的准确性下降。在本文中，我们提出了一种称为SSF的新参数有效的微调方法，表示研究人员只需要扩展和移动由预训练的模型提取的深度特征即可赶上完整微调的性能。这样，即使使用较少数量的可调参数，SSF也出奇地优于其他参数有效的微调方法 ...

0 0 0 2025/04/14 arXiv:2210.08823v3 19396386025

Nerfies: Deformable Neural Radiance Fields

我们提出了第一种能够使用手机随便捕获的照片/视频来重建可变形场景的方法。我们的方法通过优化一个额外的连续体积变形场来增强神经辐射场（NERF），从而扭曲每个观察到的点到一个规范的5D NERF中。我们观察到这些类似NERF的变形场容易容易局部最小值，并为基于坐标的模型提出了一种粗到1的优化方法，该方法允许进行更强大的优化 ...

0 0 0 2025/04/14 arXiv:2011.12948v5 zack_zhangzh

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）