huwenxing的文档

huwenxing

个性签名 ...

Feature Learning in Infinite-Width Neural Networks

由于其宽度趋于无穷大，如果适当地参数化（例如，由神经正切核（NTK）给出），深度神经网络在梯度下降下的行为可以变得简化和可预测（例如，由神经正切核（NTK）给出） ...

0 0 0 0 2024/04/28 arXiv:2011.14522v3 huwenxing

A Loss Curvature Perspective on Training Instability in Deep Learning

在这项工作中，我们研究了损失 Hessian 在许多分类任务中的演变，以了解损失曲率对训练动态的影响。虽然之前的工作重点关注不同的学习率如何影响训练期间观察到的 Hessian 损失，但我们还分析了模型初始化、架构选择和常见训练启发式（例如梯度裁剪和学习率预热）的影响。我们的结果表明，成功的模型和超参数选择允许早期优化轨迹避免或导航出高曲率区域并进入可容忍更高学习率的平坦区域 ...

0 0 0 0 2024/04/26 arXiv:2110.04369v1 huwenxing

Efficient Online Data Mixing For Language Model Pre-Training

用于预训练大型语言模型的数据对模型的下游性能具有决定性影响，这导致了数据选择方法的大量工作，旨在自动确定最适合用于预训练的数据。现有的数据选择方法存在过程缓慢且计算成本高昂的问题，随着模型和预训练数据集大小的增加，这个问题变得更加严重。另一方面，数据混合通过将数据点分组在一起并确定整个组的采样概率来降低数据选择的复杂性 ...

0 0 0 0 2024/04/26 arXiv:2312.02406v2 huwenxing

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

我们推出了 phi-3-mini，这是一个在 3.3 万亿个 Token 上训练的 38 亿参数语言模型，根据学术基准和内部测试衡量，其整体性能可与 Mixtral 8x7B 和 GPT-3 等模型相媲美 ...

0 0 0 0 2024/04/23 arXiv:2404.14219v1 huwenxing

On Grounded Planning for Embodied Tasks with Language Models

语言模型（LM）已经证明了它们拥有物理世界常识知识的能力，这是执行日常生活任务的一个重要方面。然而，目前尚不清楚**LM是否有能力为具体任务生成扎实的可执行计划。**这是一项具有挑战性的任务，因为LM缺乏通过视觉和物理环境反馈来感知环境的能力 ...

0 0 0 0 2024/04/19 arXiv:2209.00465v3 huwenxing

Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster

我们研究最新的研究进展，通过有效的预训练和扩展以及开放数据集和工具来改进大型语言模型。我们结合这些进步推出了 Cerebras-GPT，这是一系列开放式计算最优语言模型，参数范围从 111M 扩展到 13B。我们按照 DeepMind Chinchilla 缩放规则在 Eleuther Pile 数据集上训练 Cerebras-GPT 模型，以实现高效的预训练（给定计算预算的最高准确度） ...

0 0 0 0 2024/04/16 arXiv:2304.03208v1 huwenxing

Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks

通过对无限宽度神经网络进行分类并确定*最佳*限制，张量程序 IV 和 V 展示了一种通用方法，称为 $\mu$P，用于*宽度方向超参数传输*，即从窄神经网络预测宽神经网络的最佳超参数那些 ...

0 0 0 0 2024/04/16 arXiv:2310.02244v5 huwenxing

Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models

与密集模型相比，专家混合 (MoE) 语言模型可以将计算成本降低 2-4$\times$，而不会牺牲性能，从而使其在计算受限的场景中更加高效。然而，MoE 模型通常需要 2-4$\times$ 倍的参数才能实现与密集模型相当的性能，这会带来更大的 GPU 内存需求，并使 MoE 模型在自回归生成等 I/O 受限场景中效率较低。在这项工作中，我们提出了一种用于 MoE 模型的混合密集训练和稀疏推理框架（DS-MoE），该框架通过在训练期间对所有专家采用密集计算和在推理期间采用稀疏计算来实现强大的计算和参数效率 ...

0 0 0 0 2024/04/09 arXiv:2404.05567v1 huwenxing

Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding

自然语言处理 (NLP) 的最新进展很大程度上归功于 BERT 和 RoBERTa 等预训练语言模型的出现。虽然这些模型在一般数据集上表现出卓越的性能，但它们在医学等专业领域可能会遇到困难，在这些领域，独特的特定领域术语、特定领域缩写和不同的文档结构很常见。本文探讨了使这些模型适应特定领域要求的策略，主要是通过对特定领域数据进行持续预训练 ...

0 0 0 0 2024/04/09 arXiv:2404.05694v1 huwenxing

Robust Preference Optimization with Provable Noise Tolerance for LLMs

偏好对齐旨在使大型语言模型（LLM）能够生成符合人类价值观的响应，这对于开发通用人工智能系统至关重要。基于排名的方法（一类有前途的对齐方法）通过优化首选和不首选响应之间的对数似然裕度，从包含响应对的数据集中学习人类偏好。然而，由于注释者偏好的固有差异，响应对比较的排名标签不可避免地存在噪音 ...

0 0 0 0 2024/04/09 arXiv:2404.04102v1 huwenxing