huwenxing的文档

huwenxing

个性签名 ...

Robust Preference Optimization with Provable Noise Tolerance for LLMs

偏好对齐旨在使大型语言模型（LLM）能够生成符合人类价值观的响应，这对于开发通用人工智能系统至关重要。基于排名的方法（一类有前途的对齐方法）通过优化首选和不首选响应之间的对数似然裕度，从包含响应对的数据集中学习人类偏好。然而，由于注释者偏好的固有差异，响应对比较的排名标签不可避免地存在噪音 ...

0 0 0 0 2024/04/09 arXiv:2404.04102v1 huwenxing

LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation

低秩适应（LoRA）为每一层引入辅助参数，以在有限的计算资源下微调预训练的模型。但在扩展到更大的模型时，它仍然面临资源消耗的挑战。先前的研究通过评估不同层的 LoRA 参数的重要性来采用剪枝技术来解决该问题 ...

0 0 0 0 2024/04/09 arXiv:2402.07721v1 huwenxing

Scaling Instruction-Finetuned Language Models

事实证明，在以指令形式表达的数据集集合上微调语言模型可以提高模型性能和对未见过的任务的泛化。在本文中，我们探索指令微调，特别关注（1）缩放任务数量，（2）缩放模型大小，以及（3）思想链数据的微调。我们发现，上述方面的指令微调极大地提高了各种模型类（PaLM、T5、U-PaLM）、提示设置（零样本、少样本、CoT）和评估基准（MMLU、BBH、 TyDiQA、MGSM、开放式生成） ...

0 0 0 0 2024/04/03 arXiv:2210.11416v5 huwenxing

Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order

预训练的语言模型支撑着多种人工智能应用程序，但其训练的高计算成本限制了可访问性。 BLOOM 和 StarCoder 等举措旨在使预训练模型的访问民主化，以促进协作社区开发。然而，此类现有模型面临着挑战：多语言能力有限、持续预训练会导致灾难性遗忘，而从头开始预训练的计算成本很高，并且需要遵守人工智能安全和开发法律 ...

0 0 0 0 2024/04/03 arXiv:2404.00399v1 huwenxing

Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization

对齐大型语言模型 (LLM) 的常用技术依赖于通过比较固定上下文条件下的多个代来获取人类偏好。当各代被放置在相同的上下文中时，这仅利用成对比较。然而，这种有条件的排名往往无法捕捉人类偏好的复杂和多维方面 ...

0 0 0 0 2024/04/03 arXiv:2404.00530v1 huwenxing

FLawN-T5: An Empirical Examination of Effective Instruction-Tuning Data Mixtures for Legal Reasoning

指令调优是使语言模型可用于直接用户交互的重要一步。然而，对于大多数开放式 LLM 来说，许多法律任务仍然遥不可及，而且该领域尚不存在任何大规模的教学数据集。这严重限制了该应用领域的研究 ...

0 0 0 0 2024/04/03 arXiv:2404.02127v1 huwenxing

Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation

大型语言模型 (LLM) 正在成为增强基于会话的推荐 (SBR) 的有前景的方法，其中基于提示和基于微调的方法都已得到广泛研究，以使 LLM 与 SBR 保持一致。然而，由于缺乏特定于任务的反馈，以前的方法难以获得最佳提示来引出 LLM 的正确推理，从而导致推荐不令人满意。尽管后一种方法试图用特定领域的知识来微调 LLM ，但它们面临着计算成本高和对开源主干的依赖等限制 ...

0 0 0 0 2024/03/29 arXiv:2403.16427v3 huwenxing