huiyeruzhou的文档

huiyeruzhou

个性签名 ...

Diffusion Glancing Transformer for Parallel Sequence to Sequence Learning

以前，由于对多种目标模式进行建模的困难，非自动入学模型被广泛认为是发电效率优越，而发电质量较低。为了增强多模式建模能力，我们提出了扩散扫射 Transformer ，该 Transformer 采用了模态扩散过程和残留的瞥见采样。模态扩散过程是一个离散的过程，可沿解码步骤插值多模式分布，而残留的瞥见采样方法指导模型不断学习整个层之间的剩余方式 ...

0 0 0 0 2025/02/17 arXiv:2212.10240v2 huiyeruzhou

Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

最近，诸如o1之类的慢速思维推理系统在解决复杂推理任务方面表现出了非凡的能力。这些系统通常在响应查询之前进行扩展的思考过程，从而使它们能够生成更彻底、准确和合理的解决方案。这些系统主要由业界开发和维护，其核心技术并未公开披露 ...

0 0 0 0 2024/12/25 arXiv:2412.09413v2 huiyeruzhou

The Llama 3 Herd of Models

现代人工智能 (AI) 系统由基础模型提供支持。本文提出了一组新的基础模型，称为 Llama 3。它是一组原生支持多语言、编码、推理和工具使用的语言模型 ...

0 1 1 8 2024/12/11 arXiv:2407.21783v3 huiyeruzhou

Deep generative selection models of T and B cell receptor repertoires with soNNia

淋巴细胞的亚类具有不同的功能作用，它们共同作用以产生免疫反应和持久的免疫力。除了这些功能之外，T 细胞和 B 细胞淋巴细胞还依赖其受体链的多样性来识别不同的病原体。淋巴细胞亚类来自于在选择过程中具有相同多样性受体的共同祖先 ...

0 0 0 0 2024/10/31 arXiv:2011.03112v2 huiyeruzhou

ToolChain: Efficient Action Space Navigation in Large Language Models with A Search

大型语言模型（LLM）在解决复杂的现实问题方面表现出了强大的决策和规划能力。基于 LLM 的自主代理可以与多种工具交互（例如 ...

0 0 0 0 2024/10/30 arXiv:2310.13227v1 huiyeruzhou

Scaling laws for single-agent reinforcement learning

最近的工作表明，在生成建模中，交叉熵损失随着模型大小和训练计算的增加而平滑改善，遵循幂律加常数缩放律。将这些结果扩展到强化学习的一个挑战是，感兴趣的主要性能目标（平均情节回报）不需要平滑变化。为了克服这个问题，我们引入了“内在性能”，这是一个回报的单调函数，定义为在一系列不同规模的模型中实现给定回报所需的最小计算量 ...

0 0 0 0 2024/10/28 arXiv:2301.13442v2 huiyeruzhou

Phasic Policy Gradient

我们引入了阶段策略梯度（PPG），这是一种强化学习框架，它通过将策略和价值函数训练分为不同的阶段来修改传统的策略行为者批评家方法。在现有方法中，必须在使用共享网络或单独网络来表示策略和价值函数之间进行选择。使用单独的网络可以避免目标之间的干扰，而使用共享网络可以共享有用的功能 ...

0 0 0 0 2024/10/28 arXiv:2009.04416v1 huiyeruzhou

Conterfactual Generative Zero-Shot Semantic Segmentation

零样本学习是计算机视觉的重要组成部分。作为经典的下游任务，零样本语义分割因其应用价值而受到研究。流行的零样本语义分割方法之一是基于生成模型的，大多数新提出的作品在同一架构上添加了结构以增强该模型 ...

0 0 0 0 2024/08/24 arXiv:2106.06360v1 huiyeruzhou

Large Language Models Prompting With Episodic Memory

提示优化对于增强大型语言模型 (LLM) 在一系列自然语言处理 (NLP) 任务中的性能至关重要，特别是在训练示例直接合并到提示中的小样本学习场景中。尽管人们对通过少量示例优化提示越来越感兴趣，但现有的提示优化方法通常是资源密集型的或性能不足。在这项工作中，我们提出了Prompting with Episodic Memory（POEM），这是一种简单、高效且具有强大泛化能力的新型提示优化技术 ...

0 0 0 0 2024/08/15 arXiv:2408.07465v1 huiyeruzhou

Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training

最近的工作，如思想树（ToT）和规划推理（RAP），旨在通过使用树搜索算法指导多步推理来增强LLM的推理能力。这些方法依赖于提示预训练模型作为价值函数并关注于低因此，这些方法不足以用于预训练的LLM没有足够的知识来承担有效价值函数的领域或需要长期规划的领域... ...

0 0 1 18 2024/10/23 arXiv:2309.17179v2 huiyeruzhou