sealaes的文档

sealaes

sealaes

个性签名 ...

Forging Time Series with Language: A Large Language Model Approach to Synthetic Data Generation

SDFORGER是一种灵活，有效的框架，用于使用LLMS生成高质量的多元时间序列。 SDFORGER利用紧凑的数据表示，从几个样品中提供了合成时间序列的生成，并对任何自回旋LLM的低计算进行微型调整。具体而言，该框架将单变量和多变量信号转换为表格嵌入，然后将其编码为文本并用于微调LLM ...

0 0 0 0 2025/06/29 arXiv:2505.17103v1 sealaes

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

Trinity-RFT是一种通用，灵活且可扩展的框架，旨在加强大型语言模型的微调（RFT）。它是由脱钩的设计构建的，由（1）RFT核组成，该核核统一和概括了同步/异步，policy/policy/policy/off-policy以及RFT的在线/离线模式，（2）无缝整合，以使代理 - 环境互动以高效效率和稳健性以及（3）系统pipeliness ipline pipeliness ipline in floces-Environal互动。 Trinity-RFT可以轻松适应各种应用程序方案，并用作探索高级强化学习范式的统一平台 ...

0 0 0 0 2025/06/28 arXiv:2505.17826v1 sealaes

Data Shapley in One Training Run

数据Shapley提供了一个原则上的框架，用于将数据贡献归因于机器学习环境。但是，现有的方法需要对不同数据子集进行重新训练模型，这在计算密集型集中取消了其对大规模模型的应用。此外，它们为通过运行学习算法产生的任何模型产生相同的归因分数，这意味着他们无法对从算法的单个运行中获得的特定模型执行有针对性的归因 ...

0 0 0 0 2025/06/25 arXiv:2406.11011v3 sealaes

Reinforcement Learning with Non-Markovian Rewards

标准RL世界模型是马尔可夫决策过程（MDP）。 MDP的基本前提是奖励仅取决于最后一个状态和行动。然而，许多现实世界的奖励都是非马克维亚人 ...

0 0 0 0 2025/06/22 arXiv:1912.02552v1 sealaes

Reward Models in Deep Reinforcement Learning: A Survey

在加强学习（RL）中，代理人不断与环境相互作用，并使用反馈来完善其行为。为了指导策略优化，将奖励模型作为所需目标的代理引入，以便当代理最大化累积的奖励时，它也满足了任务设计师的意图。最近，学术研究人员和工业研究人员的重大关注都集中在开发奖励模型上，这些奖励模型不仅与真正的目标紧密相符，而且还促进了政策优化 ...

0 0 0 0 2025/06/21 arXiv:2506.15421v1 sealaes

Sufficient Context: A New Lens on Retrieval Augmented Generation Systems

通过上下文增强LLM会导致许多应用程序的性能提高。尽管对检索增强产生（RAG）系统的研究很多，但一个空旷的问题是，由于LLMS未能从检索中使用上下文或上下文本身不足以回答查询，因此是否出现错误。为了阐明这一点，我们开发了一个新的有足够上下文的概念，以及一种对实例进行分类的方法，这些实例有足够的信息来回答查询 ...

0 0 0 0 2025/06/18 arXiv:2411.06037v3 sealaes

LLM Inference Enhanced by External Knowledge: A Survey

大型语言模型（LLM）的最新进展增强了自然语言推理。但是，它们有限的参数记忆和对幻觉的敏感性对需要准确的，基于上下文的推论的任务持续挑战。为了克服这些局限性，越来越多的研究提出了利用外部知识来增强LLM的研究 ...

0 0 0 0 2025/06/03 arXiv:2505.24377v1 sealaes

DataRater: Meta-Learned Dataset Curation

基础模型的质量在很大程度上取决于他们的培训数据。因此，已经付出了巨大的努力。然而，大多数方法都依赖于大量数据的粗粒混合物的手动调整，或者通过手工制作的启发式方法进行过滤 ...

0 0 0 0 2025/05/28 arXiv:2505.17895v1 sealaes

AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning

大型语言模型（LLM）表现出了非凡的功能，但经常在需要复杂推理的任务上面临挑战。虽然经过思考链（COT）促使推理显着增强了推理，但它不加选择地为所有查询产生了冗长的推理步骤，从而导致了实质性的计算成本和效率低下，尤其是对于简单的输入而言。为了解决这个关键问题，我们引入了ADACOT（自适应链），这是一个新颖的框架，使LLMS能够自适应地决定何时调用COT ...

0 0 0 0 2025/05/26 arXiv:2505.11896v1 sealaes

Local Prompt Optimization

近年来，提示指导大语模型的输出的使用已大大增加。但是，即使是最好的专家也很难选择正确的单词来缝制所需任务的提示。为了解决这个问题，LLM驱动的提示优化是一个重要的问题 ...

0 0 0 0 2025/05/01 arXiv:2504.20355v1 sealaes

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）

0%

上传成功 0 个文件