beaver的文档

beaver

个性签名 ...

LOT: A Story-Centric Benchmark for Evaluating Chinese Long Text Understanding and Generation

标准的多任务基准对于开发可以推广到各种下游任务的预训练模型至关重要。现有的自然语言处理（NLP）基准通常只关注理解或生成短文本。然而，长文本建模需要许多与短文本不同的能力，例如长距离话语和常识关系的建模，以及生成的连贯性和可控性 ...

0 0 0 0 2024/04/25 arXiv:2108.12960v2 beaver

MultiRocket: Multiple pooling operators and transformations for fast and effective time series classification

我们提出了 MultiRocket，这是一种快速时间序列分类 (TSC) 算法，可以用极少的时间实现最先进的性能，并且不需要许多最先进方法的复杂集成结构。 MultiRocket 在 MiniRocket 的基础上进行了改进，MiniRocket 是迄今为止最快的 TSC 算法之一，通过添加多个池化运算符和转换来提高生成特征的多样性。除了处理原始输入序列之外，MultiRocket 还应用一阶差分来转换原始序列 ...

0 0 0 0 2024/04/16 arXiv:2102.00457v4 beaver

ROCKET: Exceptionally fast and accurate time series classification using random convolutional kernels

大多数达到最先进精度的时间序列分类方法都具有很高的计算复杂性，即使对于较小的数据集也需要大量的训练时间，并且对于较大的数据集来说也很棘手。此外，许多现有方法专注于单一类型的特征，例如形状或频率。基于最近用于时间序列分类的卷积神经网络的成功，我们表明使用随机卷积核的简单线性分类器可以实现最先进的精度，而计算费用仅为现有方法的一小部分 ...

0 0 0 0 2024/04/16 arXiv:1910.13051v1 beaver

RULER: What's the Real Context Size of Your Long-Context Language Models?

大海捞针（NIAH）测试检查从长干扰文本（“大海捞针”）中检索一条信息（“针”）的能力，已被广泛用于评估长上下文语言模型（LM）。然而，这种简单的基于检索的测试仅表明长上下文理解的表面形式。为了对长上下文 LM 提供更全面的评估，我们创建了一个新的综合基准标尺，该标尺具有灵活的配置，可定制序列长度和任务复杂性 ...

0 0 0 0 2024/04/14 arXiv:2404.06654v1 beaver

A Closer Look at AUROC and AUPRC under Class Imbalance

在机器学习 (ML) 中，有一句广为流传的格言是，对于具有类别不平衡的二元分类任务，精确回忆曲线下面积 (AUPRC) 是模型比较的一个优越指标，优于接收者操作特征下面积 (AUROC)。本文通过新颖的数学分析挑战了这一概念，说明 AUROC 和 AUPRC 可以用概率术语简洁地关联起来。我们证明，与普遍看法相反，AUPRC 在类别不平衡的情况下并不优越，甚至可能是一个有害的指标，因为它倾向于过度支持在具有更频繁的积极标签的亚群中进行模型改进 ...

0 0 0 0 2024/04/10 arXiv:2401.06091v2 beaver

RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text

Transformer 的固定大小上下文使得 GPT 模型无法生成任意长的文本。在本文中，我们介绍了 RecurrentGPT，这是一种基于语言的 RNN 递归机制模拟。 RecurrentGPT 建立在 ChatGPT 等大型语言模型 (LLM) 的基础上，并使用自然语言来模拟 LSTM 中的长短期记忆机制 ...

0 0 0 0 2024/03/30 arXiv:2305.13304v1 beaver

Recursively Summarizing Books with Human Feedback

扩展机器学习的一个主要挑战是训练模型来执行人类评估非常困难或耗时的任务。我们在整个小说的抽象概括任务中提出了这个问题的进展。我们的方法将人类反馈的学习与递归任务分解相结合：我们使用在任务的较小部分上训练的模型来帮助人类就更广泛的任务提供反馈 ...

0 0 0 0 2024/03/30 arXiv:2109.10862v2 beaver

Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading

由于同时处理和比较所有标记的自注意力机制的有效性，大型语言模型（LLM）取得了长足的进步。然而，这种机制有一个根本性的问题——预定的上下文窗口必然是有限的。尽管尝试通过推断位置嵌入、使用递归或选择性检索长序列的基本部分等方法来扩展上下文窗口，但长文本理解仍然是一个挑战 ...

0 0 0 0 2024/03/30 arXiv:2310.05029v1 beaver

Retrieval meets Long Context Large Language Models

扩展大型语言模型 (LLM) 的上下文窗口最近越来越流行，而通过检索增强 LLM 的解决方案已经存在多年。自然的问题是：i）检索增强与长上下文窗口，哪一个更适合下游任务？ ii) 是否可以将这两种方法结合起来以获得两全其美的效果？在这项工作中，我们通过使用两个最先进的预训练 LLM 来研究这两种解决方案来回答这些问题，即 ...

0 0 0 0 2024/03/28 arXiv:2310.03025v2 beaver

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

尽管大型语言模型 (LLM) 在许多语言任务中表现出令人印象深刻的性能，但它们中的大多数只能处理几千个标记长的文本，限制了它们在较长序列输入（例如书籍、报告和代码库）上的应用。最近的工作提出了通过扩展上下文窗口和更复杂的记忆机制来提高 LLM 的长上下文能力的方法。然而，缺乏为评估长期上下文理解而定制的综合基准 ...

0 0 0 0 2024/03/27 arXiv:2308.14508v1 beaver