本文介绍了Augraphy,这是一个用于构建数据增强管道的Python库,这些库会产生在现实世界文档图像数据集中常见的扭曲。 Augraphy除了提供许多不同的策略来产生增强版本的清洁文档图像,这些策略看起来像是通过标准办公室操作所改变的,例如打印,扫描和通过旧机器或肮脏的机器,墨水降低,随着时间的推移和手写标记,它们似乎已被标准的办公室操作(例如打印,扫描和传真),以及诸如标准办公室操作(例如打 ...
持续学习旨在逐步获得数据流中的新概念,同时抵制忘记以前的知识。随着强大的预训练模型(PTM)的兴起,使用这些基础模型而不是从头开始学习的培训增量学习系统越来越兴趣。现有的作品通常将PTM视为强的初始点,并在第一个会话中直接应用参数效率调整(PET)以适应下游任务 ...
大型语言模型(LLM)的最新进步将它们定位为临床决策的强大工具,并在医疗保健中迅速扩展了应用。但是,对偏见的担忧仍然是LLM临床实施的重大挑战,尤其是在性别和种族方面。这项研究调查了适用于复杂临床病例的LLM中偏见的评估和缓解,重点是性别和种族偏见 ...
当提示语言模型完成任务时,用户通常会忽略重要的方面。虽然提出问题可以解决这种歧义(GATE;Li 等人,2023),但模型通常很难提出好的问题 ...
多模式的大语言模型(MLLM)在不同的应用程序中表现出了出色的性能。但是,他们在部署期间的计算开销仍然是关键的瓶颈。键值(KV)缓存有效地将内存进行计算以提高推理效率,而广泛的KV caches的记忆足迹大大减少了吞吐量,并限制了对内存约束的GPU设备的延长部署 ...
视频发电的最新进展已经取得了重大进展,尤其是随着扩散模型的快速发展。尽管如此,他们在身体认知方面的缺陷逐渐受到了广泛的关注 - 产生的内容通常违反了物理的基本定律,陷入了“视觉现实主义但身体荒谬的困境”。研究人员开始越来越多地认识到身体忠诚度在视频中的重要性,并试图将透视性的物理认知与动态认识进行仿制成真模型,以使人的态度进行了仿制,以使人的态度进行了仿制,以使其成为仿制物质的仿制物质 ...
接受大量未标记数据培训的语言模型(LMS)已大大推进了自然语言处理领域(NLP)。在这项研究中,我们重新探讨了NLP中广泛接受的概念,该概念继续对与任务相关的文本进行预训练LMS,可改善下游任务中微调(FT)的性能。通过在半监督和完全监督的设置中对八个单一句子任务和八个句子对任务进行实验,我们发现传统的持续持续预训练不会始终如一地提供好处,甚至可能对句子对任务或使用及时的FT有害 ...
我们提出RWKV-7“ Goose”,这是一种新的序列建模架构,具有恒定的内存使用和每个 Token 的恒定推理时间。尽管接受了比其他顶级模型的训练,但我们的29亿个参数语言模型在多语言任务上获得了新的3B SOTA,并匹配了当前有关英语下游性能的3B SOTA ...