mosymxl的文档

mosymxl

个性签名 ...

Multi-Scale Context Aggregation by Dilated Convolutions

最先进的语义分割模型基于最初为图像分类而设计的卷积网络的改编。然而，密集预测和图像分类在结构上是不同的。在这项工作中，我们开发了一种新的卷积网络模块，专为密集预测而设计 ...

0 0 0 0 2024/06/15 arXiv:1511.07122v3 mosymxl

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism

扩展深度限制神经网络容量被认为是提高多种不同机器学习任务模型质量的有效方法。在许多情况下，将模型容量提高到超出单个加速器的内存容量需要开发特殊的算法或基础设施。这些解决方案通常是于特定的体系结构的，并且不会转移到其他任务... ...

0 0 0 0 2024/12/25 arXiv:1811.06965v5 mosymxl

Order Matters: Sequence to sequence for sets

由于循环神经网络的复兴，序列已成为监督学习中的一等公民。现在可以使用序列到序列 (seq2seq) 框架来制定许多需要从观察序列进行映射或映射到观察序列的复杂任务，该框架采用链式法则来有效表示序列的联合概率。然而，在许多情况下，可变大小的输入和/或输出可能不会自然地表达为序列 ...

0 0 1 1 2024/06/15 arXiv:1511.06391v4 mosymxl

Pointer Networks

我们引入了一种新的神经架构来学习输出序列的条件概率，其中的元素是与输入序列中的位置相对应的离散标记。此类问题无法通过序列到序列和神经图灵机等现有方法轻松解决，因为输出的每个步骤中的目标类数量取决于输入的长度，而输入的长度是可变的。诸如对可变大小序列进行排序的问题以及各种组合优化问题都属于此类... ...

0 0 0 0 2025/08/25 arXiv:1506.03134v2 mosymxl

Recurrent Neural Network Regularization

我们提出了一种用于具有长短期记忆 (LSTM) 单元的循环神经网络 (RNN) 的简单正则化技术。 Dropout 是最成功的神经网络正则化技术，但它不适用于 RNN 和 LSTM。在本文中，我们展示了如何正确地将 dropout 应用于 LSTM，并证明它可以大大减少各种任务的过度拟合 ...

0 0 0 0 2024/06/15 arXiv:1409.2329v5 mosymxl

Discovering Preference Optimization Algorithms with and for Large Language Models

离线偏好优化是增强和控制大语言模型（LLM）输出质量的关键方法。通常，偏好优化被视为使用手动设计的凸损失函数的离线监督学习任务。虽然这些方法基于理论见解，但它们本质上受到人类创造力的限制，因此可能的损失函数的巨大搜索空间仍在探索中 ...

0 0 0 0 2024/06/15 arXiv:2406.08414v1 mosymxl

Jina CLIP: Your CLIP Model Is Also Your Text Retriever

对比语言图像预训练 (CLIP) 广泛用于训练模型，通过将图像和文本映射到固定大小的向量，在公共嵌入空间中对齐图像和文本。这些模型是多模式信息检索和相关任务的关键。然而，与专门的文本模型相比，CLIP 模型在纯文本任务中通常表现不佳 ...

0 0 0 0 2024/06/14 arXiv:2405.20204v1 mosymxl

Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models

虽然大型语言模型 (LLM) 在一系列决策任务中表现出了令人印象深刻的性能，但它们依赖于简单的执行过程，无法作为自主代理进行广泛部署。我们引入 LATS（语言代理树搜索），这是一个通用框架，可以协同 LLM 在规划、行动和推理方面的能力。受到基于模型的强化学习中蒙特卡罗树搜索的启发，LATS 采用 LLM 作为代理、价值函数和优化器，重新利用其潜在优势来增强决策能力 ...

0 1 0 0 2024/10/10 arXiv:2310.04406v3 mosymxl

Ask-EDA: A Design Assistant Empowered by LLM, Hybrid RAG and Abbreviation De-hallucination

电子设计工程师面临着为设计构建、验证和技术开发中的众多任务有效地找到相关信息的挑战。大型语言模型 (LLM) 有潜力通过充当有效充当主题专家的对话代理来帮助提高生产力。在本文中，我们演示了 Ask-EDA，这是一个聊天代理，旨在充当 24x7 专家，为设计工程师提供指导 ...

0 0 0 0 2024/06/14 arXiv:2406.06575v1 mosymxl

Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Model

启发式方法广泛用于处理复杂的搜索和优化问题。然而，启发式的手工设计通常非常费力，并且需要丰富的工作经验和知识。论文提出启发式进化（EoH），这是一种新颖的进化范式，利用大型语言模型（LLM）和进化计算（EC）方法进行自动启发式设计（AHD）... ...

0 0 0 0 2025/01/10 arXiv:2401.02051v3 mosymxl