大型语言模型(LLM)表现出不断提高的多语言能力,甚至小型开源模型也表现出快速的性能增强。在本文中,我们系统地探索了参数少于百亿的开放式 LLM 处理多语言机器翻译(MT)任务的能力。我们对六种热门的 LLM 进行了综合评估,发现像 Gemma2-9B 这样的模型表现出了令人印象深刻的多语言翻译能力。然后,我们在持续预训练阶段引入并行第一单语第二(PFMS)数据混合策略,以进一步增强机器翻译性能,并提出 GemmaX2-28,这是一个在 28 种语言中实现顶级多语言翻译性能的 9B 模型。具体来说,GemmaX2-28 始终优于 TowerInstruct 和 XALMA 等最先进 (SOTA) 模型,并实现了与 Google Translate 和 GPT-4-turbo 竞争的性能 ...
基于粒子的辐射场表示(例如 3D 高斯分布)在复杂场景的重建和重新渲染方面取得了巨大成功。大多数现有方法通过光栅化渲染粒子,将它们投影到屏幕空间图块以按排序顺序进行处理。相反,这项工作考虑对粒子进行光线追踪,构建包围体层次结构,并使用高性能 GPU 光线追踪硬件为每个像素投射光线。为了有效地处理大量半透明粒子,我们描述了一种专门的渲染算法,该算法将粒子与边界网格封装在一起,以利用快速光线-三角形相交,并按深度顺序对批量相交进行着色。光线追踪的好处在计算机图形学中众所周知:处理不相干光线以获得二次照明效果(例如阴影和反射)、从机器人技术中常见的高度扭曲相机进行渲染、随机采样光线等等。使用我们的渲染器,与光栅化相比,这种灵活性的成本很低。实验证明了我们方法的速度和准确性,以及计算机图形和视觉领域的一些应用。我们进一步提出了对基本高斯表示的相关改进,包括简单使用广义核函数,从而显着减少粒子命中计数 ...
长期记忆使大型语言模型 (LLM) 代理能够支持个性化和持续的交互。然而,大多数关于个性化代理的工作都优先考虑实用性和用户体验,将内存视为中立的组成部分,并在很大程度上忽视了其安全影响。在本文中,我们揭示了意图合法化,这是个性化代理中先前未充分研究的安全故障,其中良性的个人记忆会偏差意图推断,并导致模型将固有有害的查询合法化。为了研究这一现象,我们引入了 PS-Bench,这是一个旨在识别和量化个性化交互中意图合法性的基准。在多个内存增强代理框架和基础 LLM 中,相对于无状态基线,个性化将攻击成功率提高了 15.8%-243.7%。我们进一步从内部表示空间为意图合法化提供了机械证据,并提出了一种轻量级的检测反射方法,可以有效减少安全退化。总的来说,我们的工作首次系统地探索和评估了意图合法性作为一种安全失败模式,这种模式自然产生于良性的、现实世界的个性化,强调了在长期个人背景下评估安全的重要性。警告:本文可能包含有害内容 ...
在敏感数据集上微调大型语言模型 (LLM) 会带来意外记忆和个人身份信息 (PII) 泄露的巨大风险,这可能违反隐私法规并危及个人安全。在这项工作中,我们系统地调查了一个关键且尚未充分探索的漏洞:仅出现在模型输入中而不是训练目标中的 PII 暴露。使用合成数据集和真实数据集,我们设计了受控提取探针来量化无意的 PII 记忆,并研究语言、PII 频率、任务类型和模型大小等因素如何影响记忆行为。我们进一步对四种隐私保护方法进行基准测试,包括差异隐私、机器遗忘、正则化和偏好对齐,评估它们在隐私和任务性能之间的权衡。我们的结果表明,训练后方法通常提供更一致的隐私-效用权衡,而差分隐私在特定设置中实现了泄漏的大幅减少,尽管它可能会引入训练不稳定。这些发现凸显了经过微调的 LLM 在记忆方面面临的持续挑战,并强调需要强大、可扩展的隐私保护技术 ...
人工智能代理的兴起带来了由于自主工具使用和环境交互而产生的复杂的安全挑战。目前的护栏模型缺乏主体风险意识和风险诊断的透明度。为了引入涵盖复杂且众多风险行为的代理护栏,我们首先提出了一个统一的三维分类法,该分类法根据代理风险的来源(何处)、故障模式(如何)和后果(什么)对代理风险进行正交分类。在这种结构化和分层分类法的指导下,我们引入了新的细粒度代理安全基准(ATBench)和用于代理安全和保障的诊断护栏框架(AgentDoG)。 AgentDoG 提供跨代理轨迹的细粒度和上下文监控。更重要的是,AgentDoG 可以诊断不安全操作和看似安全但不合理的操作的根本原因,提供超越二进制标签的来源和透明度,以促进有效的代理对齐。 AgentDoG 变体在 Qwen 和 Llama 模型系列中提供三种尺寸(4B、7B 和 8B 参数)。大量的实验结果表明,AgentDoG 在各种复杂的交互场景中在代理安全调节方面实现了最先进的性能。所有模型和数据集均公开发布 ...
代理任务需要通过自主、工具使用和自适应推理来解决多步骤问题,对于 NLP 和人工智能的进步越来越重要。然而,现有的指令数据缺乏工具交互,并且当前的代理基准依赖于昂贵的人工注释,限制了其可扩展性。我们引入了 \textsc{TaskCraft},这是一种自动化工作流程,用于生成具有执行轨迹的难度可扩展、多工具和可验证的代理任务。 TaskCraft 使用基于深度和基于宽度的扩展来扩展原子任务,以创建结构和层次上的复杂挑战。实证结果表明,这些任务提高了生成工作流程的及时优化,并增强了代理基础模型的监督微调。我们提出了一个包含大约 36,000 个具有不同难度的任务的大规模合成数据集,以支持未来对代理调整和评估的研究 ...
由于标记样本有限和土地覆盖类型的高度可变性,少镜头遥感图像分类具有挑战性。我们提出了一种重建引导的少镜头网络(RGFS-Net),它增强了对未见类别的泛化,同时保持了已见类别的一致性。我们的方法结合了掩模图像重建任务,其中部分输入被遮挡并重建,以鼓励语义丰富的特征学习。这项辅助任务增强了空间理解并改善了低数据设置下的阶级歧视。我们评估了 EuroSAT 和 PatternNet 数据集在 1-shot 和 5-shot 协议下的功效,我们的方法始终优于现有基线。所提出的方法简单、有效且与标准主干网兼容,为少样本遥感分类提供了稳健的解决方案。代码可从此 https URL 获取 ...
时空(ST)学习已成为实现智慧城市和可持续城市发展的关键技术。当前的 ST 学习模型通过各种空间卷积和时间演化块来捕获异质性。然而,快速的城市化导致城市数据和城市结构在短期内分布波动,导致现有方法面临泛化和数据适应性问题。尽管付出了努力,现有的方法仍无法处理新到达的观测结果,并且那些具有泛化能力的方法在重复训练中受到限制。受神经科学互补学习的推动,我们引入了一种名为 ComS2T 的基于提示的互补时空学习,以增强数据适应模型的进化。 ComS2T 将神经架构划分为用于巩固历史记忆的稳定新皮质和用于新知识更新的动态海马体。我们首先将两个不相交的结构分解为稳定和动态的权重,然后通过表征主要观测值的分布来训练空间和时间提示,以使提示能够适应新数据。这种数据自适应提示机制与两阶段训练过程相结合,有助于根据提示对神经架构进行微调,从而在测试过程中实现高效适应。大量实验验证了 ComS2T 在适应各种时空分布外场景同时保持高效推理能力的有效性 ...
股票市场作为金融市场的基石,将预测股价走势置于量化金融挑战的最前沿。新兴的基于学习的方法在捕捉现代市场复杂且不断变化的数据模式方面取得了重大进展。随着股票市场的快速扩张,股票市场呈现出股票外生性和波动性异质性两个特征,增加了价格预测的复杂性。具体来说,股票的外生性反映了外部市场因素对价格走势的影响,而波动性异质性则体现了对价格波动的走势预测的不同难度。在这项工作中,我们介绍了具有伪波动性优化的跨市场协同(CSPO)框架。具体来说,CSPO 实现了有效的深度神经架构来利用外部期货知识。这丰富了股票嵌入的跨市场洞察力,从而增强了 CSPO 的预测能力。此外,CSPO 结合了伪波动率来对特定股票的预测置信度进行建模,从而能够动态调整其优化过程,以提高准确性和稳健性。我们广泛的实验,包括行业评估和公共基准测试,突显了 CSPO 相对于现有方法的优越性能以及其中包含的所有提议模块的有效性 ...
股票趋势预测对于盈利交易策略和投资组合管理至关重要,但由于市场波动、复杂的时间动态和多方面的股票间关系,股票趋势预测仍然具有挑战性。现有的方法很难有效地捕获时间依赖性和动态的股票间相互作用,通常忽略横截面市场的影响,依赖静态相关性,采用节点和边的统一处理,并合并不同的关系。这项工作介绍了 MaGNet,一种用于股票预测的新型 Mamba 双超图网络,集成了三个关键创新:(1)MAGE 块,它利用双向 Mamba 和自适应门控机制进行上下文时间建模,并集成稀疏专家混合层以实现对不同市场条件的动态适应,以及用于捕获全局依赖性的多头注意力; (2)Feature-wise和Stock-wise 2D时空注意力模块能够精确融合多变量特征和跨股票依赖关系,在保留内在数据结构的同时有效增强信息量,将时间建模与关系推理联系起来; (3)双超图框架,由时间因果超图(TCH)和全局概率超图(GPH)组成,前者捕获具有时间约束的细粒度因果依赖性,后者通过软超边缘分配和 Jensen-Shannon 发散加权机制对整个市场模式进行建模,共同将局部时间影响与瞬时全局结构分开,以进行多尺度关系学习。对六种主要股票指数的广泛实验表明,MaGNet 在卓越的预测性能和卓越的投资回报以及强大的风险管理能力方面均优于最先进的方法。代码位于:此 https URL ...