arxiv的文档

A Survey of Link Prediction in Temporal Networks

在过去的十年中，时态网络在复杂系统内动态交互建模方面取得了显着的进展。该领域的一个关键挑战是时间链接预测（TLP），其目的是通过分析各种应用程序（包括社交网络分析）的历史网络结构来预测未来的连接。虽然现有的调查已经解决了 TLP 的特定方面，但它们通常缺乏区分表示方法和推理方法的综合框架。这项调查通过引入一种新的分类法来弥补这一差距，该分类法明确地检查现有方法的表示和推理，为 TLP 方法提供了一种新的分类。我们分析不同的表示技术如何捕获时间和结构动态，检查它们与传导和归纳预测任务的各种推理方法的兼容性。我们的分类不仅阐明了方法论景观，而且揭示了现有技术的有前途的未经探索的组合。该分类法为 TLP 中的新挑战提供了系统基础，包括复杂时间网络的模型可解释性和可扩展架构 ...

0 0 0 0 2026/02/27 arXiv:2502.21185v1 RoderickZH

Insight Agents: An LLM-Based Multi-Agent System for Data Insights

如今，电子商务卖家面临着几个关键挑战，包括发现和有效利用可用程序和工具的困难，以及难以理解和利用各种工具的丰富数据。因此，我们的目标是开发 Insight Agents (IA)，一种对话式多代理数据洞察系统，通过自动信息检索为电子商务卖家提供个性化数据和业务洞察。我们的假设是，IA 将成为卖家的力量倍增器，从而通过减少所需的工作量并提高卖家做出良好业务决策的速度来推动卖家逐渐采用。在本文中，我们介绍了这种新颖的 LLM 支持的端到端代理系统，该系统建立在计划与执行范式之上，旨在实现全面覆盖、高精度和低延迟。它具有分层多代理结构，由经理代理和两个工作代理组成：数据呈现和洞察生成，用于高效的信息检索和问题解决。我们为管理器代理设计了一个简单而有效的机器学习解决方案，该解决方案结合了使用轻量级编码器-解码器模型的域外 (OOD) 检测和通过基于 BERT 的分类器进行的代理路由，从而优化了准确性和延迟。在两个工作代理中，为基于 API 的数据模型设计了战略规划，该模型将查询分解为细粒度组件以生成更准确的响应，并动态注入领域知识以增强洞察生成器。已为美国亚马逊卖家推出IA，人工评估准确率高达90%，延迟P90低于15秒 ...

0 0 0 0 2026/02/27 arXiv:2601.20048v2 小砾往前冲

Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

在本报告中，我们介绍了 Piccolo2，这是一种嵌入模型，它在 CMTEB 基准上的 6 项任务的综合评估中超越了其他模型，创下了新的最先进水平。 Piccolo2 主要利用高效的多任务混合损失训练方法，有效地利用来自不同下游任务的文本数据和标签。此外，Piccolo2 扩大了嵌入维度，并使用 MRL 训练来支持更灵活的向量维度。短笛型号的最新信息可以通过以下方式获取：此 https URL ...

0 0 0 0 2026/02/27 arXiv:2405.06932v1 pengxinxin.pxx

UniVideo: Unified Understanding, Generation, and Editing for Videos

统一的多模态模型在多模态内容生成和编辑方面显示出了有希望的结果，但仍然很大程度上局限于图像领域。在这项工作中，我们提出了 UniVideo，这是一个将统一建模扩展到视频领域的多功能框架。 UniVideo采用双流设计，将用于指令理解的多模态大语言模型（MLLM）与用于视频生成的多模态DiT（MMDiT）相结合 ...

0 0 0 0 2026/02/27 arXiv:2510.08377v3 麦兜

Versatile Skill Control via Self-supervised Adversarial Imitation of Unlabeled Mixed Motions

学习多样化的技能是机器人技术的主要挑战之一。为此，模仿学习方法取得了令人瞩目的成果。这些方法需要明确标记的数据集或假设一致的技能执行才能实现对个体行为的学习和主动控制，这限制了它们的适用性。在这项工作中，我们提出了一种合作对抗方法，通过最大化其可区分性，从包含不同状态转换模式的未标记数据集中获得具有可控技能集的单一通用策略。此外，我们表明，通过在生成对抗性模仿学习框架中利用无监督技能发现，随着任务的成功完成，新颖且有用的技能就会出现。最后，所获得的多功能策略在名为 Solo 8 的敏捷四足机器人上进行了测试，并忠实地复制了演示中编码的各种技能 ...

0 0 0 0 2026/02/27 arXiv:2209.07899v3 computer1

Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning

大型语言模型（LLMS）在广泛的NLP任务中表现出了令人印象深刻的功能，但是它们在根本上仍然无状态，受到阻碍长期推理的有限上下文窗口的限制。最近解决此限制的最新努力通常会通过外部记忆库来增加LLM，但是大多数现有的管道都是静态和启发式驱动的，缺乏确定要存储，更新或检索的内容的任何学识机制。我们提出了Memory-R1，这是一种增强学习（RL）框架，它使LLMS具有通过两种专用代理来积极管理和利用外部内存的能力：一种学习的内存管理器，该内存管理器学会执行结构化的内存操作{添加，更新，删除，noop}，以及一个选择最相关的条目并选择答案的答案，以产生答案 ...

0 1 0 0 2026/02/27 arXiv:2508.19828v5 mamile

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

最近的 GPT-4 展示了非凡的多模式能力，例如直接从手写文本生成网站以及识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。然而，GPT-4 背后的技术细节仍未公开。我们相信 GPT-4 增强的多模态生成能力源于复杂的大语言模型 (LLM) 的利用。为了研究这一现象，我们提出了 MiniGPT-4，它使用一个投影层将冻结的视觉编码器与冻结的高级 LLM、Vicuna 对齐。我们的工作首次发现，将视觉特征与高级大语言模型正确对齐可以拥有 GPT-4 所展示的许多高级多模态能力，例如详细的图像描述生成和从手绘草稿创建网站。此外，我们还观察到 MiniGPT-4 中的其他新兴功能，包括受给定图像启发编写故事和诗歌、教用户如何根据食物照片烹饪等等。在我们的实验中，我们发现在短图像标题对上训练的模型可能会产生不自然的语言输出（例如重复和碎片）。为了解决这个问题，我们在第二阶段策划了详细的图像描述数据集来微调模型，从而提高了模型的生成可靠性和整体可用性。我们的代码、预训练模型和收集的数据集可从此 https URL 获取 ...

0 0 0 0 2026/02/27 arXiv:2304.10592v2 llsun

Re-ID Driven Localization Refinement for Person Search

人员搜索旨在从未裁剪的场景图像库中定位和识别查询人员。与行人重新识别（re-ID）不同，其性能还取决于行人检测器的定位精度。最先进的方法单独训练检测器，检测到的边界框对于接下来的重新识别任务可能不是最佳的。为了缓解这个问题，我们提出了一个 re-ID 驱动的本地化细化框架，为人员搜索提供细化的检测框。具体来说，我们开发了一个可微分的 ROI 变换层，以有效地变换原始图像中的边界框。因此，除了原始检测任务之外，还可以通过重新ID训练来监督框坐标。通过这种监督，检测器可以生成更可靠的边界框，下游的 re-ID 模型可以根据精细的人物定位生成更具辨别力的嵌入。在广泛使用的基准上进行的大量实验结果表明，我们提出的方法优于最先进的人员搜索方法 ...

0 0 0 0 2026/02/27 arXiv:1909.08580v1 susu_kk

Same Words, Different Judgments: Modality Effects on Preference Alignment

基于偏好的强化学习（PbRL）是使人工智能系统适应人类偏好的主要框架，但其在语音中的应用仍未得到充分探索。我们提出了一项针对人类和综合偏好注释的受控跨模式研究，比较了 100 个提示中相同语义内容的文本和音频评估。音频偏好被证明与文本一样可靠，在 $\sim$9 评分者中，评分者间的一致性达到了良好的水平 (ICC(2,k) $\approx$ .80)——这两种模态的偏好注释文献中第一个基于 ICC 的可靠性表征。然而，模态重塑了人们的判断方式：音频评分者表现出更窄的决策阈值、减少的长度偏差和更多以用户为导向的评估标准，并且几乎有机会达成跨模态一致性。综合评级进一步与人类判断保持一致，并预测评估者之间的一致性，支持其用于分类不明确的对以及作为人类注释的完全替代 ...

0 0 0 0 2026/02/27 arXiv:2602.22710v1 ka

EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

实现精确且可控的情感表达对于在文本转语音 (TTS) 合成中生成自然且适合上下文的语音至关重要。然而，许多情感感知 TTS 系统，包括基于大语言模型 (LLM) 的设计，依赖于扩展固定情感嵌入或外部指导，限制了它们对特定情感潜在特征进行建模的能力。为了解决这一差距，我们提出了 EmoShift，这是一个包含 EmoSteer 层的轻量级激活引导框架，它学习输出嵌入空间中每个目标情感的引导向量，以捕获其潜在偏移并在话语和类别中保持稳定、适当的表达。仅 10M 个可训练参数，不到 1/30 的完全微调，EmoShift 在客观和主观评估方面优于零样本和完全微调的基线，在增强情感表达的同时保持自然度和说话者相似性。进一步的分析证实了所提出的 EmoSteer 层的有效性，并揭示了其在语音合成中可控情绪强度的潜力 ...

0 0 0 0 2026/02/27 arXiv:2601.22873v1 ka