arxiv的文档

arxiv 南京

个性签名 ...

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

我们介绍了Jina-Embeddings-V4，这是一个38亿个参数多模式嵌入模型，该模型通过新型体系结构统一文本和图像表示形式，该架构支持单矢量和多向量嵌入以后交互方式。该模型结合了特定于任务的低级适应（LORA）适配器，以优化各种检索方案的性能，包括基于查询的信息检索，跨模式语义相似性和编程代码搜索 ...

0 0 0 0 2025/06/25 arXiv:2506.18902v2 Uncroyable

PRIMEDrive-CoT: A Precognitive Chain-of-Thought Framework for Uncertainty-Aware Object Interaction in Driving Scene Scenario

驾驶现场理解是一个关键的现实世界中的问题，涉及解释和关联驾驶环境的各种要素，例如车辆，行人和交通信号。尽管自动驾驶方面取得了进步，但传统管道依赖于无法捕获现实驾驶的概率性质和固有不确定性的确定性模型。为了解决这个问题，我们提出了Primedrive-Cot，这是一种新型的不确定性感知的模型，用于在驾驶场景中进行对象相互作用和思想链（COT）推理 ...

0 0 0 0 2025/06/25 arXiv:2504.05908v1 15623473941

$XX^{t}$ Can Be Faster

我们提出RXTX，这是一种用于计算矩阵的产品的新算法，其thrppose $ xx^{t} $ for $ x \ in \ mathbb {r}^{r}^{n \ times m} $。 RXTX使用$ 5 \％$ $ $ $ $ $ \％\％$ $ $ $ $ $ $ $ $ $ $ $ $比最先进的算法少。请注意，加速度不仅可以渐近地适用于具有$ n \ rightarrow \ infty $的大型矩阵，还适用于包括$ n = 4 $的小矩阵 ...

0 0 0 0 2025/06/25 arXiv:2505.09814v2 odenkkk

A Simple Convolutional Generative Network for Next Item Recommendation

卷积神经网络（CNN）最近在基于会话的下一个项目建议的领域中引入。用户在会话（或序列）中与过去相互作用的过去项目的有序集合嵌入到二维潜在矩阵中，并将其视为图像。然后将卷积和集合操作应用于映射的项目嵌入 ...

0 0 0 0 2025/06/25 arXiv:1808.05163v4 linjianghong

StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization

大型语言模型（LLM）集成到信息检索系统中会引入新的攻击表面，尤其是对于对抗性排名的操作。我们提出$ \ textbf {StealthRank} $，这是一种新颖的对抗攻击方法，可以操纵LLM驱动的排名系统，同时保持文本流利度和隐身。与经常引入可检测异常的现有方法不同，StealthRank采用了基于能量的优化框架与Langevin Dynamics结合使用，以生成嵌入在项目中或文档描述中的文档文本序列（SRPS） - 对抗文本序列，这些序列巧妙地影响了LLM排名机制 ...

0 0 0 0 2025/06/25 arXiv:2504.05804v2 hhhhh

CodecFake+: A Large-Scale Neural Audio Codec-Based Deepfake Speech Dataset

随着神经音频编解码器的快速发展，基于编解码的语音生成（COSG）系统已经变得非常强大。不幸的是，COSG还可以创建高度逼真的深层演讲，从而更容易模仿个人的声音并传播错误的信息。我们将COSG Systems生成的新兴的深层演讲称为CodeCfake ...

0 0 0 0 2025/06/25 arXiv:2501.08238v2 rosyclouds

MCP-Zero: Active Tool Discovery for Autonomous LLM Agents

函数呼叫使大型语言模型（LLMS）能够充当使用工具的代理，但是将数千个工具模式注入提示是昂贵且容易出错的。我们介绍了MCP-Zero，这是一种主动的代理框架，使LLM本身可以决定何时以及要检索哪些外部工具，从而从头开始组装特定于任务的工具链。该框架建立在三个组件上：（1）主动工具请求，该模型在其中排放了结构化的$ \ left <\ operatatorName {tool \ _ assistant} \ right> $ block，该> $ block明确指定所需的服务器和任务；（2）层次矢量路由，这是一种首先选择候选服务器，然后根据语义相似性在每个服务器中对工具进行排名的粗略检索算法；（3）迭代主动调用，使多轮的跨域工具链构造具有最小的上下文开销，并允许在返回工具不足时迭代修改其请求 ...

0 0 0 0 2025/06/25 arXiv:2506.01056v4 JayLiu

Pantheon: Personalized Multi-objective Ensemble Sort via Iterative Pareto Policy Optimization

在本文中，我们提供了我们的里程碑合奏排序作品和第一手实践经验，Pantheon，它将合奏从“人类策划的艺术”转变为“机器优化的科学”。与基于配方的合奏排序相比，我们的万神殿具有以下优点：（1）个性化的联合培训：我们的万神殿是通过实时排名模型共同培训的，该模型可以准确地捕获不断变化的用户个性化兴趣。（2）表示继承：我们的万神殿不是高度压缩的PXTR，而是利用细颗粒的隐藏状态作为模型输入，这可以从排名模型中受益，以增强我们的模型复杂性 ...

0 0 0 0 2025/06/25 arXiv:2505.13894v1 buzz

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

我们介绍了Worldsense，这是第一个评估多模式视频理解的基准，该基准同时涵盖了视觉，音频和文本输入。与现有基准相反，我们的WorldSense具有多个功能：（i）Omni-Modosity的协作，我们设计了评估任务以具有强烈的音频和视频耦合，要求模型有效地利用Omni-Mododation的协同感知；（ii）视频和任务的多样性，WorldSense涵盖了1,662个音频视频的多样化集合，系统地分类为8个主要领域和67个细粒子类别，以涵盖广泛的方案，以及3,172个跨26个不同的QA Pairs，以遍及全面的评估；（iii）高质量的注释，所有质量检查对由80个具有多个校正的专家注释者手动标记，以确保质量。根据我们的世界义，我们广泛评估了各种最新模型 ...

0 0 0 0 2025/06/25 arXiv:2502.04326v2 zhangqi33

LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models

准确有效的提问系统对于在医疗领域提供高质量的患者护理至关重要。尽管大型语言模型（LLM）在各个领域取得了显着的进步，但它们在医学问题的回答中仍在面临重大挑战，尤其是在理解特定领域的术语和执行复杂的推理方面。这些限制破坏了它们在关键医疗应用中的有效性 ...

0 0 0 0 2025/06/25 arXiv:2501.05464v2 keve