arxiv的文档

arxiv 南京

个性签名 ...

Addressing Delayed Feedback in Conversion Rate Prediction via Influence Functions

在在线数字广告领域中，转换率（CVR）预测在最大化每次转换成本（CPA）模型下的收入中起着关键作用，在这些模型下，只有在用户完成特定的操作（例如进行购买）时，广告客户只会收取广告客户的费用。 CVR预测中的一个主要挑战在于延迟的反馈问题会议可能会发生数小时甚至在初次用户互动后数小时。这种延迟使模型训练复杂化，因为最近的数据可能不完整，导致偏见和性能下降 ...

0 0 0 0 2025/06/30 arXiv:2502.01669v1 AmyLYJ

RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies

对现代通才政策的全面，公正和可比较的评估是一个独特的挑战：机器人基准测试的现有方法通常依赖于重型标准化，要么通过指定固定的评估任务和环境，要么通过主机进行集中的“机器人挑战”，并且不需要在整个任务和环境中评估通用策略。在这项工作中，我们提出了Roboarena，这是一种可扩展评估通才机器人政策的新方法。我们建议在分布式评估者网络上进行群源评估，而不是围绕固定任务，环境或位置进行标准化评估 ...

0 0 0 0 2025/06/30 arXiv:2506.18123v1 晚餐杀手

Diffusion Transformers for Tabular Data Time Series Generation

由于其不同的应用程序方案，表格数据生成最近引起了人们的兴趣。但是，生成表格数据的时间序列（该系列的每个元素都取决于其他元素）仍然是一个未开发的域。该差距可能是由于难以联合解决不同问题的困难，其中的主要问题是表格数据的异质性（非依赖于时间依赖性方法的问题）和时间序列的可变长度 ...

0 0 0 0 2025/06/30 arXiv:2504.07566v2 hairushi

Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation

我们提出了Kling-Foley，这是一种大规模的多模式视频到原告生成模型，它综合了与视频内容同步的高质量音频。在克林福利中，我们介绍了多模式扩散 Transformer ，以模拟视频，音频和文本方式之间的相互作用，并将其与视觉语义表示模块和视听同步模块相结合，以增强对齐能力。具体而言，这些模块将视频条件与框架级别的潜在音频元素相结合，从而改善了语义对齐和视听同步 ...

0 0 0 0 2025/06/30 arXiv:2506.19774v1 viczn

Embodied AI Agents: Modeling the World

本文介绍了我们对以视觉，虚拟或物理形式体现的AI代理的研究，使他们能够与用户及其环境进行交互。这些试剂包括虚拟化身，可穿戴设备和机器人，旨在感知，学习和行动在周围的环境中，这使其与人类的学习方式和与环境相比的方式更为相似。我们建议，世界模型的发展对于体现的AI代理的推理和计划是至关重要的，允许这些代理人理解和预测其环境，了解用户意图和社会环境，从而增强其自动执行复杂任务的能力 ...

0 0 0 0 2025/06/30 arXiv:2506.22355v1 18601752667

BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents

我们提出了BrowseComp，这是一个简单而挑战性的基准，用于衡量代理商浏览网络的能力。 BrowseComp包含1,266个问题，这些问题需要持续浏览Internet，以寻找难以找到的，纠缠的信息。尽管问题很难，但browsecomp既简单易用又易于使用，因为预测的答案在参考答案方面既简短又易于验证 ...

0 0 0 0 2025/06/30 arXiv:2504.12516v1 2889932594

BeliefMapNav: 3D Voxel-Based Belief Map for Zero-Shot Object Navigation

零射击对象导航（ZSON）允许机器人使用自然语言说明在陌生环境中找到目标对象，而无需依赖于预构建的地图或特定于任务的培训。最近的通用模型，例如大语言模型（LLMS）和视觉模型（VLM），使代理具有语义推理能力，以零摄像的方式估算目标对象位置。但是，这些模型经常贪婪地选择下一个目标，而不会保持对环境的全球理解，并且在有效导航所需的空间推理中从根本上受到限制 ...

0 0 0 0 2025/06/30 arXiv:2506.06487v1 gavin218

Large Language Model-Based Semantic Communication System for Image Transmission

大型语言模型（LLM）在理解和生成各种数据类型（例如图像和文本）方面取得了显着的成功，已经证明了它们在不同域中处理和提取语义信息的能力。这种变革能力为语义通信奠定了基础，从而实现了高效和智能的通信系统。在这项工作中，我们提出了一个基于OFDM的新型语义通信框架，用于图像传输 ...

0 0 0 0 2025/06/30 arXiv:2501.12988v1 1150501302

Infinite Recommendation Networks: A Data-Centric Approach

我们利用神经切线内核及其对培训无限范围的神经网络的等效性，以设计$ \ infty $ -AE：具有无限宽瓶颈层的自动编码器。结果是具有单个高参数和封闭形式解决方案的高度表达但简单的推荐模型。利用$ \ infty $ -ae的简单性，我们还开发了蒸馏池CF，用于合成微小的，高保真的数据摘要，这些数据摘要从极其大且稀疏的用户 - 项目相互作用矩阵中提取最重要的知识，以进行有效且准确的随后数据使用，例如模型培训，结构培训，构建，结构，建筑，建筑，构建，构建，建筑，搜索，等等 ...

0 0 0 0 2025/06/30 arXiv:2206.02626v3 拾叁

InterFormer: Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction

点击率（CTR）预测可预测用户单击AD的可能性，是推荐系统中的基本任务。异构信息（例如用户配置文件和行为序列）的出现描绘了来自不同方面的用户兴趣。异构信息的互惠互利整合是CTR预测成功的基石 ...

0 0 0 0 2025/06/30 arXiv:2411.09852v3 ttwt