一译 —— 文档和论文翻译、对照阅读、讨论和社区

Scaling Data Generation in Vision-and-Language Navigation

语言引导的视觉导航的最新研究表明，对可穿越环境的多样性以及培训可通用代理的监督数量有很大的需求。为了解决现有的视觉和语言导航数据集中的常见数据稀缺问题，我们提出了一个有效的范式来生成大规模学习的范式，该数据应用于HM3D和Gibson数据集中的1200多个照片现实环境，并合成490万个指令轨迹轨迹在网络上使用完全可访问的资源对成对 ...

0 0 0 2025/02/17 arXiv:2307.15644v2 Eziotic

Adaptive Domain Scaling for Personalized Sequential Modeling in Recommenders

用户通常在Douyin等超级应用程序的多种业务场景中表现出复杂的行为方式和不同的意图，对当前的工业多域推荐人带来了巨大的挑战。为了减轻各种领域之间的差异，研究和工业实践通常强调复杂的网络结构，以适应多种数据分布，同时忽略了从多域的角度来看对用户行为序列的固有理解。在本文中，我们提出了自适应域缩放（ADS）模型，该模型可全面增强跨多个域的目标感知序列建模中的个性化能力 ...

0 0 0 2025/02/17 arXiv:2502.05523v2 我会不露声色啊

A Hybrid Cross-Stage Coordination Pre-ranking Model for Online Recommendation Systems

大规模推荐系统通常采用级联体系结构，包括检索，预先排名，排名和重新排列阶段。凭着严格的延迟要求，预先级别使用轻量级模型来从大量检索的候选人中进行初步选择。但是，最近的著作仅着重于提高排名的一致性，仅依赖于下游阶段 ...

0 1 0 2025/02/17 arXiv:2502.10284v1 我会不露声色啊

Collaborative Multi-Robot Systems for Search and Rescue: Coordination and Perception

近年来，自主或遥控机器人在民事应用中扮演着越来越重要的角色。在机器人可以支持人类运营商的不同民用领域，他们可能产生更大影响的领域之一是搜救（SAR）操作。特别是，多机器人系统有可能通过更快地搜查受害者，对环境的初步评估和映射，对SAR操作的实时监控和监视，或建立紧急通信网络以及其他以及其他以及其他以及其他以及其他以及其他，以及建立紧急通信网络以及其他，有可能显着提高SAR人员的效率可能性 ...

0 0 0 2025/02/17 arXiv:2008.12610v1 jin0916

DrawingSpinUp: 3D Animation from Single Character Drawings

动画各种字符图是一个引人入胜的视觉内容创建任务。给定单个字符绘制，现有的动画方法仅限于平面2D运动，因此缺乏3D效果。另一种解决方案是从字符图中重建一个3D模型作为代理，然后将3D运动数据重新构造到其上 ...

0 0 0 2025/02/17 arXiv:2409.08615v1 forrestbing

AIDE: Task-Specific Fine Tuning with Attribute Guided Multi-Hop Data Expansion

针对特定任务的微调大语言模型（LLM）需要与任务相关的高质量，多样化的培训数据。最近的研究利用了LLM来综合培训数据，但是现有方法要么取决于大种子数据集，要么努力确保生成的输出中的任务相关性和数据多样性。为了应对这些挑战，我们提出了助手，这是一种新型的数据综合框架，该框架使用多跳过程来扩展10个种子数据点，同时确保多样性和任务相关性 ...

0 0 0 2025/02/17 arXiv:2412.06136v1 liuweitang

MInD: Improving Multimodal Sentiment Analysis via Multimodal Information Disentanglement

学习有效的联合表示是多模式情绪分析的核心任务。以前解决此任务的工作重点是探索复杂的融合技术以提高性能。但是，不同方式的固有异质性仍然是一个核心问题，在代表性层面和信息级别融合和协调多模式信号方面带来了挑战，这阻碍了对多模式信息的全面利用 ...

0 0 0 2025/02/17 arXiv:2401.11818v2 陈卓鹏

Compress image to patches for Vision Transformer

视觉 Transformer （VIT）在计算机视野领域取得了显着步骤。但是，随着模型的深度和输入图像的分辨率的增加，与培训和运行的VIT模型相关的计算成本飙升了这份HTTP URL论文提出了一个基于CNN和Vision Transformer的混合模型，名为CI2P-VIT。该模型结合了一个称为CI2P的模块，该模块利用Compressai编码来压缩图像，然后通过一系列卷积来生成一系列贴片 .. ...

0 0 0 2025/02/17 arXiv:2502.10120v1 hnu

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）