一译 —— 文档和论文翻译、对照阅读、讨论和社区

Leveraging Multimodal-LLMs Assisted by Instance Segmentation for Intelligent Traffic Monitoring

强大而有效的交通监控系统对于智能城市和智能运输系统（ITS），使用传感器和摄像机来跟踪车辆运动，优化交通流量，减少拥堵，增强道路安全并实现实时自适应交通控制至关重要。交通监控模型必须全面了解动态的城市条件，并为有效管理提供直观的用户界面。这项研究利用LLAVA视觉接地多模式大型语言模型（LLM）在实时Quanser Interactive Lab Simulation平台上进行交通监视任务，涵盖了 ...

0 0 0 2025/05/06 arXiv:2502.11304v1 jayllia

Generative AI for Character Animation: A Comprehensive Survey of Techniques, Applications, and Future Directions

生成的AI正在重塑艺术，游戏，最著名的是动画。基础和扩散模型的最新突破减少了生产动画内容的时间和成本。角色是中心动画组成部分，涉及运动，情感，手势和面部表情 ...

0 0 0 2025/05/06 arXiv:2504.19056v1 qinhui_cici

Generating Query Recommendations via LLMs

查询推荐系统在现代搜索引擎中无处不在，帮助用户产生有效的查询来满足他们的信息需求。然而，这些系统需要大量数据才能产生良好的推荐，例如用于索引和查询日志的大量文档集合。特别是冷启动场景下查询日志和用户数据不可用... ...

0 0 0 2025/05/06 arXiv:2405.19749v2 qq874455953

Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing

文本对图像生成已经通过扩散模型看到了突破性的进步，从而实现了高保真性的综合和通过交叉注意操作进行精确的图像编辑。最近，自回归（AR）模型已重新出现为强大的替代方案，利用下一代生成来匹配扩散模型。但是，由于结构控制的根本差异，专为扩散模型设计的现有编辑技术无法直接转化为AR模型 ...

0 0 0 2025/05/06 arXiv:2504.10434v1 wangteqi

Learning Universal User Representations Leveraging Cross-domain User Intent at Snapchat

强大的用户表示形式的开发是推荐系统成功（RECSYS）成功的关键因素。在线平台采用一系列Recsys技术来个性化各种应用程序内表面的用户体验。通常通过用户在每个表面中的历史互动来分别学习用户表示，并且可以在事后以辅助功能或其他检索源共享用户表示 ...

0 0 0 2025/05/06 arXiv:2504.21838v1 AmyLYJ

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

大型语言模型 (LLM) 的快速发展导致人们纷纷努力将其能力扩展到多模式任务。其中，越来越多的注意力集中在将视觉编码和语言解码集成到单个 LLM 中的整体多模态大型语言模型 (MLLM)。尽管结构简单且部署友好，但训练具有良好性能的整体 MLLM 仍然具有挑战性 ...

0 0 0 2025/05/06 arXiv:2410.08202v3 18832252926

GENMO: A GENeralist Model for Human MOtion

传统上，人类运动模型将运动产生和估计分为具有专门模型的不同任务。运动生产模型着重于从文本，音频或钥匙帧等输入中创建多样化的现实动作，而运动估计模型旨在从视频等观察结果中重建准确的运动轨迹。尽管共享时间动力学和运动学的基本表示，但这种分离限制了任务之间的知识转移，并且需要维护单独的模型 ...

0 0 0 2025/05/06 arXiv:2505.01425v1 qinhui_cici

Training-Free Text-Guided Image Editing with Visual Autoregressive Model

文本指导的图像编辑是一项必不可少的任务，使用户能够通过自然语言描述修改图像。扩散模型和整流流的最新进展已显着提高了编辑质量，主要依赖于反转技术来从输入图像中提取结构化噪声。但是，反转的不准确性会传播错误，从而导致意外的修改并损害忠诚度 ...

0 0 0 2025/05/06 arXiv:2503.23897v1 wangteqi

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）