一译 —— 文档和论文翻译、对照阅读、讨论和社区

Large Language Models and Artificial Intelligence Generated Content Technologies Meet Communication Networks

人工智能产生的内容（AIGC）技术具有大型语言模型（LLMS），在各种应用中都表现出了显着的性能改进，这引起了学术界和行业的极大兴趣。尽管在该领域已经取得了一些值得注意的进步，但对AIGC和通信网络之间复杂关系的全面探索仍然相对有限。为了解决这个问题，本文从双重角度进行了详尽的调查：首先，它仔细检查了LLM和AIGC技术在通信网络领域内的集成；其次，它研究了通信网络如何进一步增强LLM和AIGC的 ...

0 0 0 2025/06/11 arXiv:2411.06193v2 lpfgss

MeshGen: Generating PBR Textured Mesh with Render-Enhanced Auto-Encoder and Generative Data Augmentation

在本文中，我们介绍了Meshgen，Meshgen是一种高级图像到3D管道，该管道生成具有详细几何形状和基于物理渲染（PBR）纹理的高质量3D网眼。解决现有3D本机扩散模型所面临的挑战，例如次优的自动编码器性能，有限的可控性，概括性差和基于图像的PBR纹理不一致，Meshgen采用了几项关键创新来克服这些限制。我们开创了渲染增强的点对形自动编码器，该自动编码器通过使用基于射线的正则化设计感知优化， ...

0 0 0 2025/06/11 arXiv:2505.04656v1 zhifeiji

Generalized Trajectory Scoring for End-to-end Multimodal Planning

端到端的多模式计划是自动驾驶的有希望的范式，可以通过各种轨迹候选者实现决策。一个关键组成部分是能够从这些候选者中选择最佳轨迹的强大轨迹得分手。尽管最近的轨迹得分手专注于评分大量静态轨迹或小组动态生成的轨迹，但两种方法都面临着概括的重大局限性 ...

0 0 0 2025/06/11 arXiv:2506.06664v1 布朗瓶

MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking

尽管像MOTR这样的端到端多对象跟踪器享有简单的优点，但它们严重遭受了检测与关联之间的冲突，从而导致不满意的收敛动力学。虽然MOTRV2部分解决了此问题，但它需要一个额外的检测网络以提供帮助。在这项工作中，我们是第一个揭示这一冲突的人，这是源于检测查询和轨道查询之间的不公平标签分配，在训练过程中，这些检测查询识别目标并跟踪查询将其关联 ...

0 1 0 2025/06/11 arXiv:2305.14298v1 xiangsc

Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields

The rapid development of AIGC foundation models has revolutionized the paradigm of image compression, which paves the way for the abandonment of most pixel-level transform and coding, compelling us to ...

0 0 0 2025/06/11 arXiv:2504.21814v1 allen1000

DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning

在复杂的驾驶环境中，自动驾驶汽车必须安全导航。像基于回归的方法一样，依靠单个预测路径，通常不会明确评估预测轨迹的安全性。基于选择的方法通过生成和评分多个轨迹候选者并预测每个轨迹的安全得分来解决这一问题，但是在精确选择数千种可能性中的最佳选择并区分微妙但至关重要的关键差异时，面临优化的挑战，尤其是在罕见或代表性不足的情况下 ...

0 0 0 2025/06/11 arXiv:2506.06659v1 布朗瓶

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

主动视觉（也称为主动感知）是指积极选择在何处以及如何看待以收集与任务相关的信息的过程。它是人类和先进的体现药物有效感知和决策的关键组成部分。最近，将多模式大语模型（MLLM）用作机器人系统中的中央计划和决策模块，引起了广泛关注 ...

0 0 0 2025/06/11 arXiv:2505.21457v1 dm616703

Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework

由于训练，经验和运动行为的差异，外科医生表现出不同的操作样式 - 但是当前的AI系统通常会忽略此个性化信号。我们提出了一种新颖的方法，以使用与视觉语言动作（VLA）管道集成的离散扩散框架对机器人手术中的细粒度，外科医生特异性指纹进行建模。我们的方法将手势预测提出为结构化序列deo的任务，以多模式输入为条件，包括内窥镜视频，外科手术意图语言以及对外科医生身份和技能的隐私感知的嵌入 ...

0 0 0 2025/06/11 arXiv:2506.08185v1 蔡明方

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）