一译 —— 文档和论文翻译、对照阅读、讨论和社区

Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

我们研究深度强化学习（（深rl）是否能够为低成本、微型人形机器人合成复杂且安全的运动技能，并在动态环境中将其组合成复杂的行为策略。我们使用深度强化学习来训练具有，并在动态环境中将其组合成复杂的行为策略。我们使用深度强化学习来训练具有20个驱动关节的人形机器人来玩简化的一对一（1v1）足球比赛。由此产生的智能体表现出强大而动态的运动技能，例如快速跌倒恢复、行走、转身、踢腿等；并以平稳、稳定、高效的方 ...

0 0 0 2025/05/14 arXiv:2304.13653v2 llliuxiao

Integration-free Training for Spatio-temporal Multimodal Covariate Deep Kernel Point Processes

在这项研究中，我们提出了一种新型的深层时空点过程模型，深核混合点过程（DKMPP），其中包含了多模式协变量信息。 DKMPP是深层混合点过程（DMPP）的增强版本，它使用更灵活的深内核来模拟事件和协变量数据之间的复杂关系，从而提高了模型的表现力。为了解决由于不可融合的深内核而引起的DKMPP的棘手训练程序，我们基于得分匹配，利用了一种无积分方法，并通过采用可扩展的DeNoSising分数匹配方法来 ...

0 0 0 2025/05/14 arXiv:2310.05485v1 1737648397

SalM$^{2}$: An Extremely Lightweight Saliency Mamba Model for Real-Time Cognitive Awareness of Driver Attention

驾驶场景中的驾驶员注意力识别是交通现场感知技术的流行方向。它旨在了解人类驾驶员的注意，以关注驾驶场景中的特定目标/对象。但是，流量场景不仅包含大量的视觉信息，还包含与驾驶任务相关的语义信息 ...

0 0 0 2025/05/14 arXiv:2502.16214v2 kkkkk

Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models

机器上的学习通过删除在机器学习模型中编码的私人或敏感信息，从而使个人具有“被遗忘的权利”的能力。但是，仍然不确定MU是否可以有效地应用于多模式大语模型（MLLM），尤其是在忘记概念泄漏的视觉数据的情况下。为了克服挑战，我们提出了一种有效的方法，即单个图像（SIU），以通过几个步骤对单个相关图像进行微调来识别概念的视觉识别 ...

0 0 0 2025/05/14 arXiv:2405.12523v3 1737648397

CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing

我们介绍了条件感知的自我监督学习表示（CA-SSLR），这是一种通才调节模型，广泛地适用于各种语音处理任务。与为下游模型优化的标准微调方法相比，CA-SSLR集成了早期层中的语言和说话者嵌入，使SSL模型了解当前的语言和说话者的环境。这种方法在保留基本SSLR的完整性的同时降低了对输入音频功能的依赖 ...

0 0 0 2025/05/14 arXiv:2412.04425v1 luffy

SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving

本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线（（简单）。与精度高但重复计算的传统以代理为中心的方法以及精度和通用性受到影响的以场景为中心的方法不同，简单，为所有相关交通参与者提供实时、准确的运动预测。为了提高准确性和推理速度，我们提出了一种紧凑而高效的全局特征融合模块，该模块以对称方式执行定向消息传递 ...

0 0 0 2025/05/14 arXiv:2402.02519v1 jerome.zhou

Social-Transmotion: Promptable Human Trajectory Prediction

准确的人类轨迹预测对于诸如自动驾驶，机器人技术和监视系统等应用至关重要。但是，现有模型通常无法完全利用非语言社会线索在浏览空间时在潜意识中进行交流。为了解决这个问题，我们介绍了社会转变，这是一种基于通用 Transformer 的模型，可利用多样化和众多的视觉提示来预测人类行为 ...

0 0 0 2025/05/14 arXiv:2312.16168v3 1737648397

HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization

扩散 Transformer （DIT）最近在工业和学术领域都获得了其出色的视觉生成能力，超过了使用U-NET的传统扩散模型。但是，DIT的增强性能还伴随着高参数计数和实施成本，严重限制了它们在资源有限设备（例如移动电话）上的使用。为了应对这些挑战，我们介绍了DIT（HQ-DIT）的混合浮点量化，这是一种有效的训练后量化方法，在权重和DIT推理的重量上都利用了4位浮点（FP）精度 ...

0 0 0 2025/05/14 arXiv:2405.19751v2 zhangxinyu

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）