一译 —— 文档和论文翻译、对照阅读、讨论和社区

EvDistill: Asynchronous Events to End-task Learning via Bidirectional Reconstruction-guided Cross-modal Knowledge Distillation

事件摄像机的每个像素强度变化，并产生具有高动态范围和运动模糊较小的异步事件流，显示出比常规摄像机的优势。基于培训事件的模型的障碍是缺乏大型定性标记数据。先前的工作学习端任务主要依赖于从活动像素传感器（APS）帧中获得的标记或伪标记的数据集；但是，这样的数据集的质量远非基于规范图像与这些质量匹配 ...

0 0 0 2025/04/29 arXiv:2111.12341v1 hezihan

Efficient Multi-task Prompt Tuning for Recommendation

随着业务方案的扩展，真正的推荐系统在处理多任务学习框架中不断出现的新任务方面面临着挑战。在本文中，我们试图提高处理新任务时多任务建议的概括能力。我们发现联合培训将提高新任务的性能，但在大多数多任务学习方法中始终对现有任务产生负面影响 ...

0 0 0 2025/04/29 arXiv:2408.17214v1 sealaes

LocoMuJoCo: A Comprehensive Imitation Learning Benchmark for Locomotion

模仿学习（IL）具有在体现药物中实现敏捷运动的巨大希望。但是，许多现有的运动基准主要集中在简化的玩具任务上，通常无法捕获现实世界情景的复杂性并将研究转向不现实的领域。为了推进IL的运动研究，我们提出了一种新的基准测试，旨在促进IL算法的严格评估和比较 ...

0 0 0 2025/04/29 arXiv:2311.02496v2 yukun

Hyperbolic Graph Neural Networks: A Review of Methods and Applications

图形神经网络将常规神经网络推广到图形结构化数据，并因其令人印象深刻的表示能力而受到广泛关注。尽管取得了显着的成就，但欧几里得模型在与图相关的学习中的表现仍然受到欧几里得几何形状的表示能力的限制和限制，尤其是对于具有高度非欧盟潜在解剖学的数据集。最近，由于其指数生长特性，双曲线空间在使用类似树状的结构和幂律分布的图形数据中越来越受欢迎 ...

0 1 0 2025/04/29 arXiv:2202.13852v2 xixiaixixi

End-to-End Speech Recognition Contextualization with Large Language Models

近年来，由于其出色的性能和概括能力，大型语言模型（LLMS）引起了研究社区的极大关注。在本文中，我们引入了一种新颖的方法，用于将融合LLM的语音识别模型进行情境化。我们的方法将语音识别视为基于验证的LLM的混合模式建模任务 ...

0 0 0 2025/04/29 arXiv:2309.10917v1 serein

IMAGGarment-1: Fine-Grained Garment Generation for Controllable Fashion Design

本文介绍了Imaggarment-1，这是一种精细的服装（FGG）框架，可实现高保真服装的合成，并精确控制轮廓，颜色和徽标放置。与仅限于单条件输入的现有方法不同，Imaggarment-1解决了个性化时尚设计和数字服装应用中多条件可控性的挑战。具体而言，Imaggarment-1采用两阶段的训练策略来分别建模全球外观和本地细节，同时通过端到端推断实现统一和可控制的生成 ...

0 0 0 2025/04/29 arXiv:2504.13176v1 cheng.zy

Consistency-Aware Anchor Pyramid Network for Crowd Localization

人群本地化旨在预测人类在人群场景中的空间位置。我们观察到，现有方法的性能是从两个方面挑战的：（i）在测试阶段和训练阶段之间排名不一致； （ii）固定锚固分辨率可能不足以使当地地区的人群密度过高或过度拟合。为了解决这些问题，我们设计了一个监督目标重新分配策略，以减少排名不一致，并提出一种锚金字塔方案，以适应每个图像区域中的锚固密度 ...

0 0 0 2025/04/29 arXiv:2212.04067v1 vicky

FlockGPT: Guiding UAV Flocking with Linguistic Orchestration

本文通过生成AI介绍了使用自然语言的世界第一个快速无人机植入控制。所描述的方法使任何大小的羊群的直观编排以实现所需的几何形状。该方法的关键功能是开发基于大语言模型的新接口，以与用户通信并生成目标几何描述 ...

0 0 0 2025/04/29 arXiv:2405.05872v1 mencius

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）