一译 —— 文档和论文翻译、对照阅读、讨论和社区

Event Stream-based Visual Object Tracking: HDETrack V2 and A High-Definition Benchmark

然后，我们引入了一种新颖的分层知识蒸馏策略，该策略结合了相似性矩阵，功能表示和基于响应图的蒸馏，以指导学生变形金刚网络的学习。我们还通过应用时间傅立叶变换来建立视频帧之间的时间关系来增强模型捕获时间依赖性的能力。我们通过新提出的测试时间调整策略在测试过程中将网络模型调整为特定目标对象，以实现目标跟踪中的高性能和灵活性 ...

0 0 0 2025/02/14 arXiv:2502.05574v1 Lin0925

V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

视频摘要旨在创建更长的视频的简短，准确且具有凝聚力的摘要。尽管存在各种视频摘要数据集，但值得注意的限制是它们的源视频数量有限，这阻碍了对高级大型视觉模型（VLM）的有效培训。此外，大多数现有的数据集都是用于视频到视频摘要的，忽略了当代对多模式视频内容摘要的需求 ...

0 0 0 2025/02/14 arXiv:2404.12353v2 18066355288

LayoutReader: Pre-training of Text and Layout for Reading Order Detection

（（）的基石... ...

0 0 0 2025/02/14 arXiv:2108.11591v2 lockee

Aerial Reliable Collaborative Communications for Terrestrial Mobile Users via Evolutionary Multi-Objective Deep Reinforcement Learning

无人驾驶飞机（UAV）已成为潜在的航空站（BSS），以改善地面通信。但是，有限的船上能量和无人机的天线功率限制了其通信范围和传输能力。为了解决这些局限性，这项工作通过启用无人机的虚拟天线阵列采用协作波束形成，以改善从无人机到地面移动用户的传输性能，在非相关的BSS和动态渠道条件下干扰 ...

0 0 0 2025/02/14 arXiv:2502.05824v1 Lin0925

LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration

随着大型语言模型（llm）推理需要越来越多的资源，使用低位权重来减少内存使用并提高推理效率的趋势正在快速增长。然而，llm引入了对混合精度矩阵乘法（mpgemm）的需求，这是一种至关重要但尚未充分探索的操作，涉及将较低精度权重与较高精度激活相乘。不幸的是且低效... ...

0 0 0 2025/02/14 arXiv:2408.06003v1 hwrabbit

Point Cloud Classification Using Content-based Transformer via Clustering in Feature Space

最近，在3D Point Cloud分类中发生了一些 Transformer 的尝试。为了减少计算，大多数现有的方法都集中在局部空间关注上，但忽略了它们的内容，无法在遥远但相关点之间建立关系。为了克服局部空间关注的局限性，我们提出了一个基于点内容的 Transformer 体系结构，称为PointCont ...

0 0 0 2025/02/14 arXiv:2303.04599v1 cypeng

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

尽管Dalle-3和稳定扩散等文本对图像模型正在迅速增殖，但它们经常遇到诸如幻觉，偏见和不安全，低质量输出的挑战。为了有效解决这些问题，至关重要的是，基于多模式法官的反馈，将这些模型与所需的行为保持一致。尽管具有重要意义，但当前的多模式法官经常对其能力和局限性的评估不足，可能导致错位和不安全的微调结果 ...

0 0 0 2025/02/14 arXiv:2407.04842v1 18066355288

MRAMG-Bench: A BeyondText Benchmark for Multimodal Retrieval-Augmented Multimodal Generation

通过将外部知识整合到生成模型中，在提高响应准确性和相关性方面表现出了出色的性能，在提高响应准确性和相关性方面表现出色。但是，现有的抹布方法主要集中于提供仅文本的答案，即使在多模式检索的生成场景中也是如此。在这项工作中，我们介绍了多模式检索仪的多模式生成（MRAMG）任务，该任务旨在生成结合文本和图像的答案，并完全利用语料库中的多模式数据 ...

0 0 0 2025/02/14 arXiv:2502.04176v1 18066355288

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）