一译 —— 文档和论文翻译、对照阅读、讨论和社区

UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation

本文介绍了一个新颖的框架，用于使用 Transformer 体系结构的统一增量少量对象检测（IFSOD）和实例分割（IFSIS）。我们的目标是为只有几个新颖对象类示例的情况创建一个最佳解决方案，而无法访问基础或旧课程的培训数据，同时在基础和新颖类中保持高性能。为了实现这一目标，我们将Mask-Dino扩展到两个阶段的增量学习框架 ...

0 0 0 2025/04/07 arXiv:2411.08569v1 mixiu

Deep Multi-Task Networks For Occluded Pedestrian Pose Estimation

关于行人姿势估计的大多数现有作品都不考虑估计被阻塞的行人的姿势，因为相关的汽车数据集中没有遮挡零件的注释。例如，在汽车场景中用于行人检测的众所周知的数据集Citypersons不提供姿势注释，而MS-Coco（非自动驱动数据集）MS-Coco包含人类的姿势估计。在这项工作中，我们提出了一个多任务框架，以通过检测和实例分割任务在这两个分布上执行 ...

0 0 0 2025/04/07 arXiv:2206.07510v2 武切维奇五千万

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

OpenAI的GPT4O模型的最新突破表现出了令人惊讶的良好能力在图像生成和编辑中，从而引起了社区的极大兴奋。该技术报告介绍了第一观评估基准（命名为GPT-Imgeval），在三个关键维度上进行了定量和质量地诊断GPT-4O的性能：（1）生成质量，（2）编辑能力和（3）世界知识知识的语义合成。在这三个任务中，GPT-4O表现出强劲的性能，在图像生成控制和输出质量中都显着超过了现有方法，同时还展示了 ...

0 0 0 2025/04/07 arXiv:2504.02782v1 wuyang.a

C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation

基于轨迹的运动控制已成为可控视频生成的直观有效的方法。但是，现有的基于轨迹的方法通常仅限于仅生成受控对象的运动轨迹，而忽略受控对象及其周围环境之间的动态相互作用。为了解决这一限制，我们为可控视频生成（名为C-Drag）提出了一个基于想象的运动控制器 ...

0 0 0 2025/04/07 arXiv:2502.19868v1 orangelcx

R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

旋转检测是一项具有挑战性的任务，因为很难找到多角度对象并将其与背景有效分开。尽管已经取得了很大的进步，但对于实际设置，对于具有较高纵横比，密集分布和类别的旋转对象仍然存在极度失衡的挑战。在本文中，我们通过使用从粗粒度到细粒度的渐进回归方法，提出了一个端到端精制的单阶段旋转检测器，以进行快速，准确的对象检测 ...

0 0 0 2025/04/07 arXiv:1908.05612v6 SGN001

GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction

文档级别的关系提取（DOCRE）旨在从非结构化文档文本中提取实体之间的关系。与句子级的关系提取相比，它需要从更广泛的文本上下文中进行更复杂的语义理解。当前，一些研究正在利用证据句子中的逻辑规则来提高DOCRE的性能 ...

0 0 0 2025/04/07 arXiv:2407.21384v2 DUNK_911

Spatio-Temporal Meta-Graph Learning for Traffic Forecasting

交通预测作为多元时间序列预测的典型任务一直是人工智能界的一个重要研究课题。为了解决交通流中隐含的时空异质性和非平稳性，在本研究中 ...

0 0 0 2025/04/07 arXiv:2211.14701v4 AJin_XianSheng

Valley2: Exploring Multimodal Models with Scalable Vision-Language Design

最近，视觉模型取得了显着的进步，展示了在图像字幕和视频理解等各种任务中出色的功能。我们介绍了Valley2，这是一种新型的多模式大型语言模型，旨在提高所有领域的性能，并扩展电子商务和简短视频场景中实用应用的界限。值得注意的是，Valley2在电子商务基准测试基准上实现了最先进的（SOTA）性能，超过了相似大小的开源模型的幅度很大（79 ...

0 0 0 2025/04/07 arXiv:2501.05901v2 sarah

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）