arthur的文档

arthur

个性签名 ...

Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition

在这项研究中，我们通过描述定义和解决零拍摄的“真实”分类，这是一个新的任务，该任务评估了视觉模型（VLMS）（例如剪辑）之类的能力，例如剪辑，仅根据描述性属性对对象进行分类，不包括对象类名称。这种方法突出了VLM在理解复杂的对象描述中的当前局限性，将这些模型推向了仅仅是对象识别。为了促进这种探索，我们引入了一个新的挑战，并发布了六个流行的细粒基准的数据，该数据省略了对象名称，以鼓励研究社区内的真正的零拍学习 ...

0 0 0 0 2025/03/12 arXiv:2412.13947v1 arthur

Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

在扩散模型的显着进步的推动下，文本到图像的生成取得了长足的进步，从而对生成的图像的自动质量评估产生了紧迫的需求。当前的最新自动评估方法在很大程度上依赖于多模式的大语言模型（MLLM），尤其是强大的商业模型，例如GPT-4O。尽管这些模型非常有效，但它们的大量成本限制了大规模评估中的可伸缩性 ...

0 0 0 0 2025/03/04 arXiv:2411.15488v1 arthur

Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition

Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs

Wings: Learning Multimodal LLMs without Text-only Forgetting

Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy

Unhackable Temporal Rewarding for Scalable Video MLLMs

Visual Perception by Large Language Model's Weights

InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

OVMR: Open-Vocabulary Recognition with Multi-Modal References

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）