一译 —— 文档和论文翻译、对照阅读、讨论和社区

TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition

排列数据和列中的数据是一种非常有效的数据结构，该数据结构已广泛用于商业和科学研究中。考虑到在线和离线文档中的大规模表格数据，自动表识别引起了文档分析社区的越来越多的关注。尽管人类可以轻松理解表的结构，但对于机器来说，了解这一点仍然是一个挑战，尤其是由于各种不同的桌子布局和样式 ...

0 0 0 2025/03/24 arXiv:2106.10598v3 dreamy

Abduction of Domain Relationships from Data for VQA

在本文中，我们研究了视觉问题回答（VQA）的问题，其中图像和查询由缺乏域数据的ASP程序表示。我们提供了一种与现有知识增强技术的正交和互补的方法，在该技术中，我们从过去的示例中映射了图像构建体的域关系。在解决了绑架问题之后，我们提供了一种基线方法，并实现了显着提高查询答案的准确性但几乎不需要示例的实现 ...

0 0 0 2025/03/24 arXiv:2502.09219v1 my_lsz

Uncertainty-Aware Step-wise Verification with Generative Reward Models

对于大型语言模型（LLM），复杂的多步推理任务（例如解决数学问题）仍然具有挑战性。尽管通常使用结果监督，但通过过程奖励模型（PRMS）的过程监督提供了中间奖励，以验证解决方案轨迹中的逐步正确性。但是，作为人类判断的代理人，PRMS遭受了可靠性问题，包括奖励黑客的敏感性 ...

0 0 0 2025/03/24 arXiv:2502.11250v1 cocoyo

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

视觉问题回答（VQA）已成为一种灵活的方法，用于从文档图像中提取特定信息。但是，现有的工作通常会孤立地查询每个字段，忽略了多个项目的潜在依赖性。本文研究了共同与单独提取多个领域的优点 ...

0 0 0 2025/03/24 arXiv:2503.16868v1 my_lsz

MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators

大型语言模型（LLM）作为机器翻译（MT）质量评估的法官表现出巨大的潜力，提供了分数和细粒度的反馈。尽管诸如GEMBA-MQM之类的方法已经显示出无参考评估的最新性能，但预测的错误与人类注释的错误并不符合，从而将其解释性限制为反馈信号。为了提高LLM评估人员预测的错误注释的质量，我们基于自动基于每个错误，仅通过自动换算，只有这些错误而导致质量改进的错误，从而介绍了$ \ textbf {mqm-a ...

0 0 0 2025/03/24 arXiv:2409.14335v2 18610864225

Tyche: Stochastic In-Context Learning for Medical Image Segmentation

现有的基于学习的医学图像分割解决方案有两个重要的缺点。首先，对于大多数新的细分任务，必须对新模型进行培训或调整。这需要广泛的资源和机器学习专业知识，因此对于医学研究人员和临床医生来说通常是不可行的 ...

0 0 0 2025/03/24 arXiv:2401.13650v1 walnut2002

Distributed LLMs and Multimodal Large Language Models: A Survey on Advances, Challenges, and Future Directions

语言模型（LMS）是机器学习模型，旨在通过估计基于大规模数据集（例如文本）的单词序列的概率来预测语言模式。 LMS在自然语言处理（NLP）任务中具有广泛的应用，包括自动完成和机器翻译。尽管较大的数据集通常会增强LM性能，但由于计算能力和资源的限制，可伸缩性仍然是一个挑战 ...

0 0 0 2025/03/24 arXiv:2503.16585v1 garming

WritingBench: A Comprehensive Benchmark for Generative Writing

大型语言模型（LLM）的最新进展具有显着增强的文本生成能力，但是评估其生成写作的表现仍然是一个挑战。现有的基准主要集中于通用文本生成或写作任务的限制，未能捕获各个领域的高质量书面内容的不同要求。为了弥合这一差距，我们介绍了写作Bench，这是一个综合基准，旨在评估6个核心写作领域和100个子域中的LLM，其中包括创意，有说服力，内容丰富和技术写作 ...

0 0 0 2025/03/24 arXiv:2503.05244v3 xyl1231

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）