arxiv的文档

arxiv 南京

个性签名 ...

Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5

大型语言模型（LLM）在实现自然语言界面方面显示了通过文本到SQL生成来查询的自然语言界面。但是，由于语义幻觉，结构错误以及缺乏特定领域的评估框架，它们在现实世界中的商业智能（BI）环境中的应用仍限制。在这项研究中，我们提出了一个事实一致性评估框架，用于评估使用Exaone 3的LLM生成的SQL输出的语义准确性 ...

0 0 0 0 2025/07/15 arXiv:2505.00060v1 Whatsup888

Task Memory Engine: Spatial Memory for Robust Multi-Step LLM Agents

大型语言模型（LLMS）在多步交互中步履蹒跚 - 通常是由于依赖线性的，非结构化的上下文，通常会幻觉，重复操作或误解用户更正。这种脆弱性源于缺乏持久记忆来跟踪不断发展的目标和任务依赖性，从而破坏了对自主代理的信任。我们介绍了任务存储器引擎（TME），这是一种模块化存储器控制器，将现有的LLMS转换为强大的，修改感知的代理而无需进行微调 ...

0 0 0 0 2025/07/15 arXiv:2505.19436v1 Flyer-Jia

ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO

对齐视频大型多模态模型 (VLMM) 面临模态未对齐和冗长响应等挑战。尽管自我奖励或迭代直接偏好优化（DPO）等迭代方法最近在语言模型对齐方面显示出显着的改进，特别是在推理任务上，但应用于大型视频语言模型的自对齐模型通常会导致冗长且不相关的响应。为了应对这些挑战，我们提出了一种新方法，利用自我回顾来增强响应生成和偏好建模，并称为迭代自我回顾判断（i-SRT） ...

0 0 1 1 2025/07/15 arXiv:2406.11280v2 Abidalswark

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

In the domain of audio-visual event perception, which focuses on the temporal localization and classification of events across distinct modalities (audio and visual), existing approaches are constrained by the vocabulary available in their training data. This limitation significantly impedes their capacity to generalize to novel, unseen event categories. Furthermore, the annotation process for this task is labor-intensive, requiring extensive manual labeling across modalities and temporal segments, limiting the scalability of current methods.

0 0 0 0 2025/07/15 arXiv:2503.13693v2 Luye

SepFormer: Coarse-to-fine Separator Regression Network for Table Structure Recognition

从图像数据（称为表结构识别（TSR））的表逻辑排列的自动重建是语义数据提取的基础。最近，研究人员探索了各种各样的技术来解决这个问题，并显示出重大进展。每个表是一组垂直和水平分离器 ...

0 0 0 0 2025/07/15 arXiv:2506.21920v1 spw

Influencing Humans to Conform to Preference Models for RLHF

从人类反馈（RLHF）算法中设计强化学习以近似人类的不可观察的奖励功能，需要隐式或明确地假设人类偏好模型。一个偏好模型很差描述了人类如何产生偏好的风险会学习对人类奖励功能的近似值。在本文中，我们进行了三项人类研究，以提出一个人是否可以影响实际人类偏好的表达，以更加符合所需的偏好模型 ...

0 0 0 0 2025/07/15 arXiv:2501.06416v2 qisia

Understanding Dimensional Collapse in Contrastive Self-supervised Learning

自我监督的视觉表示学习旨在学习有用的表示，而无需依靠人类注释。关节嵌入方法基础是从同一图像的不同视图中最大化嵌入向量之间的一致性。已经提出了各种方法来解决崩溃的问题，其中所有嵌入矢量崩溃到微不足道的恒定溶液中 ...

0 0 0 0 2025/07/15 arXiv:2110.09348v3 xuwenlong

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

现代语言代理必须在长马，多转弯相互作用上运行，它们可以检索外部信息，适应观察结果并回答相互依存的查询。然而，大多数LLM系统都依赖于全文提示，无论其相关性如何，所有过去的转弯都附加了。这会导致内存增长，计算成本的增加以及在分布外输入长度上降低推理性能 ...

0 0 0 0 2025/07/15 arXiv:2506.15841v1 Flyer-Jia

Causal machine learning for predicting treatment outcomes

因果机器学习（ML）提供了灵活的数据驱动方法，用于预测包括功效和毒性在内的治疗结果，从而支持药物的评估和安全性。因果ML的关键好处是它允许估计个性化的治疗效果，以便可以将临床决策个性化为个体患者概况。因果ML可以与临床试验数据和现实世界数据（例如临床注册和电子健康记录）结合使用，但是需要谨慎以避免偏见或不正确的预测 ...

0 0 0 0 2025/07/15 arXiv:2410.08770v1 RRdec

A Reflective LLM-based Agent to Guide Zero-shot Cryptocurrency Trading

大型语言模型（LLM）在金融交易中的利用主要集中在股票市场上，有助于经济和金融决策。然而，加密货币市场带来的独特机会，因为其链上数据的透明度以及新闻等链链信号的关键影响仍然很大程度上尚未被LLMS所开发。这项工作旨在通过开发基于LLM的贸易代理Cryptotrade来弥合差距，该代理人独特地结合了对链和链数据的分析 ...

0 0 0 0 2025/07/15 arXiv:2407.09546v1 651106682