arxiv的文档

arxiv 南京

个性签名 ...

CFBench: A Comprehensive Constraints-Following Benchmark for LLMs

大型语言模型（llm）理解和遵循自然语言指令的能力对于其在复杂的现实应用程序中的部署至关重要。现有的评估主要关注碎片化的约束或狭隘的场景，却忽视了从用户角度考虑约束的全面性和真实性。为了弥补这一差距，我们提出了cfbench，这是一个针对llm的大规模综合约束基准，具有1,000个精选样本，涵盖200多个现实生活场景和50多个现实生活场景和50多个NLP任务... ...

0 0 0 0 2025/06/26 arXiv:2408.01122v2 lalaxiao

Balancing the Scales: A Theoretical and Algorithmic Framework for Learning from Imbalanced Data

班级失衡仍然是机器学习的主要挑战，尤其是在具有长尾分布的多级问题中。现有方法，例如数据重新采样，成本敏感的技术和逻辑损失修改，尽管很受欢迎并且通常有效，但缺乏稳固的理论基础。例如，我们证明了对成本敏感的方法不是贝叶斯一致的 ...

0 0 0 0 2025/06/26 arXiv:2502.10381v2 hutger

AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data

大型语言模型〜（LLM）在各种应用中都表现出了能力，但是面临诸如幻觉，有限的推理能力和事实矛盾之类的挑战，尤其是在处理复杂的，特定领域的任务（例如询问问题）（QA）（QA）时。尽管知识图〜（kgs）已被证明有助于减轻这些问题，但对LLM与背景KGS整合的研究仍然有限。特别是，尚未彻底探索用户可访问性和基础公斤的灵活性 ...

0 0 0 0 2025/06/26 arXiv:2410.11531v1 张大宝

Hybrid Latent Reasoning via Reinforcement Learning

大型语言模型（LLM）的最新进展已引入潜在推理，作为自回旋推理的有前途的替代方法。通过使用以前的步骤执行内部计算，潜在推理受益于更有信息的特征，而不是采样离散的思想链（COT）路径。然而，潜在的推理方法通常与LLM不兼容，因为它们的持续范式与自回归产生的离散性质冲突 ...

0 0 0 0 2025/06/26 arXiv:2505.18454v1 zengzhiyun

Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following

大型语言模型 (LLM) 在各种任务中展示了令人印象深刻的功能，包括指令遵循，这对于使模型输出与用户期望保持一致至关重要。然而，由于人类语言的复杂性和主观性，评估 LLM 遵循指令的能力仍然具有挑战性。当前的基准测试主要关注单轮、单语言指令，这并不能充分反映需要处理多轮和多语言交互的现实应用程序的复杂性 ...

0 1 0 0 2025/06/26 arXiv:2410.15553v2 lalaxiao

What Can RL Bring to VLA Generalization? An Empirical Study

大型视觉动作（VLA）模型显示出体现AI的显着潜力。但是，由于对分配变化的复合错误的敏感性，他们通过监督微调（SFT）限制了概括的主要培训。强化学习（RL）通过试用和错误为任务目标进行优化，为克服这些局限性提供了一条途径，但是与SFT相比，缺乏对VLA的特定概括益处的系统理解 ...

0 0 0 0 2025/06/26 arXiv:2505.19789v2 晚餐杀手

RAISE: Reasoning Agent for Interactive SQL Exploration

大型语言模型（LLMS）的最新进展已推动了自然语言界面的研究到数据库。但是，大多数最先进的文本到SQL系统仍然取决于复杂的多阶段管道。这项工作提出了一个新型的代理框架，该框架可以在单个端到端组件中统一链接，查询生成和迭代精致 ...

0 0 0 0 2025/06/26 arXiv:2506.01273v1 zkq

From RAG to Memory: Non-Parametric Continual Learning for Large Language Models

我们连续获取，组织和利用知识的能力是人类智能的关键特征，AI系统必须大约释放其全部潜力。鉴于大语言模型（LLMS）的持续学习挑战，检索声明的一代（RAG）已成为引入新信息的主要方式。但是，它对矢量检索的依赖阻碍了其模仿人类长期记忆的动态和相互联系的能力 ...

0 0 0 0 2025/06/26 arXiv:2502.14802v2 sally2016

FLoD: Integrating Flexible Level of Detail into 3D Gaussian Splatting for Customizable Rendering

3D Gaussian脱落（3DGS）及其后续作品仅限于特定的硬件设置，无论是仅在低成本或高端配置上。旨在减少3DGS内存使用方面的方法，可以对低成本的GPU进行渲染，但损害渲染质量，在高端GPU的情况下，该方法无法利用硬件功能。相反，增强渲染质量的方法需要具有大VRAM的高端GPU，这使得对于具有有限记忆容量的低端设备使此类方法不切实际 ...

0 0 0 0 2025/06/26 arXiv:2408.12894v2 18855807556

ResolverFuzz: Automated Discovery of DNS Resolver Vulnerabilities with Query-Response Fuzzing

域名系统（DNS）是Internet的关键组成部分。 DNS解析器充当DNS客户端和DNS名称服务器之间的缓存，是DNS基础架构的中心部分，对DNS的可伸缩性必不可少。但是，发现解析器漏洞并非平凡，现有工具无法很好地解决此问题 ...

0 0 0 0 2025/06/25 arXiv:2310.03202v1 Fun_James