arxiv的文档

arxiv 南京

个性签名 ...

Open-source automatic pipeline for efficient conversion of large-scale point clouds to IFC format

建筑信息建模（BIM）是可持续重建和振兴衰老结构的重要组成部分。但是，模型的创建通常依赖于激光扫描或摄影测量法提供的非结构化点云数据的费力手动转换。本文介绍了Cloud2Bim，这是一种开源软件工具，旨在将点云转换为符合行业基础类别（IFC）标准的BIM模型的转换 ...

0 0 0 0 2025/07/22 arXiv:2503.11498v3 zhifeiji

DirectGPT: A Direct Manipulation Interface to Interact with Large Language Models

我们表征并证明直接操纵的原理如何改善与大语言模型的互动。这包括：连续表示产生的感兴趣对象；在命令工具栏中重复使用提示语法；操纵输出以组成或控制提示的效果；和撤消机制。这个想法在DirectGpt中举例说明了Chatgpt顶部的用户界面层，该想法是通过将直接操纵操作转换为工程提示的 ...

0 0 0 0 2025/07/22 arXiv:2310.03691v2 orion.zou

AKRMap: Adaptive Kernel Regression for Trustworthy Visualization of Cross-Modal Embeddings

跨模式嵌入构成了多模型模型的基础。但是，解释跨模式嵌入的可视化方法主要局限于传统的降低降低（DR）技术（例如PCA和T-SNE）。这些DR方法主要集中在单个模态内的特征分布上，而未能合并指标（e ...

0 0 0 0 2025/07/22 arXiv:2505.14664v2 11123

Shaping Inductive Bias in Diffusion Models through Frequency-Based Noise Control

扩散概率模型（DPM）是强大的生成模型，在许多生成任务中取得了无与伦比的成功。在这项工作中，我们旨在在扩散模型的训练和采样中建立归纳偏见，以更好地适应数据的目标分布。对于拓扑结构化的数据，我们设计了一个基于频率的no级操作员，以故意操纵和设置这些感应性偏见 ...

0 0 0 0 2025/07/22 arXiv:2502.10236v2 11123

Large Language Models for Data Synthesis

生成忠实捕获现实世界分布的统计结构的合成数据是数据建模的基本挑战。经典方法通常取决于强有力的参数假设或手动结构设计以及高维或异质域中的斗争。大型语言模型（LLMS）的最新进展揭示了其对现实世界分布的灵活，高维的先验的潜力 ...

0 0 0 0 2025/07/22 arXiv:2505.14752v1 sermilan

Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions

迄今为止，将大型语言模型与Point swielt with Oblesute Rewards保持一致，在网上需要在线算法（例如PPO和GRPO）。相反，可以利用离线或非政策数据（例如DPO和Rebel）的更简单的方法仅限于从偏好对或相对信号中学习。为了弥合这一差距，我们介绍\ emph {分数奖励策略优化}（QRPO），该杂物从刻度的绝对奖励中学习，同时保留了类似DPO的方法的简单性和离线适用性 ...

0 0 0 0 2025/07/22 arXiv:2507.08068v1 wangximeng

Lizard: An Efficient Linearization Framework for Large Language Models

我们提出了一种线性化框架Lizard，该框架将基于 Transformer 的大型语言模型（LLMS）转换为无限 - 封闭式生成的灵活的次级架构。由于软件注意力的二次复杂性和增长的密钥值（KV）高速缓存，基于 Transformer 的LLM面临着重要的内存和计算瓶颈。蜥蜴通过引入次级注意机制来解决这些局限性，该机制在保留输出质量的同时紧密近似于SoftMax的注意力 ...

0 0 0 0 2025/07/22 arXiv:2507.09025v2 hwrabbit

MLS: A Large-Scale Multilingual Dataset for Speech Research

本文介绍了多种语言（MLS）数据集，这是一种适合语音研究的大型多语言语料库。该数据集源自Librivox的读取有声读物，由8种语言组成，包括约44.5万小时的英语和其他语言的总计约6K小时 ...

0 0 0 0 2025/07/22 arXiv:2012.03411v2 2486408244

Graph-based Approaches and Functionalities in Retrieval-Augmented Generation: A Comprehensive Survey

大型语言模型（LLM）由于缺乏足够的培训数据和最新知识而与推断期间的事实错误斗争，导致幻觉问题。通过从外部来源检索相关信息以为问题产生更准确的答案，检索授权的生成（RAG）已成为解决LLM的限制的有前途解决方案。鉴于外部来源中存在结构化知识的普遍存在，已经在抹布中取得了相当大的进步来采用与图形相关的技术，并根据知识实体之间的拓扑信息实现了更复杂的推理 ...

0 0 0 0 2025/07/22 arXiv:2504.10499v1 18636279200

DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis

基于扩散的文本到语音（TTS）系统在零弹性语音综合中取得了显着进步，但是优化对感知指标的所有组件仍然具有挑战性。与Dmospeech的先前工作证明了对语音产生组件的直接度量优化，但持续时间预测仍然不在比。本文介绍了Dmospeech 2，该2通过增强学习方法将指标优化扩展到了持续时间预测指标 ...

0 0 0 0 2025/07/22 arXiv:2507.14988v1 star_seeker