arxiv的文档

arxiv 南京

个性签名 ...

Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective

现有的努力促进3D异常检测（3D-AD）的多模式融合，主要集中于设计更有效的多模式融合策略。但是，很少关注分析多模式融合体系结构（拓扑）设计在3D-AD贡献中的作用。在本文中，我们旨在弥合这一差距，并就多模式融合体系设计对3D-AD的影响进行系统研究 ...

0 0 0 0 2025/08/22 arXiv:2412.17297v1 青云

Graph Neural Networks for Databases: A Survey

图形神经网络（GNN）是用于图形结构数据的强大深度学习模型，证明了各种领域的成功。最近，数据库（DB）社区越来越认识到GNN的潜力，促使一系列研究重点是通过基于GNN的方法改善数据库系统。但是，尽管有了显着进步，但缺乏全面的审查和对GNN如何改善DB系统的理解 ...

0 0 0 0 2025/08/22 arXiv:2502.12908v2 hwrabbit

Memory Mosaics

记忆马赛克是共同记忆的网络，共同实现了一项关注的预测任务。像 Transformer 一样，记忆镶嵌具有组成能力和内在的学习能力。与 Transformer 不同，记忆镶嵌物以相对透明的方式实现了这些功能 ...

0 0 0 0 2025/08/22 arXiv:2405.06394v3 odenkkk

Towards Comprehensible Recommendation with Large Language Model Fine-tuning

推荐系统在日常生活中变得越来越无处不在。尽管传统推荐方法主要依赖于基于ID的表示或项目端内容功能，但它们通常在捕获与用户偏好一致的基础语义方面缺乏（例如， ...

0 0 0 0 2025/08/22 arXiv:2508.07595v1 harry128

Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe

我们提出了Voxlect，这是一种使用语音基础模型在全球范围内建模方言和区域语言建模的新颖基准。具体而言，我们报告了有关英语，阿拉伯语，普通话和广东话，藏语，指示语言，泰语，西班牙语，法语，德语，德语，巴西葡萄牙语和意大利语的方言和区域语言品种的全面基准评估。我们的研究使用了来自30个公开语音语料库的200万多个培训话语，并提供了方言信息 ...

0 0 0 0 2025/08/22 arXiv:2508.01691v1 liangmin0020

Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training

情感语音转换（EVC）旨在改变话语的情绪状态，同时保留语言内容和说话者的身份。在本文中，我们提出了一种新颖的2阶段训练策略，以使用有限的情感语音数据来进行序列到序列的情感语音转换。我们注意到，所提出的EVC框架利用文本到语音（TTS）共享一个共同的目标，即产生高质量的表达语音 ...

0 0 0 0 2025/08/22 arXiv:2103.16809v2 jack_j

Revisiting and Maximizing Temporal Knowledge in Semi-supervised Semantic Segmentation

在半监督的语义细分中，采用平均教师和共同训练的方法来减轻确认偏见和耦合问题。但是，尽管它们具有高性能，但这些方法经常涉及复杂的训练管道和实质性的计算负担，从而限制了这些方法的可伸缩性和兼容性。在本文中，我们提出了一个普遍的框架，该框架通过最大程度地利用了训练过程中获得的时间知识，从而有效地减轻了上述限制 ...

0 0 0 0 2025/08/22 arXiv:2405.20610v1 cuirun

Marketing Budget Allocation with Offline Constrained Deep Reinforcement Learning

我们研究了利用先前收集的离线数据的在线营销活动中的预算分配问题。我们首先讨论在离线环境中优化营销预算分配决策的长期效果。为了克服挑战，我们提出了一种新型的游戏理论离线基于价值的强化学习方法，使用混合政策 ...

0 0 0 0 2025/08/22 arXiv:2309.02669v1 naristlia

Question-Answer Extraction from Scientific Articles Using Knowledge Graphs and Large Language Models

当决定阅读文章或将其纳入他们的研究中时，学者们经常寻求快速识别和理解其主要思想。在本文中，我们旨在以问题和答案的形式（QA）对从科学文章中提取这些关键概念和贡献。我们提出了两种产生QA的不同方法 ...

0 0 0 0 2025/08/22 arXiv:2507.13827v1 liuyujia

An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice Quality and Data Augmentation

情感语音转换（EVC）旨在将源语音信号的情感风格转换为目标风格，同时保留其内容和说话者的身份信息。以前的情感转换研究并没有将情感信息与应保留的情绪无关的信息删除，从而以单片的方式改变了所有这些信息，并通过语言扭曲产生低质量的音频。为了解决这个失真问题，我们提出了一个新颖的Stargan框架以及一个两阶段的训练过程，该过程将情感特征与那些独立于情感的人分开，通过将自动编码器与两个编码器一起用作生成对手网络（GAN）的发生器 ...

0 0 0 0 2025/08/22 arXiv:2107.08361v1 jack_j