arxiv的文档

arxiv 南京

个性签名 ...

Detecting Android Malware by Visualizing App Behaviors from Multiple Complementary Views

深度学习已成为实现Android恶意软件检测的有前途的技术。为了进一步释放其检测潜力，可以集成软件可视化以清楚地分析应用程序行为的细节。但是，面对越来越复杂的恶意软件，从一个或随机选择的少数视图分析现有的基于可视化的方法只能检测到有限的攻击类型 ...

0 0 0 0 2025/08/07 arXiv:2410.06157v1 ctf101

Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis

构造障碍是由神经系统损害引起的一种运动言语障碍，会影响用于语音产生的肌肉，导致言语含糊，缓慢或难以理解。它影响了全世界数百万个个人，包括患有中风，脑损伤，脑瘫，帕金森氏病和多发性硬化症等状况的人。构造障碍带来了主要的沟通障碍，影响了生活质量和社会互动 ...

0 0 0 0 2025/08/07 arXiv:2410.12867v1 abala

HiRAG: Retrieval-Augmented Generation with Hierarchical Knowledge

基于图的检索演示生成（RAG）方法显着提高了特定于域特定任务中大语言模型（LLM）的性能。但是，现有的抹布方法不能充分利用人类认知中自然固有的层次知识，这限制了抹布系统的能力。在本文中，我们介绍了一种新的抹布方法，称为Hirag，该方法利用层次知识来增强索引和检索过程中抹布系统的语义理解和结构捕获功能 ...

0 0 0 0 2025/08/07 arXiv:2503.10150v2 anine

Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

深度图通过将其未注射到3D点云中以进行新的视图合成，广泛用于馈送3D高斯裂（3DGS）管道中。这种方法提供了优势，例如高效训练，已知相机姿势的使用以及准确的几何估计。但是，对象边界处的深度不连续性通常会导致零散或稀疏的点云，从而降低了渲染质量 - 众所周知的基于深度表示的限制 ...

0 0 0 0 2025/08/07 arXiv:2506.05327v1 orangelcx

Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation

6D对象姿势估计是计算机视觉中的一个基本而又具有挑战性的问题。卷积神经网络（CNN）最近已被证明能够预测可靠的6D姿势估计，即使在单眼环境下也是如此。尽管如此，CNN被认为是非常数据驱动的，并且获取足够的注释通常非常耗时且劳动量很大 ...

0 0 0 0 2025/08/07 arXiv:2203.10339v1 hanzhuo

A Review on Deep Learning Techniques for Video Prediction

预测，预测和理由关于未来结果的能力是智能决策系统的关键组成部分。鉴于深度学习在计算机视觉中的成功，基于深度学习的视频预测成为有前途的研究方向。视频预测被定义为一项自我监督的学习任务，代表了表示形式学习的合适框架，因为它证明了在自然视频中提取潜在模式的有意义表示的潜在能力 ...

0 0 0 0 2025/08/07 arXiv:2004.05214v2 SummeRain

SAVVY: Spatial Awareness via Audio-Visual LLMs through Seeing and Hearing

在动态，视听环境中，3D空间推理是人类认知的基石，但在很大程度上仍未被现有的音频视频大语模型（AV-LLMS）和基准测试，主要集中在静态或2D场景上。我们介绍了Savvy Bench，这是具有同步空间音频的动态场景中3D空间推理的第一个基准。精明的基础由数千种涉及静态和移动对象的关系组成，需要细粒度的时间接地，一致的3D定位和多模式注释 ...

0 0 0 0 2025/08/07 arXiv:2506.05414v1 liumeng9

xDeepServe: Model-as-a-Service on Huawei CloudMatrix384

扩展的LLM和扩大超级点的兴起在大规模AI基础架构中标志着一个新时代。如DeepSeek，Kimi和Qwen等最新模型中所示，LLMS继续通过MOE扩展。同时，AI硬件正在扩大扩展，华为的CloudMatrix384 SuperPod提供了数百个GB/S高速互连 ...

0 0 0 0 2025/08/07 arXiv:2508.02520v3 jane88

A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation

链接预测（LP）是图机学习中的关键任务。尽管图神经网络（GNNS）最近具有显着高级的LP性能，但现有方法面临关键挑战，包括有限的监督连通性，对初始化的敏感性以及在分布变化下的概括不良。我们探索预处理作为解决这些挑战的解决方案 ...

0 0 0 0 2025/08/07 arXiv:2508.04645v1 jane88

InstanceBEV: Unifying Instance and BEV Representation for Global Modeling

占用网格图在导航中广泛使用，以代表3D空间占用。但是，利用多视频摄像机来构建占用网络进行感知建模的现有方法遭受数据复杂性立方增长的影响。采用鸟眼视图（BEV）透视图为自动驾驶提供了更实用的解决方案，因为它提供了更高的语义密度并减轻复杂的物体闭塞 ...

0 0 0 0 2025/08/07 arXiv:2505.13817v1 xubiao