虽然当今的智能手机摄像机可以制作出惊人的照片,但由于光子射击噪声和传感器读取噪声的基本限制,它们在弱光下仍然并不完全令人满意。与传统方法相比,生成的图像恢复方法已经证明了有希望的结果,但是当信噪比(SNR)较低时,它们会产生幻觉含量的产生。认识到在用户智能手机上的个性化照片库的可用性,我们通过构建针对不同用户定制的扩散模型来提出个性化的生成转化(PGD) ...
0 0 0 2025/04/06 arXiv:2412.14327v2 chenzj36
当前的文本到视频检索方法(T2VR)经过培训和测试,并在视频捕获方向的数据集(例如MSVD,MSR-VTT和VATEX)上进行了测试。这些数据集的一个关键属性是,假定视频是在短时间内暂时预先修剪的,而所提供的字幕很好地描述了视频内容的要旨。因此,对于给定的配对视频和标题,该视频应该与标题完全相关 ...
0 0 0 2025/04/06 arXiv:2208.12510v1 2889932594
在各种应用程序字段中,多元时间序列(MTS)数据至关重要。 MTS数据凭借其顺序和多源(多个传感器)属性,固有地表现出时空(ST)的依赖性,涉及时间戳与每个时间戳中传感器之间的空间相关之间的时间相关性。为了有效利用这些信息,已广泛采用了基于图神经网络的方法(GNN) ...
0 0 0 2025/04/06 arXiv:2309.05305v3 Peter302
现有的密集检索模型在推理密集型检索任务中挣扎,因为它们未能捕获隐含的相关性,这需要超越表面级别的语义信息的推理。为了应对这些挑战,我们提出了通过知识扩展(SPIKE)进行索引的方案,这是一个密集的检索框架,通过将文档分解为基于场景的检索单元,明确地将隐含的相关性索引。 Spike将文档组织到方案中,该文档封装了揭示假设信息需求和文档内容之间隐含关系所需的推理过程 ...
0 0 0 2025/04/06 arXiv:2503.23033v1 moshmode
在简短的视频和直播混合建议方案的背景下,实时流推荐系统(RS)决定是否最多将一个实时流分配到每个用户请求的视频供稿中。为了最大程度地提高长期用户参与度,至关重要的是确定最佳的实时流策略以进行准确的实时流分配。不适当的实时流分配策略可以显着影响使用应用程序和用户保留的持续时间,这忽略了实时流分配的长期负面影响 ...
0 0 0 2025/04/06 arXiv:2412.10381v4 qisia
近年来,在计算机视觉任务中已经积极研究和改进了使用基于深度学习的方法的强大匹配方法。但是,对强大和快速匹配的技术的需求仍然存在。为了解决这个问题,我们提出了一种新型的基于Mamba的本地功能匹配方法,即Mambaglue,其中Mamba是一种新兴的最先进的建筑,以迅速获得其在训练和推理方面的较高速度,并且与变形金刚建筑相比有希望的性能 ...
0 0 0 2025/04/06 arXiv:2502.00462v1 silent
语音水印技术可以主动减轻即时语音克隆技术的潜在有害后果。这些技术涉及将信号插入人类无法察觉的语音中,但可以通过算法检测到。以前的方法通常将水印消息嵌入连续空间中 ...
0 0 0 2025/04/06 arXiv:2412.13917v1 translater
当前的文本视频检索方法主要依赖于查询和视频之间的跨模式匹配来计算其相似性分数,然后将其排序以获得检索结果。这种方法考虑了每个候选视频和查询之间的匹配,但它会产生大量的时间成本,并且随着候选人的增加而大大增加。生成模型在自然语言处理和计算机视觉中很常见,并且已成功应用于文档检索,但是它们在多模式检索中的应用仍未得到探索 ...
0 0 0 2025/04/06 arXiv:2408.11432v1 2889932594

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)