一译 —— 文档和论文翻译、对照阅读、讨论和社区

CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Low Quality Medical Images

混合CNN转换器模型旨在结合卷积神经网络（CNN）和 Transformer 的优势，以有效地对局部信息和远程依赖性进行建模。但是，大多数研究倾向于集中于整合CNN和 Transformer 的空间特征，同时忽略了频道特征的关键重要性。这对于低质量医学图像分割中的模型性能尤为重要 ...

0 0 0 2025/02/16 arXiv:2501.03629v1 Roa

Versatile Diffusion: Text, Images and Variations All in One Diffusion Model

扩散模型的最新进展在许多一代任务中树立了令人印象深刻的里程碑，而诸如DALL-E2，Imagen和稳定扩散之类的流行作品引起了极大的兴趣。尽管景观发生了迅速的变化，但最近的新方法集中在扩展和性能而不是容量上，因此需要单独的模型来进行单独的任务。在这项工作中，我们将现有的单流扩散管道扩展到多任务多模式网络，称为多功能扩散（VD），该网络处理了一个统一的文本到图像，图像到文本的多个流量，并在一个统一的 ...

0 0 0 2025/02/16 arXiv:2211.08332v4 zxiang7996

Multimodal Representation Learning by Alternating Unimodal Adaptation

多模式学习整合了来自不同感官模式的数据，在人工智能中起着关键作用。但是，现有的多模式学习方法通常在挑战中遇到困难，在这种挑战中，某些方式在多模式学习过程中比其他方式更为主导，从而导致次优的性能。为了应对这一挑战，我们提出了MLA（多模式学习，并进行了交替的单形化适应） ...

0 0 0 2025/02/16 arXiv:2311.10707v2 liushibo

Unsupervised Graph Neural Architecture Search with Disentangled Self-supervision

现有的图形神经体系结构搜索（GNAS）方法在搜索过程中严重依赖有监督的标签，无法处理无用的无用场景。在本文中，我们研究了无监督的图神经架构搜索的问题，该搜索在文献中仍未探索。关键问题是发现驱动图形数据形成以及因子与最佳神经体系结构之间的潜在关系的潜在图因子 ...

0 0 0 2025/02/16 arXiv:2403.05064v1 CG_Z

Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision

开放式域概括（OSDG）的任务涉及在看不见的域内识别新的类别，这将以多种方式作为输入变得更具挑战性。现有作品仅在元学习框架内解决了非模态OSDG，而无需考虑多模式方案。在这项工作中，我们介绍了一种新的方法，以首次利用自学意义，以解决多模式开放式域概括（MM-OSDG） ...

0 0 0 2025/02/16 arXiv:2407.01518v1 psyduck1

Domain Generalization through Audio-Visual Relative Norm Alignment in First Person Action Recognition

由于可穿戴摄像机的流行，第一人称行动的认可正成为越来越多的研究领域。这使得在这种情况下尚未解决的跨域问题。实际上，从学习的表示形式中提取的信息遭受了内在的“环境偏见” ...

0 0 0 2025/02/16 arXiv:2110.10101v1 psyduck1

DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System

受益于强大的推理能力，大型语言模型（LLM）在推荐系统中表现出了卓越的性能。为了从 LLM 中提取知识来增强协作模型，人们做出了各种努力，采用对比学习等技术来进行表示对齐。在这项工作中，我们根据信息定理证明，直接对齐 LLM 和协作模型的表示对于增强下游推荐任务性能来说并不是最佳选择 ...

0 0 0 2025/02/16 arXiv:2408.08231v2 CG_Z

TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over Relation Graph

（QA））是一项具有挑战性的任务，因为它需要在得到答案的每一步都对实体关系进行精确推理。这些关系可以用知识图中的标签来表示（例如 ... ...

0 0 0 2025/02/16 arXiv:2104.07302v2 Shmily

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）