一译 —— 文档和论文翻译、对照阅读、讨论和社区

Two-Stage Multi-task Self-Supervised Learning for Medical Image Segmentation

通过深度学习（DL）技术，医疗图像细分已经显着提高，尽管医学应用中固有的数据稀缺性对基于DL的分割方法构成了巨大挑战。自我监督的学习通过从可用数据集创建辅助学习任务，然后利用从求解辅助任务中获得的知识来帮助更好地求解目标细分任务，从而提供了解决方案。不同的辅助任务可能具有不同的属性，因此可以帮助目标任务完成不同的范围 ...

0 0 0 2025/03/10 arXiv:2402.07119v1 hesy77

A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge

视觉问题回答（VQA）任务愿意为开发AI模型提供有意义的测试床，以共同推荐视觉和自然语言输入。尽管VQA数据集扩散，但该目标受到一组共同限制的阻碍。这些包括依靠相对简单的问题，这些问题在概念和语言结构中都是重复性的，配对图像之外所需的世界知识很少，以及得出正确答案所需的有限推理 ...

0 0 0 2025/03/10 arXiv:2206.01718v1 zl1994

Knowledge-guided EEG Representation Learning

自我监督的学习在音频，视觉和言语的多媒体领域取得了令人印象深刻的结果。由于在这种情况下标记的数据稀缺，该范式与生物信号的领域相同，甚至更多。利用大规模未标记数据来学习鲁棒表示的能力可以帮助提高生物信号的众多推理任务的性能 ...

0 0 0 2025/03/10 arXiv:2403.03222v1 KevinZonda

EgoLife: Towards Egocentric Life Assistant

我们介绍了Egolife，这是一个开发以自我为中心的生活助理的项目，该助手伴随并通过AI驱动的可穿戴眼镜提高了个人效率。为了为这位助手奠定基础，我们进行了一项全面的数据收集研究，其中有六名参与者一起生活了一周，不断使用AI眼镜记录他们的日常活动，包括讨论，购物，烹饪，社交和娱乐 - 用于多模式电子中心视频捕获，以及同步的第三人称视频视频参考文献。这项工作导致了Egolife数据集，这是一个全面的3 ...

0 0 0 2025/03/10 arXiv:2503.03803v1 读个论文看看吧

Jailbreaking is (Mostly) Simpler Than You Think

我们介绍了上下文合规性攻击（CCA），这是一种绕过AI安全机制的新颖，无优化的方法。与当前的方法不同，这些方法依赖于复杂的及时工程和计算密集的优化 -  CCA利用了许多部署的AI系统固有的基本体系结构脆弱性。通过巧妙地操纵对话历史，CCA说服了该模型遵守制作的对话环境，从而触发受限行为 ...

0 0 0 2025/03/10 arXiv:2503.05264v1 dm616703

The Matrix Calculus You Need For Deep Learning

本文试图解释您所需的所有基质计算，以了解深度神经网络的培训。我们没有超出您在微积分1中学到的知识的数学知识，并提供链接以帮助您在需要时刷新必要的数学。请注意，在开始学习训练和使用深度学习之前，您无需理解此材料；相反，这种材料适用于那些已经熟悉神经网络的基础知识，并希望加深对基础数学的理解的人 ...

0 0 0 2025/03/10 arXiv:1802.01528v3 parsifalster

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

我们提出了HealthGpt，这是一种强大的医学大型视觉模型（MED-LVLM），该模型将医学视觉理解和发电能力集成到统一自动回归范式中。我们的引导理念是逐步将异质的理解和发电知识适应预先训练的大语言模型（LLMS）。这是通过一种新型的异质低级适应（H-Lora）技术来实现的，该技术通过量身定制的层次视觉感知方法和三阶段的学习策略来补充 ...

0 0 0 2025/03/10 arXiv:2502.09838v3 robinyb

VideoPhy: Evaluating Physical Commonsense for Video Generation

互联网规模的视频数据预测的最新进展导致了文本到视频生成模型的开发，这些模型可以在各种视觉概念上创建高质量的视频，综合现实动作并渲染复杂的对象。因此，这些生成模型有可能成为物理世界的通用模拟器。但是，目前尚不清楚现有的文本对视频生成模型距离这个目标有多远 ...

0 0 0 2025/03/10 arXiv:2406.03520v2 orangelcx

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）