一译 —— 文档和论文翻译、对照阅读、讨论和社区

Public Domain 12M: A Highly Aesthetic Image-Text Dataset with Novel Governance Mechanisms

我们介绍公共领域12M（PD12M），该数据集的数据集为1,240万个高质量的公共领域和CC0许可的图像，并带有合成字幕，旨在培训文本对图像模型。 PD12M是迄今为止最大的公共域图像文本数据集，具有足够的尺寸来训练基础模型，同时最大程度地减少了版权问题 ...

0 0 0 2025/09/06 arXiv:2410.23144v1 X.K

Unraveling Spatio-Temporal Foundation Models via the Pipeline Lens: A Comprehensive Review

时空深度学习模型旨在利用此类数据中的有用模式来支持预测等任务。但是，以前专为特定任务设计的深度学习模型通常需要为每个用例提供单独的培训，从而增加计算和存储成本。为了解决这个问题，出现了时空基础模型，提供了一个能够解决多个时空任务的统一框架 ...

0 0 0 2025/09/05 arXiv:2506.01364v1 PMIce

Adversarial-Guided Diffusion for Multimodal LLM Attacks

本文解决了使用扩散模型生成对抗图像的挑战，以欺骗多模式的大语言模型（MLLM），以生成目标响应，同时避免了严重的清洁图像的严重失真。为了应对上述挑战，我们提出了一种对抗性攻击MLLM的对抗引导的扩散（AGD）方法。我们引入了对抗性引导的噪声，以确保攻击功效 ...

0 0 0 2025/09/05 arXiv:2507.23202v1 hhhhh

One Model for ALL: Low-Level Task Interaction Is a Key to Task-Agnostic Image Fusion

高级图像融合方法主要优先考虑高级任务，其中任务交互在语义间隙中挣扎，需要复杂的桥接机制。相比之下，我们建议利用数字摄影融合中的低级视觉任务，从而通过像素级的监督进行有效的功能交互。这种新的范式为无监督的多模式融合提供了强有力的指导，而无需依靠抽象的语义，增强了任务共享的功能学习以提高更广泛的适用性 ...

0 0 0 2025/09/05 arXiv:2502.19854v2 zzr123456

CrossMatch: Enhance Semi-Supervised Medical Image Segmentation with Perturbation Strategies and Knowledge Distillation

半监督的医学图像分割学习提出了有效使用有限标记数据的独特挑战，同时利用丰富的未标记数据。尽管取得了进步，但现有方法通常并未完全利用未标记数据的潜力来增强模型的鲁棒性和准确性。在本文中，我们介绍了CrossMatch，这是一个新颖的框架，将知识蒸馏与双重扰动策略 - 图像级别和功能级别融合在一起，以改善模型从标记和未标记的数据中学习 ...

0 0 0 2025/09/05 arXiv:2405.00354v2 mixiu

Automating Thought of Search: A Journey Towards Soundness and Completeness

大型语言模型（LLM）用于解决需要搜索的计划问题。大多数文献都使用LLM作为世界模型来定义搜索空间，为灵活性而放弃健全性。最新的工作，即搜索（TOS），提出了用代码定义搜索空间的，使LLM会产生该代码 ...

0 0 0 2025/09/05 arXiv:2408.11326v2 Abidalswark

LogLLM: Log-based Anomaly Detection Using Large Language Models

软件系统通常会在日志中记录重要的运行时信息，以帮助进行故障排除。基于日志的异常检测已成为旨在通过日志数据识别系统问题的关键研究领域，最终增强了软件系统的可靠性。传统的深度学习方法通常难以捕获日志数据中嵌入的语义信息，该信息通常以自然语言组织 ...

0 0 0 2025/09/05 arXiv:2411.08561v5 wgkooo

Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

语言代理在自动化基于网络的任务方面已经展示了有前途的能力，尽管它们当前的反应方法在很大程度上仍然不如人类。虽然结合先进的规划算法，特别是树搜索方法，可以提高这些代理的性能，但直接在实时网站上实施树搜索会由于确认购买等不可逆转的操作而带来重大的安全风险和实际限制。在本文中，我们介绍了一种新颖的范例，该范例通过基于模型的规划来增强语言代理，开创了大型语言模型（LLM）作为复杂网络环境中的世界模型的创新 ...

0 0 0 2025/09/05 arXiv:2411.06559v2 Abidalswark

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）