一译 —— 文档和论文翻译、对照阅读、讨论和社区

Uplift modeling with continuous treatments: A predict-then-optimize approach

提升建模的目的是建议通过确定哪些实体应接受治疗来优化特定结果的行动。一种常见的方法涉及两个步骤：首先，一个推理步骤，估计有条件的平均治疗效果（CATES），其次是根据其CATE值对实体进行对的优化步骤，并将治疗在给定预算内分配给顶部K。虽然升高建模通常集中在二元处理上，但许多现实世界的应用以连续值处理的特征，即 ...

0 0 0 2025/07/14 arXiv:2412.09232v2 RRdec

Knowledge Distillation of Black-Box Large Language Models

鉴于专有的大语言模型（LLM）等出色的表现，例如GPT-4，最近的研究越来越集中于通过这些强大而黑色的盒子教师通过知识蒸馏（KD）来增强较小模型的能力。尽管利用这些教师的高质量产出是有利的，但其内部状态的无法访问通常会限制有效的知识转移。为了克服这一限制，我们介绍了代理KD，这是一种新颖的方法，它使用代理模型来促进知识从黑盒LLM的有效传递到较小的模型 ...

0 0 0 2025/07/14 arXiv:2401.07013v2 kkkk

GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents

图形用户界面（GUI）代理最近出现了作为人类计算机交互的有趣范式，能够自动执行用户指令以操作智能终端设备。但是，当遇到违反环境限制或超过代理当前能力的分布外（OOD）指令时，GUI代理可能会遭受任务崩溃甚至构成安全威胁。因此，对于GUI剂的有效检测至关重要 ...

0 0 0 2025/07/14 arXiv:2505.12842v2 hhhhh

Automated Design of Deep Learning Methods for Biomedical Image Segmentation

生物医学成像是科学发现和医疗护理核心成分的驱动力，目前受到深度学习领域的刺激。虽然语义分割算法在许多应用程序中启用了3D图像分析和量化，但相应的专业解决方案的设计是非平凡的，并且高度依赖于数据集属性和硬件条件。我们提出了NNU-NET，这是一个深入学习框架，它凝结了当前的领域知识，并自主采取将基本体系结构转移到不同数据集和分割任务所需的关键决策 ...

0 0 0 2025/07/14 arXiv:1904.08128v2 尼斯湖

Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture

张量处理单元（TPU）是在数据中心以及微小的ML应用中大规模使用的最著名的机器学习（ML）加速器之一。 TPU提供了比传统的ML加速器（如图形处理单元（GPU））的几种改进和优势，专门设计用于执行矩阵矩阵和矩阵矢量中所需的多重蓄积（MAC）操作，并且在整个深度神经网络（DNNS）执行过程中广泛地呈现。此类改进包括通过利用收缩期阵列架构提供的时间数据流范式来最大化数据重用和最小化数据传输 ...

0 0 0 2025/07/14 arXiv:2407.08700v1 jane88

WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks

由人工智能提供支持的自主UI代理具有巨大的潜力，可以通过自动执行常规任务（例如申请税和付款账单）来提高人类生产力。但是，解开其全部潜力的主要挑战是安全性，这会因代理商代表用户采取行动的能力而加剧。现有的测试通过测试不切实际的场景或给攻击者过多的功率，或者查看单步隔离的任务，可以通过测试不切实际的场景来过度简化威胁 ...

0 0 0 2025/07/14 arXiv:2504.18575v3 hhhhh

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

在视觉生成中，注意机制的二次复杂性会导致高记忆和计算成本，尤其是对于高分辨率图像或多帧视频生成中所需的更长的 Token 序列。为了解决这个问题，先前的研究探索了诸如稀疏和量化之类的技术。但是，这些技术在低密度和降低的位宽度下面临重大挑战 ...

0 0 0 2025/07/14 arXiv:2506.16054v1 felixslu

MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues

大型语言模型（LLM）的出现具有巨大的对话系统。但是，全面评估LLM的对话能力仍然是一个挑战。先前的基准主要集中在单转对话上，或者对多转对话进行了粗糙且不完整的评估，忽视了现实对话的复杂性和细微的细微差别 ...

0 0 0 2025/07/14 arXiv:2402.14762v3 wdn

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）