一译 —— 文档和论文翻译、对照阅读、讨论和社区

Data Efficacy for Language Model Training

数据是语言模型培训（LM）的基础。最近的研究致力于数据效率，该研究旨在通过选择最小或最佳的培训数据子集来最大程度地提高性能。数据过滤，采样和选择等技术在该领域起着至关重要的作用 ...

0 0 0 2025/09/06 arXiv:2506.21545v1 uaene

BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models

旨在找到样品的相应初始噪声的扩散模型采样的反转在各种任务中起着至关重要的作用。最近，已经提出了几种启发式的倒反转抽样器，以无精度的反转问题以无训练的方式解决。但是，这些启发式采样器的理论特性仍然未知，并且通常表现出平庸的采样质量 ...

0 0 0 2025/09/06 arXiv:2410.07273v1 Zhiyu_Yin

Speculating LLMs' Chinese Training Data Pollution from Their Tokens

 Token 是LLM培训数据集中的基本元素。众所周知，在GPT词汇中代表中国短语的许多 Token （4o/4o-Mini/O1/O3/4.5/4 ...

0 0 0 2025/09/06 arXiv:2508.17771v1 jecc

Radio Foundation Models: Pre-training Transformers for 5G-based Indoor Localization

基于人工智能（AI）的无线电指纹（FP）优于具有强大多径效应的传播环境中的经典定位方法。但是，FP的模型和数据编排是耗时且昂贵的，因为它需要许多参考位置和每个环境的广泛测量活动。取而代之的是，现代的无监督和自我监督的学习方案需要更少的参考数据来进行本地化，但是它们的准确性很低，或者它们需要其他传感器信息，从而使它们变得不切实际 ...

0 0 0 2025/09/06 arXiv:2410.00617v1 HeiHuZi

DriveAgent: Multi-Agent Structured Reasoning with LLM and Multimodal Sensor Fusion for Autonomous Driving

我们介绍了Driveagent，这是一种新型的多代理自动驾驶框架，利用大型语言模型（LLM）推理结合多模式传感器融合，以增强情境理解和决策。 Driveagent独特地整合了包括LIDAR，GPS和IMU的各种传感器模态 - 与LLM驱动的分析过程，这些分析过程构成了专用代理。该框架是通过基于模块化的管道来运行的，该管道包括四个主要模块：（i）一个描述性分析代理，识别基于过滤时间戳的关键传感器数据 ...

0 0 0 2025/09/06 arXiv:2505.02123v1 wangxiaolong

Towards Adversarial Attack on Vision-Language Pre-training Models

虽然视觉语言预训练模型（VLP）显示了各种视觉语言（V+L）任务的革命性改进，但有关其对抗性鲁棒性的研究仍然在很大程度上尚未探索。本文研究了对流行VLP模型和V+L任务的对抗性攻击。首先，我们分析了不同设置下对抗性攻击的性能 ...

0 0 0 2025/09/06 arXiv:2206.09391v2 hhhhh

Sampling Matters in Deep Embedding Learning

深嵌入回答一个简单的问题：两个图像有多相似？学习这些嵌入是验证，零射击学习和视觉搜索的基石。最突出的方法可以优化具有合适的损失函数的深卷积网络，例如对比度损失或三胞胎损失。尽管丰富的工作仅着眼于损失功能，但我们在本文中表明，选择培训示例同样重要 ...

0 0 0 2025/09/06 arXiv:1706.07567v2 15502111727

Sizing the Risk: Kelly, VIX, and Hybrid Approaches in Put-Writing on Index Options

本文研究了适用于标准普尔500指数选项的系统推杆策略，重点是位置大小，作为长期绩效的关键决定因素。尽管有据可查的波动风险溢价（在隐含的波动率都超过实现的波动性时，实际实施短期波动式销售策略的实际实施仍未开发在文献中。这项研究评估了三种位置大小的方法：凯利标准，基于VIX的波动率缩放以及一种结合两者的新型混合方法 ...

0 0 0 2025/09/06 arXiv:2508.16598v1 LumenXH

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）