一译 —— 文档和论文翻译、对照阅读、讨论和社区

Enhancing and Exploring Mild Cognitive Impairment Detection with W2V-BERT-2.0

这项研究探讨了一种使用讽刺的跨语言数据集检测轻度认知障碍（MCI）的多语言音频自我监督学习模型。尽管使用BERT模型的基于语音转录的检测有效，但由于缺乏转录和时间信息而存在局限性。为了解决这些问题，该研究直接利用W2V-bert-2语音话语的功能 ...

0 0 0 2025/06/27 arXiv:2501.16201v1 rosyclouds

MIO: A Foundation Model on Multimodal Tokens

在本文中，我们介绍了 MIO，这是一种基于多模态 Token 构建的新型基础模型，能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。虽然大语言模型（LLM）和多模态大语言模型（MM-LLM）的出现通过其多功能能力推动了通用人工智能的进步，但它们仍然缺乏真正的任意理解和生成。最近，GPT-4o 的发布展示了any-to-any LLM 在复杂的现实世界任务中的巨大潜力，实现了图像、语音和文 ...

0 0 0 2025/06/27 arXiv:2409.17692v3 alex666

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

尽管在不同机器人数据集进行培训的近期视觉语言行动模型具有有限的概括能力，并且内域数据有限，但它们对紧凑型动作头的依赖以预测离散的或连续的动作限制了对异构作用空间的适应性。我们提出了DITA，这是一个可扩展的框架，该框架利用 Transformer 体系结构通过统一的多模态扩散过程直接将连续的动作序列定义。 DITA偏离了先前的方法，即通过浅网络在融合嵌入的嵌入方式上进行了固定的嵌入，DITA采用了 ...

0 0 0 2025/06/27 arXiv:2503.19757v1 chaihoa

Automated Query-Product Relevance Labeling using Large Language Models for E-commerce Search

准确的查询产品相关性标签是必不可少的，以生成地面真相数据集以用于电子商务中的搜索排名。注释查询产品对的传统方法依赖于基于人类的标签服务，这是昂贵，耗时且容易出现错误的标签服务。在这项工作中，我们探讨了大型语言模型（LLM）的应用，以自动化查询产品相关性标签，以进行大规模的电子商务搜索 ...

0 0 0 2025/06/27 arXiv:2502.15990v1 ifzz

Spatial Reasoning and Planning for Deep Embodied Agents

人类可以通过计划，推理和预测行动结果来执行复杂的任务。为了使体现的代理人获得类似的能力，他们必须了解可转让到新颖场景的环境，并且预算有限的额外反复试验和错误。基于学习的方法（例如Deep RL）可以从数据中发现并利用应用程序域的固有规律和特征，并不断提高其性能，但是以大量培训数据为代价 ...

0 0 0 2025/06/27 arXiv:2409.19479v1 weanhear

Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

自动红色团队已成为发现大语言模型（LLMS）中漏洞的关键方法。但是，大多数现有的方法都集中在孤立的安全缺陷上，从而限制了它们适应动态防御的能力，并有效地发现了复杂的脆弱性。为了应对这一挑战，我们提出了Auto-RT，这是一个强化学习框架，该框架自动探索并优化了复杂的攻击策略，以通过恶意查询有效地发现安全漏洞 ...

0 0 0 2025/06/27 arXiv:2501.01830v1 wutianrui

Adversarially Trained Actor Critic for Offline Reinforcement Learning

我们根据相对悲观主义的概念，在数据覆盖不足的情况下，提出了经过对抗训练的演员评论家（ATAC），这是一种新的无模型算法（RL）。 ATAC被设计为两人Stackelberg游戏：政策演员与受对抗训练的价值评论家竞争，后者发现参与者不如数据收集行为政策的数据持续情况。我们证明，当演员在两个玩家游戏中不后悔时，运行ATAC会产生一项政策，证明1）在控制悲观程度的各种超级参数上都超过了行为策略，而2）2 ...

0 0 0 2025/06/27 arXiv:2202.02446v2 aulisa

ABase: the Multi-Tenant NoSQL Serverless Database for Diverse and Dynamic Workloads in Large-scale Cloud Environments

多租户体系结构通过允许多个租户共享和共享资源来增强NOSQL数据库的弹性和资源利用。但是，在大规模的云环境中，工作负载的多样化和动态性质对多租户NOSQL数据库构成了重大挑战。根据我们的实际观察结果，我们确定了三个至关重要的挑战：（1）缓存对绩效隔离的影响，因为高速缓存命中率Alter请求执行和资源消耗，导致交通不准确； （2）流量的动态变化，租户交通趋势的变化导致节流或资源浪费，以及访问分布的变 ...

0 0 0 2025/06/27 arXiv:2505.07692v1 Hinata

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）