一译 —— 文档和论文翻译、对照阅读、讨论和社区

Real-time Workload Pattern Analysis for Large-scale Cloud Databases

在云系统上托管数据库服务已成为一种常见实践。这导致了数据库工作量的增加，这为模式分析提供了机会。从业务逻辑的角度发现工作量模式非常有利于更好地理解数据库系统的趋势和特征 ...

0 0 0 2025/05/16 arXiv:2307.02626v1 ifzz

Language-agnostic BERT Sentence Embedding

尽管BERT是一种学习单语句子嵌入语义相似性和基于嵌入的转移学习的有效方法（Reimers和Gurevych，2019年），但基于BERT的跨语言句子嵌入尚未探索。 We systematically investigate methods for learning multilingual sentence embeddings by combining the best methods for ...

0 0 0 2025/05/16 arXiv:2007.01852v2 snowpigppp

Unveiling Contrastive Learning's Capability of Neighborhood Aggregation for Collaborative Filtering

个性化建议在Web应用程序中广泛使用，图形对比学习（GCL）逐渐成为推荐系统中的主要方法，这主要是由于它能够从原始交互数据中提取自我监督信号，从而有效地减轻了数据稀疏性问题。一种经典的基于GCL的方法通常在图形卷积期间使用数据增强来产生更多的对比视图，并在这些新视图上进行对比，以获得丰富的自我监督信号。尽管这种范式是有效的，但性能增长背后的原因仍然是一个谜 ...

0 0 0 2025/05/16 arXiv:2504.10113v1 dzyhrm

CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion

大型语言模型（LLM）通常在其输入中混合多个文本块以必要提供的上下文。为了加速长LLM输入的预填充，可以预先计算文本的KV缓存，并在上下文中被重新用作另一个LLM输入然而，重用的文本块并不总是输入出口，当它们不是时，它们预先计算的KV服务器不能直接使用，它们忽略了因为文本与LLM输入中前面文本的交叉注意力... ...

0 0 0 2025/05/16 arXiv:2405.16444v3 ziteng110

MPO: Boosting LLM Agents with Meta Plan Optimization

大型语言模型（LLM）的最新进展使基于LLM的代理能够成功处理互动计划任务。但是，尽管取得了成功，但现有的方法通常会遭受计划幻觉的困扰，并且需要为每个新代理商进行再培训。为了应对这些挑战，我们提出了META计划优化（MPO）框架，该框架通过直接合并明确的指导来增强代理计划功能 ...

0 0 0 2025/05/16 arXiv:2503.02682v1 nrc

Whitening Sentence Representations for Better Semantics and Faster Retrieval

伯特等预训练模型在许多自然语言处理任务中取得了巨大成功。然而，如何通过这些预训练模型获得更好的句子表示仍然值得探索。先前的工作表明，各向异性问题是基于伯特的句子表示的关键瓶颈，阻碍模型充分利用底层语义特征... ...

0 0 0 2025/05/16 arXiv:2103.15316v1 dzy2024

AnglE-optimized Text Embeddings

高质量文本嵌入对于改善语义文本相似性 (STS) 任务至关重要，而语义文本相似性 (STS) 任务是大型语言模型 (LLM) 应用程序的关键组成部分。然而，现有文本嵌入模型面临的一个常见挑战是梯度消失问题，这主要是由于它们依赖于优化目标中的余弦函数，而该函数具有饱和区。为了解决这个问题，本文提出了一种新颖的角度优化文本嵌入模型，称为 AnglE ...

0 0 0 2025/05/16 arXiv:2309.12871v9 snowpigppp

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

当前动作分类数据集（UCF-101和HMDB-51）中视频的匮乏使得很难识别出良好的视频体系结构，因为大多数方法在现有的小规模基准测试中获得了类似的性能。根据新动力学人类动作视频数据集，本文重新评估了最新的架构。 Kinetics具有两个数量级的数据，其中有400个人类动作类别，每课超过400个剪辑，并且是从现实，挑战的YouTube视频中收集的 ...

0 0 0 2025/05/16 arXiv:1705.07750v3 13080420360

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）