一译 —— 文档和论文翻译、对照阅读、讨论和社区

培训模型可以充当可以有效地在复杂环境中（例如Web浏览器）中导航和执行操作的代理商，通常由于缺乏培训数据而具有挑战性。大型语言模型（LLMS）最近证明了以零镜头或少数拍摄方式导航新颖环境的能力，纯粹由自然语言指导作为提示引导。最近的研究还表明，LLM具有通过自我完善的能力超过其基本绩效 ...

0 0 0 2025/02/15 arXiv:2405.20309v2 18636279200

现有的Internet规模图像和视频数据集涵盖了各种各样的日常对象和任务，从而带来了学习政策的潜力，这些策略在不同的情况下进行了推广。先前的作品通过不同的自我监督目标探索了视觉预训练。尽管如此，从先前的研究中仍不清楚学习策略的概括能力和比调整良好基线的优势尚不清楚 ...

0 0 0 2025/02/15 arXiv:2307.03567v2 Jacky777

图形神经网络（GNN）已成为欺诈检测，识别欺诈用户并发现恶意行为的有效工具。但是，对基于GNN的欺诈探测器及其风险的攻击很少受到研究，从而使潜在的威胁未受解决。最近的发现表明，欺诈行为越来越有组织成帮派或团体 ...

0 0 0 2025/02/15 arXiv:2412.18370v2 xixiaixixi

我们为机器人技术提供了一种自我监督的感觉运动预训练方法。我们的模型称为RPT，是一种在感觉运动 Token 序列上运行的 Transformer 。给定一系列相机图像，本体感受的机器人状态和动作，我们将序列编码为 Token ，掩盖子集并训练模型以预测其余内容中缺少的内容 ...

0 0 0 2025/02/15 arXiv:2306.10007v2 Jacky777

大型语言模型已经证明了他们在故事情节创建和类似人类角色角色扮演的能力。当前的语言模型代理主要关注个人水平的合理行为，其行为可能很难限制整个故事情节的水平。在本文中，我们介绍了易卜生（Ibsen），这是一个导演坐标辅助框架，生成戏剧脚本，并使代理商更具可控性的剧情 ...

0 0 0 2025/02/15 arXiv:2407.01093v1 15370090936

近年来，图形表示学习取得了迅速的进步，而连续的嵌入方法作为主要的范式出现。但是，这些方法遇到了有关参数效率，可解释性和鲁棒性的问题。因此，量化的图表（QGR）学习最近已获得越来越多的兴趣，这代表了具有离散代码而不是常规连续嵌入的图形结构 ...

0 0 0 2025/02/15 arXiv:2502.00681v1 wozengyi

在本报告中，我们提出了PP-Yoloe，这是一种具有高性能和友好部署的工业最先进的对象探测器。我们使用不含锚固范式，更强大的骨干和颈部配备了CSPREPRESSTAGE，ET-HEAD和动态标签分配算法TAL的基础，更强大的骨干和颈部优化。我们为不同的实践场景提供S/M/L/X模型 ...

0 0 0 2025/02/15 arXiv:2203.16250v3 122045890

我们研究大型语言模型（LLMS）是否可以以类似于专业人类分析师的方式成功执行财务报表分析。我们向GPT4提供标准化和匿名的财务报表，并指示模型分析它们以确定公司未来收益的方向。即使没有叙事或特定于行业的信息，LLM也表现出财务分析师的方向预测变化的能力 ...

0 0 0 2025/02/15 arXiv:2407.17866v2 wxf123