一译 —— 文档和论文翻译、对照阅读、讨论和社区

FLAME: Flexible LLM-Assisted Moderation Engine

大型语言模型（LLMS）的快速发展在调节用户模型交互时提出了重大挑战。尽管LLM具有显着的功能，但它们仍然容易受到对抗攻击的影响，尤其是绕过内容安全措施的``越狱''技术。当前的内容审核系统主要依赖于输入提示过滤，这是事实证明的不足，其技术诸如N（BON）越狱之类的技术在对流行的LLM中的成功率达到80％或以上 ...

0 0 0 2025/03/03 arXiv:2502.09175v1 baishanxiaoqi

Unveiling the Capabilities of Large Language Models in Detecting Offensive Language with Annotation Disagreement

大型语言模型（LLM）对于进攻性语言检测至关重要，但是他们处理注释分歧的能力仍然没有得到充实的态度。由主观解释引起的分歧样本由于其模棱两可的性质构成了独特的挑战。了解LLM如何处理这些案件，尤其是其信心水平，可以洞悉其与人类注释者的一致性 ...

0 0 0 2025/03/03 arXiv:2502.06207v2 baishanxiaoqi

Towards Safer Social Media Platforms: Scalable and Performant Few-Shot Harmful Content Moderation Using Large Language Models

社交媒体平台上有害内容的普遍性给用户和社会带来了重大风险，因此需要更有效，可扩展的内容审核策略。当前的方法依赖于人类主持人，监督分类器和大量培训数据，并且经常在可扩展性，主观性和有害内容的动态性质上挣扎（例如， ...

0 0 0 2025/03/03 arXiv:2501.13976v1 baishanxiaoqi

Meta-Learning and representation learner: A short theoretical note

元学习或“学习学习”是机器学习的一个子领域，其目标是开发模型和算法，可以从各种任务中学习并随着时间的推移改善他们的学习过程。与专注于学习特定任务的传统机器学习方法不同，元学习旨在利用先前任务的经验来增强未来的学习。在新任务的可用数据有限但存在相关任务的大量数据的情况下，这种方法尤其有益 ...

0 0 0 2025/03/03 arXiv:2407.04189v2 wide-sky

Watching the AI Watchdogs: A Fairness and Robustness Analysis of AI Safety Moderation Classifiers

AI安全审核（ASM）分类器旨在适度社交媒体平台上的内容，并充当防止大型语言模型（LLMS）在不安全输入上进行微调的护栏。由于它们对不同影响的潜力，至关重要的是要确保这些分类器：（1）与多数群体相比，不要不公平地将属于少数群体的用户的内容分类为不安全，并且（2）他们的行为在相似的投入中保持强大和一致。在这项工作中，我们研究了四个广泛使用的，封闭的ASM分类器的公平性和鲁棒性：OpenAI Meig ...

0 0 0 2025/03/03 arXiv:2501.13302v1 baishanxiaoqi

Refining Input Guardrails: Enhancing LLM-as-a-Judge Efficiency Through Chain-of-Thought Fine-Tuning and Alignment

大型语言模型（LLMS）表现出强大的功能，使它们在包括对话AI产品在内的不同应用中具有价值。通过减轻恶意用户互动的脆弱性来确保这些产品的安全性和可靠性至关重要，这可能导致巨大的风险和声誉影响。在这项工作中，我们介绍了一项有关对不同LLM的微调和对齐链链（COT）响应的疗效的全面研究，这些响应（COT）是输入节制护栏的功效 ...

0 0 0 2025/03/03 arXiv:2501.13080v1 baishanxiaoqi

FedLED: Label-Free Equipment Fault Diagnosis with Vertical Federated Transfer Learning

基于联邦转移学习（FTL）的智能设备故障诊断（FTL）引起了学术界和行业的极大关注。它允许实际样品有限的现实世界工业代理人构建故障诊断模型，而不会危害其原始数据隐私。但是，现有的方法既不能解决由实践代理的不同工作条件引起的强烈样本异质性，也不能解决新部署的设备的极端断层标签稀缺性，甚至零 ...

0 0 0 2025/03/03 arXiv:2312.17451v1 guigui

EverAdapt: Continuous Adaptation for Dynamic Machine Fault Diagnosis Environments

无监督的域适应性（UDA）已成为数据驱动故障诊断的关键解决方案，以解决域移动，其中模型在不断变化的环境中表现不佳。但是，在不断变化的环境的领域，UDA在适应新的域时往往不佳，这是一个被称为灾难性遗忘的问题。为了解决此限制，我们介绍了Everadapt框架，该框架专为动态环境中的连续模型适应而设计 ...

0 0 0 2025/03/03 arXiv:2407.17117v1 guigui

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）