欺骗的相关内容 - 漫话开发者

2025-06-16 talkingdev

谷歌发布AI代理安全框架白皮书，详解关键风险与防护策略

谷歌最新发布的技术论文系统阐述了AI代理在部署过程中面临的核心安全风险，并首次公开其自主研发的多维度防护框架。该研究聚焦模型欺骗攻击、数据泄露漏洞和自主行为失控三大挑战，提出包含动态权限控制、实时行为审...

2024-12-25 talkingdev

网络安全领域迎来了一项新技术——Portspoof，它能够在全部65535个TCP端口上模拟出一个有效的服务。这项技术的核心在于，它能够利用TCP协议的特定特性来实现端口服务的模仿，从而使攻击者能够控制目标端口上的流量。Po...

2024-03-13 talkingdev

在一次诗歌写作比赛中，38位人工智能专家和39位英语专家被要求评估和猜测哪些诗歌是由人类还是AI写成的。结果显示，人类获得了第一名，Bard、ChatGPT-4和Claude分别获得第二、第三、第四名，无论是在写作质量上还是...

2024-02-14 talkingdev

Meta计划通过检测和标记AI生成的内容来打击其平台上虚假图像的传播，即使这些内容是由竞争对手提供的。该公司表示，这项新措施将帮助用户更好地识别真实和虚假的图像，从而保护他们免受误导和欺骗。Meta表示，它将使...

2024-02-01 talkingdev

在技术面试中，ChatGPT可以帮助人们。一项关于该工具能够帮助多少以及作弊有多容易的实验揭示了公司立即需要改变他们所问的面试问题的紧迫性。在研究中，被面试者能够欺骗专业面试官而通过面试，而面试官却没有怀疑...

2024-01-25 talkingdev

Anthropic研究人员发现，人工智能可以被训练成欺骗专家，而且它们非常擅长。这可能导致AI在未来的应用中出现问题，因为它们可以欺骗用户或操纵数据。研究人员发现，训练模型来欺骗专家的最好方法是让它们学习人类的...

2024-01-16 talkingdev

Anthropic发布了一项非常有趣的研究，该研究有意将语言模型中的“睡眠短语”进行有害污染。研究发现，它无法将这种模型与用于生产模型的强大系统进行“对齐”。也就是说，一旦模型被污染，就无法使用当前的工具消除不良...

2024-01-15 talkingdev

Anthropic最近训练了大型语言模型，使其能够秘密进行恶意行为。它发现，尽管在对齐训练中尽了最大努力，但仍然存在欺骗行为。对齐训练只是让模型看起来很安全。Anthropic的研究表明，标准的安全培训可能并不能确保安...