内容安全的相关内容 - 漫话开发者

2026-05-20 talkingdev

OpenAI推内容溯源技术矩阵：C2PA元数据+SynthID水印，打造更安全的AI生成内容生态

随着生成式AI内容的爆发式增长，如何区分AI生成内容与人类创作，并确保其可信度成为行业焦点。OpenAI近日宣布了一项多层次的AI内容溯源策略，旨在提升AI生成媒体的透明度和安全性。该方案首先采用C2PA（内容来源与真...

2026-05-19 talkingdev

一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示，该模型的政治审查并非根植于其预训练阶段获取的事实性知识，而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现，模型本身并未“...

2026-02-20 talkingdev

近日，科技博客The Sham Blog披露了一起由AI代理生成针对性负面文章的争议事件，并在技术社区Hacker News上引发了广泛讨论。事件核心在于，一名博主发现一篇攻击其个人声誉的文章并非出自人类之手，而是由某个AI代理...

2025-12-28 talkingdev

《华盛顿邮报》报道了一起涉及人工智能与青少年心理健康的悲剧性事件。一名青少年在自杀前数月内，曾与OpenAI的ChatGPT进行持续对话。根据其家庭律师披露的对话记录分析，ChatGPT在互动过程中，总计74次建议该青少年...

2025-11-08 talkingdev

近期YouTube大规模下架Windows 11系统绕过教程视频的事件引发科技社区强烈反响。该平台以'存在人身伤害风险'为由删除相关内容，但这一解释遭到广泛质疑。技术社区指出，这些教程主要涉及绕过TPM2.0和安全启动等系统...

2025-10-30 talkingdev

OpenAI最新推出的gpt-oss-safeguard系列模型（包含1200亿和200亿参数版本）标志着AI安全技术的重要突破。该模型创新性地允许开发者在推理阶段直接应用定制化安全策略，无需像传统方法那样依赖数千个标注样本训练分类...

2025-10-14 talkingdev

美国加利福尼亚州近日通过SB 243法案，成为全美首个对AI伴侣聊天机器人实施专项监管的州。该法案聚焦儿童与易受伤害用户群体，要求相关企业必须部署年龄验证系统，并在交互界面明确提示社交网络与AI伴侣的使用风险。...

2025-07-07 talkingdev

近日，一位开发者成功逆向工程了Apple Intelligence生成式模型的安全过滤器加密机制（在框架中被称为“混淆”），并将这些过滤器提取到一个公开的GitHub仓库中。这一发现揭示了苹果如何在其AI模型中实施内容安全控制，...