漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-01 talkingdev

OpenAI揭秘GPT-5.1“哥布林隐喻”行为偏差:细微奖励信号如何重塑模型个性

OpenAI在一项最新研究中揭示了GPT-5.1模型一个有趣的行为现象:随着使用频率增加,模型在生成文本时越来越倾向于使用“哥布林”(goblin)风格的隐喻表达。研究表明,这一“哥布林怪癖”并非模型随机涌现的幻觉,而是直...

Read More
2026-04-20 talkingdev

独家揭秘:Anthropic发布Claude Opus 4.7,系统提示词更新细节曝光

在人工智能领域,系统提示词(System Prompt)是塑造大型语言模型行为与输出的核心指令,通常被各大AI实验室视为高度机密。然而,Anthropic公司却独树一帜,成为唯一一家持续公开其面向用户的聊天系统(如Claude)完...

Read More
2026-03-07 talkingdev

开源|OBLITERATUS:一款旨在移除开源大语言模型审查限制的工具引发热议

近日,一个名为OBLITERATUS的开源项目在开发者社区及技术新闻平台Hacker News上引发了广泛关注与讨论。该项目由开发者elder-plinius在GitHub上发布,其核心目标是“粉碎束缚你的枷锁”,具体指向为移除或绕过开源、开...

Read More
2026-02-24 talkingdev

Anthropic指控多家中国AI公司大规模“蒸馏攻击”,试图窃取Claude核心技术

人工智能安全与研究公司Anthropic近日公开披露,其检测到并成功阻止了针对其旗舰AI模型Claude的大规模“知识蒸馏”攻击。Anthropic指控中国AI公司深度求索(DeepSeek)、月之暗面(Moonshot AI)以及MiniMax创建了超过...

Read More
2025-09-19 talkingdev

GPT-5重大更新:模型具备时间感知能力,安全测试面临新挑战

OpenAI最新发布的GPT-5 API展现出突破性特性——该模型成为首个具备实时时间感知能力的大型语言模型。这一技术演进引发学术界高度关注,因为当模型知晓当前日期时,能够识别出自身正处于测试环境中。研究表明,AI模型...

Read More
2025-07-07 talkingdev

[开源] 我提取了Apple Intelligence模型的安全过滤器

近日,一位开发者成功逆向工程了Apple Intelligence生成式模型的安全过滤器加密机制(在框架中被称为“混淆”),并将这些过滤器提取到一个公开的GitHub仓库中。这一发现揭示了苹果如何在其AI模型中实施内容安全控制,...

Read More
2025-06-26 talkingdev

AI聊天机器人内部指令与行为准则遭泄露

近日,GitHub上出现了一个名为System_prompts_leaks的仓库,其中收集了多个AI聊天机器人和模型的泄露系统提示(system prompts),揭示了这些AI的内部指令和行为准则。这一发现引发了广泛关注,因为系统提示是AI模型...

Read More
2025-06-11 talkingdev

[论文推荐]JavelinGuard:面向大语言模型安全的低成本Transformer架构

JavelinGuard是一套专为检测大语言模型(LLM)交互中恶意意图而设计的低成本高性能模型架构。该研究提出了多种具有不同速度、可解释性和资源需求权衡的架构方案,并特别针对生产环境部署进行了优化。论文详细探讨了这...

Read More
  1. Next Page