架构的相关内容 - 漫话开发者

2025-04-26 talkingdev

重大安全漏洞曝光：HiddenLayer发现影响GPT-4等主流大语言模型的通用提示注入绕过技术

网络安全公司HiddenLayer最新研究揭示了一种影响GPT-4、Claude、Gemini等主流大语言模型(LLM)的通用提示注入绕过技术，该发现暴露了当前LLM安全架构中的重大缺陷。这项被称为'策略木偶提示'(Policy Puppetry Prompt)...

2025-04-26 talkingdev

开发者Anders和Tom近日在Hacker News上宣布推出Magnitude，一个完全开源的、基于视觉大模型（VLM）的端到端Web应用测试框架。该框架旨在解决传统浏览器代理测试工具速度慢、成本高且结果不一致的问题。Magnitude采用...

2025-04-25 talkingdev

近日，Hugging Face Hub发布的Omdet Turbo技术标志着实时开放词汇对象检测领域取得显著进展。该技术通过优化模型架构和算法效率，在保持高精度的同时大幅提升检测速度，解决了传统对象检测系统在动态场景中响应延迟...

2025-04-25 talkingdev

近日，自然语言处理领域迎来一项重要技术突破——MiniPLM框架正式发布。该框架创新性地提出了一种高效的小型语言模型（SLM）预训练方法，通过从大型语言模型（LLM）中提取知识进行蒸馏训练，显著提升了小模型的性能表...

2025-04-25 talkingdev

随着人工智能模型复杂度呈指数级增长，可解释性研究已成为保障AI系统安全可靠的核心议题。斯坦福大学研究员Dario Amodei在最新论述中指出，当前Transformer架构的参数量已突破万亿级别，但决策黑箱问题导致医疗诊断...

2025-04-24 talkingdev

ARC Prize基金会近期采用ARC-AGI基准对OpenAI最新发布的o3-medium和o4-mini模型进行了系统评估。测试结果显示，o3-medium在基础版ARC-AGI-1测试中表现突出，但在需要高阶推理能力的ARC-AGI-2挑战集上未能取得突破性...

2025-04-24 talkingdev

近日，一项名为低至高多级Transformer（Low-to-high Multi-Level Transformer）的新技术针对当前视觉Transformer（ViT）在图像超分辨率任务中存在的复杂性和效率低下问题提出了创新解决方案。该技术通过优化Transfor...

2025-04-24 talkingdev

最新研究表明，采用混合专家模型（MoE）架构的DeepSeek-V3/R1在多节点GPU部署中展现出显著性能优势。该模型通过创新的资源分配机制，在绝大多数应用场景下同步实现了更高吞吐量和更低延迟的双重突破。技术分析显示，...