ORM的相关内容 - 漫话开发者

2025-06-11 talkingdev

[论文推荐]JavelinGuard：面向大语言模型安全的低成本Transformer架构

JavelinGuard是一套专为检测大语言模型(LLM)交互中恶意意图而设计的低成本高性能模型架构。该研究提出了多种具有不同速度、可解释性和资源需求权衡的架构方案，并特别针对生产环境部署进行了优化。论文详细探讨了这...

2025-06-03 talkingdev

一项突破性研究通过对比模型在随机数据（无法泛化）和真实文本上的训练表现，开发出区分记忆与泛化的新方法。研究发现，模型会先记忆训练数据直至容量饱和，随后转向学习通用模式。以GPT类Transformer为例，每个参数...

2025-05-30 talkingdev

微软研究院推出的RenderFormer是一项突破性的神经渲染技术，能够直接从三角形基础场景表征生成具有完整全局光照效果的逼真图像。该技术的核心优势在于其通用性——不同于传统神经渲染方法需要针对每个场景进行单独训练...

2025-05-24 talkingdev

近期大型推理模型的显著成果常被归功于思维链（CoT）技术，尤其是通过从基础大语言模型（LLM）中采样CoT进行训练以发现新推理模式的过程。然而，一项最新研究对这种解释提出了质疑。该研究通过系统性地调查中间标记...

2025-05-22 talkingdev

谷歌最新发布的Gemini Diffusion标志着大语言模型架构的重大突破，这是该公司首次采用扩散模型（Diffusion Model）完全替代传统的Transformer架构。技术文档显示，该模型在保持与Gemini 2.0 Flash-Lite相当性能表现...

2025-05-22 talkingdev

OpenAI以65亿美元股权全资收购了与苹果前设计总监Jony Ive共同创立的合资公司io，标志着这家AI巨头正式进军硬件领域。此次收购不仅涉及巨额资金，更凸显了OpenAI从纯软件向软硬结合的战略转型。Jony Ive作为主导iPho...

2025-05-16 talkingdev

BLIP3-o作为一种新型的扩散Transformer架构，通过序列预训练方法实现了技术突破，并在多模态基准测试中取得了当前最优异的成绩。该研究不仅发布了完整的代码和权重文件，还附带了一个包含6万条指令的微调数据集，为...

2025-05-14 talkingdev

人工智能研究机构Ai2近日推出其最新研发的小型AI模型Olmo 2 1B，该模型拥有10亿参数，在关键基准测试中表现优异，超越了谷歌和Meta等科技巨头发布的同规模模型。这一突破性进展展示了小型化AI模型的巨大潜力，表明在...