在大型语言模型(LLM)时代,推荐与搜索系统正经历从传统物品ID到丰富'语义ID'(Semantic IDs)的重大转型。这一变革引入了生成式检索和多模态嵌入技术,显著提升了系统处理冷启动覆盖、长尾内容发现的能力,并实现...
Read More近日,一篇关于将大语言模型(LLMs)编译为单一MegaKernel以实现低延迟推理的技术文章引发广泛讨论。该技术通过优化编译器设计,将传统需要多个内核调用的LLM推理过程整合为高度融合的单一内核,显著减少了内核启动...
Read More6月25日,知名分析机构451 Research与AI企业Glean将联合举办线上研讨会,深度探讨企业级AI向智能体(Agentic)转型的技术路径与市场机遇。本次会议将发布基于全球500强企业的AI应用调研数据,揭示智能体技术在自动化...
Read MoreDeepNVMe最新版本实现了多项突破性升级:首先扩展了对模型检查点(checkpointing)和推理工作负载的支持,使深度学习框架能更高效地管理训练中间状态;其次新增PCIe Gen5 NVMe的扩展能力,显著提升存储带宽以应对大...
Read More开发者Snouzy近日发布了全新的开源健身教练平台Workout.cool,这是其此前广受欢迎的开源项目workout.lol的迭代版本。原项目曾获得1.4k GitHub星标和约2万月访问量,但因视频版权问题被出售后陷入停滞。新版本从零开...
Read MoreKapa.ai最新发布的文档《Writing documentation for AI: best practices》详细探讨了为AI系统撰写高效文档的核心原则,尤其针对检索增强生成(RAG)技术栈的优化需求。文章指出,RAG系统的性能高度依赖知识库文档的...
Read More最新发布的o3-pro模型在回答质量上显著优于基础版o3,但其响应时间明显延长,且大规模API调用成本过高。技术团队建议用户通过聊天界面并行查询来优化使用效率。作为o3的同赛道产品,o3-pro目前仍定位于特殊场景解决...
Read More人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1,该模型采用创新的混合专家架构(MoE)并引入'闪电注意力'技术,实现百万token级别的超长上下文处理能力(相当于DeepSeek R1的8倍)。特别值得注意...
Read More