漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-20 talkingdev

LLM编译技术重大突破:单核化Megakernel实现低延迟推理

传统大型语言模型(LLM)系统普遍存在硬件利用率低下的问题,主要源于GPU内核的序列化启动及跨设备通信开销。一支研究团队创新性地开发出专用编译器,可将LLM推理过程自动编译为单一megakernel(超级内核),通过三大...

Read More
2025-06-20 talkingdev

语言模型推理经济学:为何当前扩展方法遭遇瓶颈

首份关于大语言模型(LLM)服务经济学的综合模型揭示,随着AI公司竞相部署高token消耗的推理模型和智能体,当前扩展推理能力的方法比预期更快遭遇瓶颈。研究发现,网络延迟而非带宽成为主要瓶颈,阻碍了公司通过简单...

Read More
2025-06-20 talkingdev

LLM时代推荐与搜索系统的革新:语义ID与生成式检索的崛起

在大型语言模型(LLM)时代,推荐与搜索系统正经历从传统物品ID到丰富'语义ID'(Semantic IDs)的重大转型。这一变革引入了生成式检索和多模态嵌入技术,显著提升了系统处理冷启动覆盖、长尾内容发现的能力,并实现...

Read More
2025-06-20 talkingdev

将大语言模型编译为MegaKernel:低延迟推理的新路径

近日,一篇关于将大语言模型(LLMs)编译为单一MegaKernel以实现低延迟推理的技术文章引发广泛讨论。该技术通过优化编译器设计,将传统需要多个内核调用的LLM推理过程整合为高度融合的单一内核,显著减少了内核启动...

Read More
2025-06-19 talkingdev

企业级AI的未来是智能体?Glean与451 Research联合解析行业趋势

6月25日,知名分析机构451 Research与AI企业Glean将联合举办线上研讨会,深度探讨企业级AI向智能体(Agentic)转型的技术路径与市场机遇。本次会议将发布基于全球500强企业的AI应用调研数据,揭示智能体技术在自动化...

Read More
2025-06-19 talkingdev

DeepNVMe重大升级:扩展模型检查点与推理支持,引入PCIe Gen5 NVMe扩展能力

DeepNVMe最新版本实现了多项突破性升级:首先扩展了对模型检查点(checkpointing)和推理工作负载的支持,使深度学习框架能更高效地管理训练中间状态;其次新增PCIe Gen5 NVMe的扩展能力,显著提升存储带宽以应对大...

Read More
2025-06-19 talkingdev

Workout.cool-开源健身教练平台,助力个性化训练计划制定

开发者Snouzy近日发布了全新的开源健身教练平台Workout.cool,这是其此前广受欢迎的开源项目workout.lol的迭代版本。原项目曾获得1.4k GitHub星标和约2万月访问量,但因视频版权问题被出售后陷入停滞。新版本从零开...

Read More
2025-06-19 talkingdev

AI文档撰写最佳实践:提升RAG系统效能的关键

Kapa.ai最新发布的文档《Writing documentation for AI: best practices》详细探讨了为AI系统撰写高效文档的核心原则,尤其针对检索增强生成(RAG)技术栈的优化需求。文章指出,RAG系统的性能高度依赖知识库文档的...

Read More
  1. Prev Page
  2. 70
  3. 71
  4. 72
  5. Next Page