漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-01 talkingdev

开源|E2E:基于JAX的端到端测试时训练框架,革新长上下文语言建模

近日,GitHub上开源了一个名为E2E的JAX官方实现项目,它提出了一种创新的长上下文语言建模方法。该方法的核心在于将传统的语言建模任务重新定义为持续学习问题。E2E模型采用标准的Transformer架构,并配合滑动窗口注...

Read More
2026-01-01 talkingdev

开源|LMCache:为LLM服务注入极速KV缓存层,响应速度提升3-10倍

近日,一个名为LMCache的开源项目在GitHub上发布,旨在通过创新的键值(KV)缓存加速层,显著提升大型语言模型(LLM)的服务性能。该项目专为LLM推理服务设计,其核心在于能够跨GPU、CPU、本地磁盘和Redis等多种存储...

Read More
2025-12-23 talkingdev

图解Transformer经典:让复杂架构一目了然

一篇题为《图解Transformer》的技术博客在开发者社区Hacker News上引发了广泛关注,该博客由jalammar撰写,通过大量直观的图示和清晰的解释,深入浅出地剖析了Transformer这一革命性神经网络架构的核心工作原理。Tra...

Read More
2025-12-02 talkingdev

开源|ViBT:20B参数视觉桥接Transformer,高效图像与视频编辑新突破

近日,GitHub上开源了一个名为ViBT(Vision Bridge Transformer)的项目,该项目将布朗桥模型(Brownian Bridge Models)扩展至高达200亿参数规模,专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...

Read More
2025-12-02 talkingdev

开源|苹果发布STARFlow与STARFlow-V:基于Transformer自回归流的图像与视频生成新突破

苹果公司在Hugging Face平台开源了STARFlow与STARFlow-V模型,标志着图像与视频生成领域迎来了一项重要的技术进展。STARFlow是一种创新的Transformer自回归流模型,其核心在于巧妙地将自回归模型强大的表达能力与归...

Read More
2025-11-24 talkingdev

揭秘大语言模型推理机制:从输入到输出的技术全流程

大语言模型(LLM)作为基于Transformer架构的神经网络,通过并行分析完整序列并计算词语间的全局关联性,实现了自然语言处理的突破性进展。在推理过程中,模型首先将输入文本转化为数字化的词元嵌入向量,随后通过Tr...

Read More
2025-11-22 talkingdev

月之暗面新一轮融资估值达40亿美元,Kimi模型开发者拟2026下半年IPO

据《华尔街日报》报道,中国人工智能公司月之暗面(Moonshot AI)正启动新一轮数亿美元规模的融资,估值预计达40亿美元。该公司开发的Kimi智能助手凭借超长上下文处理能力成为行业焦点,目前已向潜在投资者透露计划...

Read More
2025-11-17 talkingdev

开源|字节跳动Seed团队发布Depth Anything 3:通用单/多视图深度估计新突破

字节跳动Seed团队在GitHub开源了Depth Anything 3(DA3)项目,这是深度估计领域的重要进展。该模型通过纯Transformer架构和创新的深度射线表示法,实现了无需相机位姿信息的单视图或多视图图像空间一致性深度估计。...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page