漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-03 talkingdev

Mistral AI发布Mistral 3系列开源模型:含稀疏MoE巨兽与多款密集模型

人工智能领域迎来重要开源进展。Mistral AI正式发布了其新一代Mistral 3系列模型,该系列包含两大技术路线:一是三款不同规模的密集模型(参数规模分别为140亿、80亿和30亿),二是备受瞩目的Mistral Large 3稀疏混...

Read More
2025-10-21 talkingdev

开源|DeepSeek-OCR:突破长上下文压缩瓶颈,日生成20万页训练数据

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术,探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

Read More
2025-09-18 talkingdev

Upscale AI获超1亿美元种子轮融资,基于开放标准构建AI网络基础设施新范式

人工智能基础设施初创公司Upscale AI近日宣布完成超过1亿美元的种子轮融资,本轮由Mayfield和Maverick Silicon联合领投。该公司专注于开发基于开放标准的网络工具套件,旨在解决AI计算中日益严峻的网络瓶颈问题。随...

Read More
2025-09-17 talkingdev

开源|揭秘月之暗面Kimi K2如何实现万亿参数模型20秒高效RL更新

月之暗面(Moonshot AI)团队在其技术博客中详细披露了Kimi K2模型在强化学习训练领域的重大突破。该团队成功实现了对1万亿参数模型的RL参数更新仅需约20秒,这一突破性进展解决了强化学习端到端训练过程中的关键效率...

Read More
2025-09-17 talkingdev

腾讯与百度今年境外债券发行总额达33亿美元,创中国科技公司纪录,为AI建设锁定低成本融资

中国互联网巨头腾讯和百度在2025年通过香港离岸人民币债券市场(点心债市场)合计发行33亿美元债券,创下中国科技企业有史以来最大规模的境外债券融资纪录。这一融资行为主要旨在为人工智能基础设施建设和技术研发获...

Read More
2025-08-20 talkingdev

深度解析GPU架构:从SM到Tensor Core及网络互联技术

这篇技术文章系统性地剖析了现代GPU的核心架构,重点阐述了流式多处理器(SM)的组织结构、CUDA核心与Tensor核心的协同工作机制,以及多层次内存体系的优化策略。文章不仅对比了历代GPU产品的规格演进,更从芯片层面深...

Read More
2025-07-03 talkingdev

AI大模型训练成本突破千万美元级 2024年全球已追踪201个超大规模模型

Epoch AI最新研究显示,人工智能领域正经历前所未有的计算规模扩张。2024年全球已追踪到201个计算量超过10²³ FLOPs的AI大模型,较2017年仅有的2个实现指数级增长。尤其值得注意的是,以GPT-4为代表的顶尖模型已突破1...

Read More
2025-06-03 talkingdev

[论文推荐]语言模型究竟记住了多少?揭秘记忆与泛化的边界

一项突破性研究通过对比模型在随机数据(无法泛化)和真实文本上的训练表现,开发出区分记忆与泛化的新方法。研究发现,模型会先记忆训练数据直至容量饱和,随后转向学习通用模式。以GPT类Transformer为例,每个参数...

Read More
  1. Next Page