漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-21 talkingdev

梁文峰与DeepSeek的开源AI探索之旅

梁文峰,一位对冲基金经理,推出了自筹资金的开源AI平台DeepSeek,该平台因其创新的LLM(如DeepSeek-R1)而迅速获得全球关注,这些模型可与OpenAI的模型相媲美。DeepSeek采用更具成本效益的训练方法,并兼容消费级硬...

Read More
2025-02-21 talkingdev

Model-Guidance技术提升扩散模型训练效率,ImageNet 256基准测试表现卓越

近日,一项名为Model-Guidance(MG)的技术在扩散模型训练领域取得了突破性进展。该技术通过引入后验概率优化目标,显著提升了扩散模型的训练速度和推理效率。实验结果显示,采用MG技术的扩散模型在ImageNet 256基准...

Read More
2025-02-20 talkingdev

论文:突破极限,单向量嵌入1568个Token的技术探索

近日,一项关于表示容量极限的研究引起了广泛关注。该研究尝试将尽可能多的Token嵌入到一个固定大小的向量中,成功实现了将1568个Token压缩至单一向量。这一突破不仅展示了embedding技术的强大潜力,也为LLM和agent...

Read More
2025-02-18 talkingdev

fal完成4900万美元B轮融资,推动AI视频技术未来发展

近日,fal成功完成了由Notable Capital领投的4900万美元B轮融资,a16z等机构也参与了本轮投资,使得公司总融资额达到7200万美元。fal致力于扩展其AI驱动的生成媒体平台,特别是在视频内容领域,服务于广告和游戏等行...

Read More
2025-02-16 talkingdev

Schemesh:Unix shell与Lisp REPL的融合创新

近日,一款名为Schemesh的新型工具引起了技术界的广泛关注。Schemesh成功地将Unix shell与Lisp REPL(Read-Eval-Print Loop)进行了深度融合,为开发者提供了一种全新的交互式编程体验。Unix shell以其强大的命令行...

Read More
2025-02-14 talkingdev

论文:Jakiro利用Mixture of Experts优化Speculative Decoding,提升推理速度

近日,Jakiro团队通过引入Mixture of Experts(MoE)技术,成功优化了Speculative Decoding的性能。该方法通过生成多样化的预测结果,减少了候选预测之间的相关性,从而显著提升了推理速度。Speculative Decoding作...

Read More
2025-02-13 talkingdev

DeepScaleR:通过扩展RL训练,1.5B模型超越O1-Preview

近期,DeepScaleR的研究成果引起了广泛关注。该研究通过扩展强化学习(RL)训练,成功开发出一款1.5B参数的模型,其性能超越了O1-Preview。研究团队采用了一种独特的方法,即在RL训练过程中逐步增加上下文长度,从而...

Read More
2025-02-04 talkingdev

DeepSeek AI模型颠覆市场,创新或重塑AI竞争格局

DeepSeek的AI模型以其显著低于其他领先模型的训练成本,正在颠覆AI市场。这一突破性进展不仅挑战了Nvidia等科技巨头的地位,还展示了资源高效利用的潜力。传统观念认为,更高的投入意味着更好的性能,但DeepSeek的成...

Read More
  1. Prev Page
  2. 26
  3. 27
  4. 28
  5. Next Page