漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-05 talkingdev

[开源]TScale-基于消费级GPU的分布式训练框架

GitHub开源项目TScale提出了一种创新性的分布式训练解决方案,允许开发者在消费级GPU集群上高效运行大规模模型训练。该项目通过优化通信协议和资源调度算法,显著降低了分布式训练的硬件门槛,使中小型研究团队也能...

Read More
2025-05-02 talkingdev

微软推出Phi-4-reasoning变体,推动小型语言模型在效率与推理能力上的突破

微软近日发布了Phi-4-reasoning系列变体,这一创新标志着小型语言模型(SLMs)在效率与复杂推理能力上的重大进展。Phi-4-reasoning通过算法优化和架构改进,在保持参数规模精简的同时,实现了接近大型语言模型(LLMs...

Read More
2025-04-22 talkingdev

[论文推荐]LOO-StabCP:基于留一法稳定性的快速保形预测方法

近期arXiv平台发表的研究论文《LOO-StabCP: Fast Conformal Prediction via Leave-One-Out Stability》提出了一种突破性的保形预测加速技术。该方法通过创新的留一法稳定性(Leave-One-Out Stability)策略,在保持...

Read More
2025-04-17 talkingdev

Unsure Calculator:一款基于概率的快速估算工具

近日,一款名为Unsure Calculator的创新工具在技术社区引发关注。该工具被设计为一款基于概率的快速估算计算器,其核心理念是让用户能够像在餐巾纸上进行快速计算一样,轻松处理包含不确定性的数学问题。Unsure Calc...

Read More
2025-04-02 talkingdev

Open Hands推出32B代码模型,在代理编码任务中超越更大规模模型

Open Hands团队最新发布的32B参数代码模型(Open Hands LM-32B)在强化学习(RL)训练框架下,基于Qwen架构实现了突破性进展。该模型在代理编码任务(agentic coding tasks)中的表现已超越许多参数规模更大的竞品,...

Read More
2025-04-01 talkingdev

[开源]扩散模型最优步长研究(Optimal Stepsize in Diffusion Models)实现10倍加速

GitHub最新开源项目Optimal Stepsize for Diffusion Sampling (OSS)通过动态规划算法优化了扩散模型的采样步长调度方案。这项突破性技术能在保持生成质量近乎无损的情况下,将采样速度提升10倍。该研究解决了扩散模...

Read More
2025-03-24 talkingdev

[开源] 高效遥感模型:DynamicVis

DynamicVis 是一种用于遥感动态视觉感知的基础模型,能够高效解析超大型图像,同时显著降低内存和计算需求。该模型通过先进的算法优化,使得处理大规模遥感数据变得更为经济和高效,因此在遥感技术领域具有重要的应...

Read More
2025-02-25 talkingdev

Moonshot推出Block Attention混合算法,提升长上下文LLM性能

近日,Moonshot发布了一项名为Block Attention混合算法的创新技术,该算法在长上下文语言模型(LLM)中的应用表现卓越,被认为可与NSA相媲美。Block Attention混合算法通过优化注意力机制,显著提升了模型在处理长文...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page