漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-07 talkingdev

[论文推荐]Chain of Draft:高效推理新范式,显著降低计算成本

近日,一项名为Chain of Draft的创新推理策略在arXiv预印本平台引发关注。该技术通过精简推理路径设计,在保持与经典Chain-of-Thought方法相当甚至更高准确率的前提下,显著降低了大型语言模型的token消耗量。实验数...

Read More
2025-05-07 talkingdev

AutoRound:突破性后训练量化技术显著提升低比特模型精度

近期,Hugging Face发布了一项名为AutoRound的后训练量化技术,该技术能够在保持模型性能和效率的同时,显著提升低比特量化模型的精度。这一突破性进展为边缘计算和移动端设备部署轻量级AI模型提供了新的可能性,解...

Read More
2025-05-06 talkingdev

[论文推荐]单层Transformer模型实现奇偶校验任务的理论与实证分析

最新研究通过理论与实证分析揭示了单层Transformer模型在完成奇偶校验等复杂任务时的学习机制。研究表明,这类极简架构不仅能捕捉输入数据的配对关系,其训练动态还展现出与深层模型截然不同的特征。尤为值得注意的...

Read More
2025-05-06 talkingdev

Jure Leskovec提出STaRK、AvaTaR和CollabLLM框架,推动AI代理实现推理与协作

在The Web Conference的主题演讲中,斯坦福大学教授Jure Leskovec介绍了三种创新框架——STaRK、AvaTaR和CollabLLM,这些框架旨在提升AI代理的推理能力、协作效率和假设检验功能。STaRK通过知识图谱增强AI的知识检索与...

Read More
2025-05-05 talkingdev

阿里巴巴发布Qwen 3系列AI模型,号称可媲美谷歌与OpenAI顶级模型

阿里巴巴近日正式推出Qwen 3系列人工智能模型,该系列模型采用混合专家架构(Mixture of Experts),具备先进的推理能力,并宣称其性能可媲美谷歌和OpenAI的顶级模型。Qwen 3系列模型支持119种语言,训练数据规模高...

Read More
2025-05-03 talkingdev

Anemll开源-在苹果神经引擎上运行大语言模型

GitHub最新开源项目Anemll(Artificial Neural Engine Machine Learning Library)引发开发者社区广泛关注,该项目实现了在苹果设备神经引擎(ANE)上高效运行大语言模型(LLMs)的技术突破。作为专为ANE优化的机器学习...

Read More
2025-05-02 talkingdev

艾伦AI研究所发布开源语言模型OLMo-2-1B,推动透明化AI研究

艾伦人工智能研究所(Allen Institute for AI)近日发布了OLMo-2-1B语言模型,这是一款参数规模为1B的小型开源模型。该项目的突破性意义在于其完全透明的训练范式:研究团队不仅公开了模型权重,还完整披露了训练数...

Read More
2025-05-02 talkingdev

微软推出Phi-4-reasoning变体,推动小型语言模型在效率与推理能力上的突破

微软近日发布了Phi-4-reasoning系列变体,这一创新标志着小型语言模型(SLMs)在效率与复杂推理能力上的重大进展。Phi-4-reasoning通过算法优化和架构改进,在保持参数规模精简的同时,实现了接近大型语言模型(LLMs...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page