漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-09 talkingdev

用C/CUDA语言训练大型语言模型,无需依赖PyTorch

近期,Andrei Karpathy推出了一个名为llm.c的项目,该项目展示了如何使用C和CUDA编程语言来训练大型语言模型(LLM)。这一创新方法避免了对PyTorch等大型深度学习框架的依赖,尤其是其所需的250MB以上的资源。这种训...

Read More
2024-03-27 talkingdev

论文:SegRefiner模型无关解决方案提升对象分割精度

SegRefiner作为一种创新的模型无关解决方案,通过将细化过程视为数据生成过程,显著提升了各种分割任务中的对象掩膜质量。该技术通过离散扩散过程逐像素细化粗糙掩膜,从而提高分割和边界指标的精确度。这一方法的核...

Read More
2024-03-26 talkingdev

PSALM:面向图像分割任务的多模态模型扩展

PSALM是大型多模态模型(LMM)的扩展版本,通过引入一个掩码解码器和多功能输入模式,在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制,而且还使模型能够有效理解和分类复杂图像。PSALM的创...

Read More
2024-03-22 talkingdev

深度学习面临的核心挑战依旧未解:马库斯重申怀疑论

两年后,人工智能领域的怀疑论者Gary Marcus再次审视他的预测并坚持他最初的看法。尽管像GPT-4这样的进步令人瞩目,但像真正的理解力和值得信赖的AI这样的根本问题仍未解决。Marcus总结认为,仅靠增加数据量和计算能...

Read More
2024-03-15 talkingdev

Branch-Train-MiX:将专家LLM混合到Mixture-of-Experts LLM中

这项工作表明,您可以单独训练模型,然后将它们合并成单个Mixture-of-Experts模型。

Read More
2024-03-06 talkingdev

SURE-提高神经网络图像分类置信度

SURE技术是一种将多种技术结合起来,提高深度神经网络对于图像分类任务中不确定性预测可靠性的新方法。该方法通过模型置信度估计、模型不确定性估计和置信度校准三个步骤来实现置信度的提高。SURE技术的应用将大大提...

Read More
2024-03-05 talkingdev

论文:为什么学习率可以转移?

一篇理论论文试图解释MuP超参数转移的成功。其作者发现训练损失Hessian矩阵的最大特征值与网络的宽度和深度无关。

Read More
2024-02-29 talkingdev

FuseChat-将多个LLM的优势融合为更强单一模型

FuseChat推出了一种创新的方式,将多个大型语言模型的优势融合成一个更强大的模型,而不需要进行高成本的从头训练。

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page