"深度学习"的相关内容 - 漫话开发者

2024-04-09 talkingdev

用C/CUDA语言训练大型语言模型，无需依赖PyTorch

近期，Andrei Karpathy推出了一个名为llm.c的项目，该项目展示了如何使用C和CUDA编程语言来训练大型语言模型（LLM）。这一创新方法避免了对PyTorch等大型深度学习框架的依赖，尤其是其所需的250MB以上的资源。这种训...

2024-03-27 talkingdev

SegRefiner作为一种创新的模型无关解决方案，通过将细化过程视为数据生成过程，显著提升了各种分割任务中的对象掩膜质量。该技术通过离散扩散过程逐像素细化粗糙掩膜，从而提高分割和边界指标的精确度。这一方法的核...

2024-03-26 talkingdev

PSALM是大型多模态模型（LMM）的扩展版本，通过引入一个掩码解码器和多功能输入模式，在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制，而且还使模型能够有效理解和分类复杂图像。PSALM的创...

2024-03-22 talkingdev

两年后，人工智能领域的怀疑论者Gary Marcus再次审视他的预测并坚持他最初的看法。尽管像GPT-4这样的进步令人瞩目，但像真正的理解力和值得信赖的AI这样的根本问题仍未解决。Marcus总结认为，仅靠增加数据量和计算能...

2024-03-15 talkingdev

这项工作表明，您可以单独训练模型，然后将它们合并成单个Mixture-of-Experts模型。

2024-03-06 talkingdev

SURE技术是一种将多种技术结合起来，提高深度神经网络对于图像分类任务中不确定性预测可靠性的新方法。该方法通过模型置信度估计、模型不确定性估计和置信度校准三个步骤来实现置信度的提高。SURE技术的应用将大大提...

2024-03-05 talkingdev

一篇理论论文试图解释MuP超参数转移的成功。其作者发现训练损失Hessian矩阵的最大特征值与网络的宽度和深度无关。

2024-02-29 talkingdev

FuseChat推出了一种创新的方式，将多个大型语言模型的优势融合成一个更强大的模型，而不需要进行高成本的从头训练。