计算效率的相关内容 - 漫话开发者

2024-03-04 talkingdev

关于LLM量化的全面研究

随着人工智能模型的不断发展，越来越多的研究人员开始研究如何在不影响模型准确性的前提下，提高模型的计算效率和内存利用率。LLM量化是一种后训练量化技术，可以使像OPT和LLaMA2这样的大型语言模型更具内存和计算效...

2024-02-09 talkingdev

近期，人工智能研究的重点从单纯的准确性和广度转向了效率和深度。英伟达的H100销售和AI能源的不断增长凸显了该行业的规模。投资要求盈利，将研究重点转向了像Phi 2这样更小、更高效的模型，并强调从模型架构到部署...

2024-02-08 talkingdev

近日，一项研究探讨了如何通过采用参数更少的微型语言模型，使得强大的语言模型更适合移动设备。研究人员发现，相较于传统的大型语言模型，微型语言模型在保证语言表达能力的前提下，可以极大地减少模型参数，从而显...

2024-01-29 talkingdev

SegMamba是一种专为3D医学图像分割设计的模型，它提供了一种比Transformer架构更高效的替代方案。SegMamba采用全卷积神经网络架构，可以对3D医学图像进行有效的分割，尤其是在肿瘤分割方面表现出色。与传统的医学影...

2023-12-15 talkingdev

这项研究介绍了一种使用降阶建模压缩大型语言模型的方法，可以显著减少内存和时间限制，而无需高端硬件。由于大型语言模型在自然语言处理中的应用越来越广泛，因此压缩这些模型以提高计算效率变得尤为重要。研究人员...

2023-11-09 talkingdev

跨视角训练（SCT）可以提高小型语言模型的性能，使其能够生成先前仅可由较大模型实现的句子嵌入，从而优化性能和计算效率。

2023-10-19 talkingdev

研究人员开发出BitNet，这是一种新的大型语言模型设计，使用更少的能量和内存。BitNet使用一种新的技术来平衡模型的准确性和计算效率，同时减少了对大量数据的依赖。这一新设计的目的是为了降低大型语言模型的计算成...

2023-08-31 talkingdev

近日，一篇深度解析如何使用PyTorch 2.0的torch.compile和Nvidia CUDA图表功能提升深度学习模型性能的文章引起了广泛关注。该文章详细介绍了借助CUDA图表在Llama 2上实现了2.3倍的速度提升。这对于对性能敏感的AI从...