微软研究小组在一篇论文中提到,GPT-3.5-turbo(ChatGPT背后的模型)是一个具有20B参数的模型,该小组研究扩散模型用于代码。据称原始模型的参数为175B,因此可能进行了重新训练或蒸馏。
Read More本篇博客旨在为读者提供构建第一个LLM应用程序所需的一切知识。它还介绍了一些读者今天可以开始探索的问题空间。本博客涵盖了LLM应用程序的新兴架构以及LLM的现实影响。提供了进一步阅读的资源。
Read More近日,一项名为‘Real-Time Depth Estimation for Underwater Vehicles’的研究成果在GitHub上发布。该研究提出了一种针对水下车辆的模型,可以通过结合稀疏深度细节从单个图像中实时估计深度。该模型是通过深度学习框...
Read MoreHuggingFace 上现已推出 Fuyu-8B,这是一款专为数字代理设计的多模态模型。与其他多模态模型不同的是,它具有简化的架构,并支持任意图像分辨率,在不到 100 毫秒的时间内响应大图像。尽管针对特定应用程序,Fuyu-8B...
Read More这项研究介绍了Zipformer,一种用于自动语音识别(ASR)的改进Transformer模型,它更快、占用更少内存,而且比广泛使用的Conformer效果更好。Zipformer是一种新型的语音识别模型,它使用了一种全新的架构,能够更快...
Read More研究人员开发出BitNet,这是一种新的大型语言模型设计,使用更少的能量和内存。BitNet使用一种新的技术来平衡模型的准确性和计算效率,同时减少了对大量数据的依赖。这一新设计的目的是为了降低大型语言模型的计算成...
Read MoreAdept发布了一个极其简单(没有图像编码器)而且非常高效(超过了13B模型)的多模式模型。这篇文章概述了Adept如何评估模型的性能以及一些模型的细节。
Read More本文列出了程序员应了解的云计算成本清单,并对成本进行了详细的分解。了解这些数字将有助于程序员为各种不同的项目进行快速成本估算。他们只需要了解项目的架构和规模,就可以计算出一个大致的成本,而不需要任何复...
Read More