模型的相关内容 - 漫话开发者

2023-10-03 talkingdev

视频模型高效训练，仅需一台机器和八个标准GPU

训练优秀的视频模型通常需要巨大的资源，这种需求往往超出了学术界的承受范围。现在，研究人员已经找到了一种方法，只需要使用一台配备八个标准GPU的机器，在一天内就能完成这些模型的训练。这意味着，我们不再需要...

2023-10-03 talkingdev

光流技术是帮助我们理解图像中物体运动的重要技术。一项新的研究利用高斯注意力(Gaussian Attention)，专注于更细微的细节并更好地将它们匹配起来，从而研发出了一个名为GAFlow的模型。高斯注意力的使用，可以使光流...

2023-10-03 talkingdev

语言模型的性能往往受到其上下文长度的限制。一般来说，上下文长度的限制主要源于计算硬件和聪明的算法更新。StreamingLLM（Github Repo）提供了一种算法更新，通过将令牌流式传输至注意力机制，理论上可以支持无限...

2023-10-03 talkingdev

Cloudflare近日发布了一款名为“Workers AI”的无服务器人工智能推断平台，该平台运行在其全球GPU网络上。Workers AI提供了多种流行的开源模型，并与Hugging Face进行了合作。通过无服务器计算的方式，用户可以在Cloud...

2023-10-02 talkingdev

Dataiku近日发布了LLM Mesh，以解决在企业中集成LLM的有效、可扩展、安全平台的紧迫需求。LLM Mesh位于LLM服务提供商和最终用户应用之间，公司可以根据自己的需求选择最具成本效益的模型，以确保其数据和响应的安全...

2023-10-02 talkingdev

最新的研究成果Transformer-VQ，是一种全新设计的Transformer，由于其独特的基于向量的键和缓存功能，使得处理注意力的速度得到了显著的提升。这种新型的Transformer设计，不仅提高了处理速度，同时也保持了数据的准...

2023-10-02 talkingdev

近几周出现的最酷、最简洁的视觉论文之一。视觉变换器使用“无用”的像素值作为存储全局信息的地方，这使得注意力映射变得难以解读。然而，如果你向词汇表中加入一个简单的 [reg] 标记，模型就会使用它，而不会将信息...

2023-10-02 talkingdev

随着越来越多的新模型问世，寻找一种能够轻松拉取并运行这些模型的方法变得具有挑战性。而且，重新混合和制作这些模型也不是一件容易的事情。然而，这款名为Ollama的小工具让测试最新模型变得简单。这款工具具有用户...