效率的相关内容 - 漫话开发者

2024-05-01 talkingdev

QUICK：加速LLM的新CUDA内核开源

QUICK是一套新的优化CUDA内核，通过解决内存问题，提升了大型语言模型的效率。这导致了NVIDIA GPU上的显著速度提升，使AI模型运行更快，效率更高。QUICK的出现，无疑为AI领域带来了新的可能性，通过优化内存处理方式...

2024-05-01 talkingdev

Nvidia最近发布了一个新的工具包，可以对CUDA状态进行检查点设置，以便于传输和重启。这一工具包在GitHub上公开，对于大型AI模型的分布式训练非常有用。CUDA状态的检查点设置可以在训练过程中保存模型的状态，以便在...

2024-05-01 talkingdev

Meta-Prompting是一种能够将单个语言模型转化为多技能团队的技术。这种方法将复杂的任务分解为更简单的部分，由同一模型的专门实例处理，从而在各种任务中显著提高性能。在这种情况下，一个语言模型可以被看作是一个...

2024-04-30 talkingdev

Moondream 2模型作为一种高效的AI模型，其性能强大且体积小巧，现已发布其全功能的VLM可执行文件，名为llamafile。这款全功能的VLM可执行文件是一种完全自包含的程序，可以在边缘设备上运行。这意味着，即使在没有网...

2024-04-30 talkingdev

近日，GitHub上出现了一个名为Memary的新项目。该项目允许Agent在知识图谱中存储大量信息，通过我们的记忆模块推断用户知识，只检索与结果相关的信息。Memary的核心是其强大的知识图谱，这是一种可以存储和组织大量...

2024-04-30 talkingdev

近日，一款名为Mistral.rs的LLM推理平台在GitHub上备受关注。它可以支持多种设备上的推理，支持量化，并且具有易于使用的应用程序，带有OpenAI API兼容的HTTP服务器和Python绑定。无论是在深度学习推理、设备兼容性...

2024-04-30 talkingdev

浮点精度的降低能够提高训练速度，但可能会导致不稳定的现象。最新的研究论文展示，通过新的装包格式FP6-LLM，可以在不引发常见不稳定性或由于尝试不当引发的训练速度下降的情况下，实现全张量核心的利用。这一突破...

2024-04-30 talkingdev

GitHub近日宣布启动一个新项目Copilot Workspace，其主要目标是允许语言模型以较为自主的方式完成特性开发和错误修复。该项目将为开发者提供更多便利，提高开发效率，同时也为人工智能在软件开发领域的应用开启了新...