漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-02 talkingdev

Mistral CEO确认泄露的新开源AI模型接近GPT-4的性能

AI社区因HuggingFace和4chan分享的一个名为“miqu-1-70b”的泄漏大型语言模型而感到兴奋。该模型表现出能与OpenAI的GPT-4相媲美的性能,并与Mistral的Mixtral 8x7b有关。Mistral的CEO确认这是一位热情的客户泄露的,这...

Read More
2024-02-01 talkingdev

论文:SliceGPT高效简化大型语言模型的新方法

SliceGPT引入了一种新的后训练稀疏化方案,以减少大型语言模型的资源需求。通过将权重矩阵替换为较小的矩阵并减少嵌入维度,它可以在主要模型(如LLAMA2-70B和OPT 66B)中删除高达25%的模型参数,同时保留高达99%的...

Read More
2024-02-01 talkingdev

Enchanted-开源的iOS本地LLM应用

Enchanted 是一个开源的 iOS 应用,它允许你在移动设备上运行语言模型。该应用能够快速地识别语音和文本并进行分类,是一个非常有用的工具。这个项目的代码已经在 GitHub 上公开,并且允许开发者自由调整和使用。

Read More
2024-02-01 talkingdev

Lilac Garden快速聚类技术:将语言模型训练效率提高100倍

在训练语言模型时,一个挑战是为任务找到足够多样化的数据集。更难的是,将这些数据可视化。这个很酷的工具使用快速聚类和主题建模,使得可以探索数据,以改善过滤和整体质量。

Read More
2024-01-30 talkingdev

从零开始构建语言模型的LLM

LLMs from Scratch是学习如何从零开始构建语言模型的一组不完整但有前途的任务。该仓库提供了构建自然语言处理模型所需的基本知识,包括基础数学和机器学习理论,以及一些常见的语言模型架构和实现代码。通过完成这...

Read More
2024-01-29 talkingdev

从零开始实现稀疏混MOE合专家语言模型

本文将提供一个使用Pytorch从零开始编写稀疏混合专家模型的教程,图文并茂地讲解了每一步骤并提供了代码。其中,对top-k路由的解释特别有见地。

Read More
2024-01-29 talkingdev

LLM Steer - 控制生成的语言模型库开源

LLM Steer是一个用于使用情感向量控制语言模型生成的库。这意味着您可以嵌入一个诸如“深思熟虑”的概念,并使生成变得更加深思熟虑。一般而言,它的效果要比提示更好,但需要进行更多的研究。

Read More
2024-01-26 talkingdev

Local-SGD:谷歌开源高效LLM训练方法

研究人员探索了一种名为异步Local-SGD的新的语言模型训练方法。这种方法是联邦平均的一种变体。

Read More
  1. Prev Page
  2. 82
  3. 83
  4. 84
  5. Next Page