漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-22 talkingdev

开源STL:标准化时空预测学习的GitHub仓库

本仓库介绍了OpenSTL,这是一个基于过去帧预测未来模式的模型基准。它对不同数据集上的方法进行分类和评估。

Read More
2023-06-22 talkingdev

Wanda:一种用于大型语言模型的新剪枝方法(GitHub仓库)

该仓库介绍了Wanda,一种通过选择性地丢弃不太重要的网络权重来减少大型语言模型复杂性的独特方法。与其他方法不同,Wanda无需重新训练或大量计算,能够在保持性能的同时实现有效的模型剪枝。

Read More
2023-06-21 talkingdev

需要去重大量数据吗?

AI模型的训练数据质量对于获得良好性能非常重要。在代码模型中,数据去重往往非常重要。对于文本而言,目前尚不清楚它是否同样重要。然而,无论如何,本博客介绍了用于去重文本样式数据的技术。

Read More
2023-06-21 talkingdev

Autolabel:自动标注工具开源

Autolabel是一个Python库,可以使用你选择的任何大型语言模型(LLM)来标注、清理和丰富文本数据集。

Read More
2023-06-21 talkingdev

LOMO:高效的LLM训练(GitHub开源)

这项研究介绍了LOw-Memory Optimization(LOMO),这是一种旨在显著减少大型语言模型(LLM)训练所需资源的优化器,目前这一过程需要大量的GPU资源。LOMO的创新方法使得只需使用一台具有8个RTX 3090 GPU(每个具有24...

Read More
2023-06-20 talkingdev

基于文本指令的图像编辑大规模数据集发布

MAGICBRUSH是一个独特的、大规模的数据集,可帮助通过文本指令进行图像编辑,改进了过去容易出错且需要大量手动调整的方法。MAGICBRUSH包含超过10,000个图像及其文本指令的示例,已用于训练InstructPix2Pix图像编辑...

Read More
2023-06-19 talkingdev

斯坦福的基础模型框架

从头开始训练基础模型是一项具有挑战性的任务。斯坦福大学的语言模型团队发布了一个在Jax上的框架,使这个过程更加简化。它提供了多种数据和模型并行策略,简化了编程过程。

Read More
2023-06-19 talkingdev

GPT-4具备使用工具的能力,这是一大突破

OpenAI的GPT-4语言模型现在可以使用外部工具来完成任务,例如查看天气、获取股票价格或在公司数据库中查找数据。这是相对于之前的GPT版本的一项重大改进,之前的版本由于其受训数据的限制,功能受到了限制。

Read More
  1. Prev Page
  2. 402
  3. 403
  4. 404
  5. Next Page