模型的相关内容 - 漫话开发者

2023-06-22 talkingdev

开源STL：标准化时空预测学习的GitHub仓库

本仓库介绍了OpenSTL，这是一个基于过去帧预测未来模式的模型基准。它对不同数据集上的方法进行分类和评估。

2023-06-22 talkingdev

该仓库介绍了Wanda，一种通过选择性地丢弃不太重要的网络权重来减少大型语言模型复杂性的独特方法。与其他方法不同，Wanda无需重新训练或大量计算，能够在保持性能的同时实现有效的模型剪枝。

2023-06-21 talkingdev

AI模型的训练数据质量对于获得良好性能非常重要。在代码模型中，数据去重往往非常重要。对于文本而言，目前尚不清楚它是否同样重要。然而，无论如何，本博客介绍了用于去重文本样式数据的技术。

2023-06-21 talkingdev

Autolabel是一个Python库，可以使用你选择的任何大型语言模型（LLM）来标注、清理和丰富文本数据集。

2023-06-21 talkingdev

这项研究介绍了LOw-Memory Optimization（LOMO），这是一种旨在显著减少大型语言模型（LLM）训练所需资源的优化器，目前这一过程需要大量的GPU资源。LOMO的创新方法使得只需使用一台具有8个RTX 3090 GPU（每个具有24...

2023-06-20 talkingdev

MAGICBRUSH是一个独特的、大规模的数据集，可帮助通过文本指令进行图像编辑，改进了过去容易出错且需要大量手动调整的方法。MAGICBRUSH包含超过10,000个图像及其文本指令的示例，已用于训练InstructPix2Pix图像编辑...

2023-06-19 talkingdev

从头开始训练基础模型是一项具有挑战性的任务。斯坦福大学的语言模型团队发布了一个在Jax上的框架，使这个过程更加简化。它提供了多种数据和模型并行策略，简化了编程过程。

2023-06-19 talkingdev

OpenAI的GPT-4语言模型现在可以使用外部工具来完成任务，例如查看天气、获取股票价格或在公司数据库中查找数据。这是相对于之前的GPT版本的一项重大改进，之前的版本由于其受训数据的限制，功能受到了限制。