模型训练的相关内容 - 漫话开发者

2023-12-15 talkingdev

OpenAI与Axel Springer签署许可协议，用新闻内容训练AI模型

OpenAI与柏林出版商Axel Springer达成协议，将使用该出版商的内容来训练其生成式AI模型，并将最近由Axel Springer发布的文章添加到ChatGPT中。这项协议将使OpenAI的AI模型能够更好地理解新闻内容和语言，从而提高其...

2023-12-15 talkingdev

HyperRouter方法提高LLM训练效率。该方法通过动态调整路由器参数，进一步提高了大型语言模型训练的效率。

2023-12-15 talkingdev

Cerebras是一家人工智能训练芯片制造商，近日发布了一个在其系统上训练大型模型的框架，名为gigaGPT。该框架非常简单易用，不需要将大型模型分割成多个GPU和节点进行训练。

2023-12-13 talkingdev

近日，HuggingFace 发布了最新版本的 Transformers 4.36.0。此次更新新增了 Mistral 模型和 AMD 支持等多项功能。同时，safetensors 已成为默认设置。HuggingFace 的这次更新将为 AI 模型的开发和训练提供更加便利的...

2023-12-13 talkingdev

近日，研究人员开发出了一种专门为生物应用设计的视觉模型BioCLIP。实验结果显示，在特定的生物任务上，BioCLIP的表现比OpenAI的clip高出近20%。此外，BioCLIP还提供了一个由1千万对图像和文本构成的训练集。事实...

2023-11-30 talkingdev

近日，OpenAI推出了数据伙伴计划，旨在与机构合作生产训练人工智能模型所需的数据集。该计划已经与包括冰岛政府和非营利组织Free Law Project在内的众多机构建立了合作关系。数据伙伴计划旨在通过与合作伙伴共享数据...

2023-11-29 talkingdev

伯克利的一组研究人员使用合成偏好数据训练了一个新的最先进的7B参数模型。本文讨论了训练奖励模型的新挑战（例如，示例在列表中的位置会改变其排名）以及他们如何克服这些挑战。结果模型可与经过训练的奖励模型一起...

2023-11-22 talkingdev

LLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大，可以轻松实现视频摘要和字幕的最新表现。