HuggingFace的相关内容 - 漫话开发者

2024-02-23 talkingdev

谷歌开源Gemma对抗Llama，底模基于Gemini

Google已经发布了其Gemma 2B和7B参数模型的权重，可通过HuggingFace获得。这些模型是仅解码器的Transformer，训练了2T和6T个令牌。它们在各种基准测试中都比Llama 2表现出色，并提供基础和指令调整版本。

2024-02-20 talkingdev

HuggingFace Hub最近发布了全新的视频模型Sora，现在提供了30篇相关的论文。这些论文包括了从模型架构到训练技巧等方面的研究，为研究人员和开发者提供了很好的参考。此外，这些论文还包括了Sora model在计算机视觉...

2024-02-12 talkingdev

HuggingFace发布了一个轻量级的评估库lighteval，用于基于HELM和Eluther AI评估工具的语言模型训练。该评估库专注于提供高效易用的评估方法和指标，帮助用户快速准确地评估模型性能。同时，lighteval还提供了丰富的...

2024-02-05 talkingdev

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...

2024-02-02 talkingdev

AI社区因HuggingFace和4chan分享的一个名为“miqu-1-70b”的泄漏大型语言模型而感到兴奋。该模型表现出能与OpenAI的GPT-4相媲美的性能，并与Mistral的Mixtral 8x7b有关。Mistral的CEO确认这是一位热情的客户泄露的，这...

2024-02-01 talkingdev

本周，Mistral公司的CEO确认了Mistral的一个量化版本文件在HuggingFace上泄露，该技术使得在较弱的电脑和芯片上运行某些AI模型成为可能。据报道，该模型在EQ-Bench上超过了全球所有其他LLM模型，仅次于GPT-4。Mistra...

2024-01-31 talkingdev

Meta的新模型已经在大量代码上进行了精调和指令调整。它们在HumanEval测试中表现出色，在某些方面接近于GPT-4。这些模型可在Meta许可下和HuggingFace上使用。

2024-01-30 talkingdev

HuggingFace最近发布了一种名为WebDataset的数据格式，它可以将多个记录组合在一起。任何具有相同前缀的内容都会被视为同一条记录。这种格式非常适合于流式传输和快速数据加载。WebDataset还可以支持使用并行处理来...