资源的相关内容 - 漫话开发者

2024-04-12 talkingdev

JetMoe：性能媲美Meta Llama 2 7B的AI模型，成本仅为10万美元

JetMoe是一个基于混合专家模型的新AI系统，通过使用公共数据集和合理的计算资源进行训练，其性能与Meta的Llama 2 7B模型相媲美，但成本仅为10万美元。这一突破性的技术成果不仅展示了在不牺牲性能的前提下降低AI模型...

2024-04-10 talkingdev

Longcontext Alpaca训练技术最近取得了重大突破，通过在H100硬件上使用新的梯度累积卸载技术，成功训练了超过200,000个上下文窗口。这种创新方法使得大规模深度学习模型的训练变得更加高效，显著提高了计算资源的利...

2024-04-09 talkingdev

近期，Andrei Karpathy推出了一个名为llm.c的项目，该项目展示了如何使用C和CUDA编程语言来训练大型语言模型（LLM）。这一创新方法避免了对PyTorch等大型深度学习框架的依赖，尤其是其所需的250MB以上的资源。这种训...

2024-04-09 talkingdev

最近的一份全面研究调查了医疗保健基础模型（Healthcare Foundation Models，简称HFMs）在改变医疗服务方面的潜力。这些模型预先在多样化的数据上进行训练，非常适合适应各种医疗保健任务，从而有可能在众多场景中提...

2024-04-08 talkingdev

近期在GitHub上发布的ReFT（Representation Fine-Tuning）项目，为微调语言模型带来了一种新的参数高效方法。与传统的PeFT相比，ReFT在保持强大性能的同时，大大降低了成本。该方法通过精细化调整模型参数，使得在进...

2024-04-08 talkingdev

Qwen团队最新力作——一个具备32B参数的AI模型，现已成功训练并对外发布。该模型在各类任务中展现出卓越的性能表现，同时其设计考虑到了内存的局限性，能够适配更为普遍的中等内存硬件系统。这意味着，即便是在资源有...

2024-04-08 talkingdev

Cohere公司近日推出了Command R+，这是一款专为企业级应用场景设计的高性能、可扩展的大型语言模型（LLM）。Command R+具备先进的检索增强生成功能，并支持引用，同时覆盖10种关键语言的多语言处理能力，以及工具使...

2024-04-08 talkingdev

在软件开发的世界里，有时候任务的分配似乎并不总是有意义的。一个在Hacker News上的讨论串揭示了这一点，许多开发者分享了他们曾经参与过的看似毫无用处的项目。这些项目包括为已经废弃的工具进行修复、制作内部工...

2024-04-05 talkingdev

HuggingFace平台上新发布了一个由Gretel收集的大规模文本至SQL数据集，包含2300万条数据。该数据集旨在通过自然语言处理技术生成SQL查询语句，对RAG应用程序和合成数据生成领域具有重要意义。文本至SQL的任务一直是...

2024-04-05 talkingdev

现代变压器模型在处理数据时，每个数据单元都使用相同的预测计算量，但事实上，不同数据单元的预测难度差异很大。DeepMind的最新研究突破了这一限制，允许模型在生成过程中根据数据单元的难易程度提前退出，从而减少...