漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-29 talkingdev

字节跳动开发 MegaScale 系统,可用于训练大型语言模型

据悉,字节跳动开发了一种名为 MegaScale 的系统,可用于训练大规模并行的大型语言模型。该系统成功地在 12,288 个 GPU 上训练了一个 175B 的语言模型,达到了 55.2% 的模型 FLOPs 利用率,相当惊人。此外,字节跳动...

Read More
2024-02-26 talkingdev

谷歌开源轻量级CPP Gemma推理引擎

谷歌工程师和科学家开发了一个新的代码库,名为CPP Gemma推理引擎。与llama.cpp类似,该代码库允许在SIMD CPU架构上进行推理。该工具的目的是鼓励实验和使用昨天发布的Gemma模型。

Read More
2024-02-20 talkingdev

程序员将复杂代码库整合为单个120K令牌提示,GPT-4和Gemini 1.5回答7个问题的结果

最近,这位Reddit用户将两个复杂的代码库放入了GPT-4-Turbo-128K和Gemini 1.5中,并向它们提出了问题。代码库实现了一个并行的inet运行时,因此涉及一些难以处理的编译器内容。在理解代码库的任务中,Gemini 1.5完全...

Read More
2024-02-19 talkingdev

论文:Meta利用LLM提高自动化单元测试

Meta使用大型语言模型为其代码库编写测试,发现测试覆盖率和整体代码质量都有了实质性的提高。这种方法可以有效地帮助开发人员减少手动编写测试的时间和成本,并且可以提高测试的效率和准确性。Meta表示,他们使用了...

Read More
2024-02-14 talkingdev

深度强化学习的无人机控制策略训练库开源

最近,一家科技公司发布了一个训练端到端控制策略的代码库,用于使用深度强化学习训练无人机控制策略。该训练在模拟环境中进行,可以在消费级笔记本电脑上在几秒钟内完成。训练出的策略具有通用性,可以部署在真实的...

Read More
2024-02-13 talkingdev

SPIN-自我博弈的微调训练方法开源

自然语言处理(NLP)中,让语言模型生成自己的训练数据是一个具有挑战性但前景广阔的研究领域。SPIN是一种方法,已经显示出很大的前途。该代码已经发布,但据报道使用起来很有挑战性。

Read More
2024-02-09 talkingdev

Google自主发现技术的实现开源

Google提出了一种新颖的提示技术,允许语言模型使用一组推理基元来发现更大的问题特定推理框架。这意味着模型可以选择不同的模块并将它们组合起来以更好地解决复杂问题。这个代码库是这些想法的一个非官方实现。

Read More
2024-02-01 talkingdev

Pytorch实验性浮点8训练

使用较低精度的模型训练速度更快、更便宜,但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上,提供易于阅读和可修改的代码,实现浮点8训练。

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page