漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-08 talkingdev

ReFT:一种高效节省参数的微调语言模型方法

近期在GitHub上发布的ReFT(Representation Fine-Tuning)项目,为微调语言模型带来了一种新的参数高效方法。与传统的PeFT相比,ReFT在保持强大性能的同时,大大降低了成本。该方法通过精细化调整模型参数,使得在进...

Read More
2024-04-08 talkingdev

Meta开源新模型训练优化器代码,无需LR调度

Meta的研究团队近日推出了一款新型的优化器,并已在X平台上公开代码及其多种集成方式。这款优化器的独特之处在于它不依赖于学习率(LR)调度,训练过程中无需预先设定总步数。经过实证,该优化器在包括语言模型在内...

Read More
2024-04-08 talkingdev

论文:ReaLMistake基准测试,系统识别大型语言模型错误

研究人员近日推出了ReaLMistake基准测试工具,该工具专注于系统性地检测大型语言模型(LLM)响应中的错误。随着人工智能技术的发展,大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而,这些模型在生成文...

Read More
2024-04-08 talkingdev

Qwen团队发布32B参数模型,实现强大性能并适应中等内存系统

Qwen团队最新力作——一个具备32B参数的AI模型,现已成功训练并对外发布。该模型在各类任务中展现出卓越的性能表现,同时其设计考虑到了内存的局限性,能够适配更为普遍的中等内存硬件系统。这意味着,即便是在资源有...

Read More
2024-04-08 talkingdev

AMD 开源 Radeon GPU 固件以促进 AI 框架发展

AMD 宣布将开源其 Radeon GPU 的固件,这一决定意味着技术社区将能够快速改进人工智能框架,同时也可能提高 AMD 产品的市场接受度。开源固件将使得独立开发者和研究人员能够更深入地了解和修改 GPU 底层功能,从而推...

Read More
2024-04-05 talkingdev

AI技术助力创业团队创新演示视频

最近一批Y Combinator孵化团队中,有一支队伍采用了AI技术来制作他们的演示视频,这在历史上尚属首次。通过人工智能的辅助,该团队在短时间内高效地完成了视频的制作工作,不仅节省了大量的人力物力,还提升了视频的...

Read More
2024-04-05 talkingdev

TGATE推出两阶段推理图像生成方法,提升效率与画质

TGATE最新研究成果展示了一种高效的图像生成方法,该方法通过将整个生成过程分为规划和细化两个阶段来实现。这种新颖的方法不仅通过早期确定某些输出而简化了生成过程,而且还意外地提高了生成图像的质量。在规划阶...

Read More
2024-04-05 talkingdev

DeepMind研究实现Transformer模型动态计算优化

现代变压器模型在处理数据时,每个数据单元都使用相同的预测计算量,但事实上,不同数据单元的预测难度差异很大。DeepMind的最新研究突破了这一限制,允许模型在生成过程中根据数据单元的难易程度提前退出,从而减少...

Read More
  1. Prev Page
  2. 118
  3. 119
  4. 120
  5. Next Page