漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-27 talkingdev

论文:简单的强化学习算法战胜PPO

REINFORCE是一种简单、标准且易于理解的强化学习方法。然而,在模拟器中使用它很难稳定地进行训练。PPO在一般情况下更为高效和稳定。Gemini使用REINFORCE算法,而据信GPT-4使用PPO算法。

Read More
2024-02-26 talkingdev

WoVoGen-高质量街景视频生成器开源

世界体积感知多摄像头驾驶场景生成器(WoVoGen)是一个创新系统,旨在为自动驾驶创建逼真的街景视频。该系统使用机器学习和计算机视觉技术来生成高质量的街景视频,以帮助自动驾驶车辆更好地识别和适应不同的路况。W...

Read More
2024-02-26 talkingdev

基于标注数据的LLM评估指标

本文讨论依赖于真实标注数据的评估指标。它探讨了通用和RAG特定的评估指标。所有指标都带有Python实现或指向一个Hugging Face模型卡的链接。

Read More
2024-02-26 talkingdev

Marqo融资1250万美元,帮助企业构建生成式AI应用

向量搜索公司Marqo在由Lightspeed领导的A轮融资中筹集了1250万美元,以推进其下一代向量搜索平台的采用。Marqo的平台解锁了非结构化数据的巨大价值,覆盖了包括最终用户搜索、检索增强生成等关键企业应用,帮助企业...

Read More
2024-02-23 talkingdev

苹果发布AI工具协助开发人员编写应用代码

苹果正在开发一个更新版本的Xcode,包括一个AI工具来生成代码。该工具将使用机器学习和自然语言处理算法来识别软件开发中的常见模式和问题,并提供自动生成代码的功能。这将帮助开发人员更快地创建应用程序,提高效...

Read More
2024-02-23 talkingdev

结合无监督训练和监督微调的效果存在挑战

近日,一项新的研究挑战了结合监督微调和强化学习的训练方法的有效性。研究表明,在初始训练中使用更先进的模型(如GPT-4)可以优于更复杂的两步方法。这一研究的开源代码已经发布到GitHub上,供科研人员使用和参考...

Read More
2024-02-22 talkingdev

深入探究:硬核Mamba技术加速

Sasha Rush发布了一份注释教程,介绍了如何使用自定义Triton内核加速Mamba。由于Triton编译器中的一个错误,它目前无法扩展,但它是技术的极端演示,并适合那些想要深入了解状态空间变换器替代品的人。Mamba是一种用...

Read More
2024-02-22 talkingdev

LoRA+:优化模型微调的新方案

本文介绍了LoRA+,一种优于现有Low-Rank Adaptation (LoRA)方法的微调大模型的方法。LoRA+通过为过程中的关键部分使用不同的学习速率来实现更好的性能和更快的微调,而无需增加计算需求。

Read More
  1. Prev Page
  2. 76
  3. 77
  4. 78
  5. Next Page