漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-21 talkingdev

CPO策略提高翻译语言模型的能力

该项目提出了对比优化策略(CPO),以提高机器翻译中中等规模语言模型的性能。将该方法应用于13B参数ALMA模型,解决了监督微调的局限性,并取得了改进。CPO策略通过对模型的预训练进行增量式微调,有助于提高机器翻译...

Read More
2024-01-21 talkingdev

LMSYS发布SGLang和Radix Attention,提高提示和推理速度

LMSYS发布了两项语言模型推理的新技术。第一项是对后端进行的改进,提高了每秒的标记总数性能。第二项是嵌入式领域特定语言,用于复杂提示技术,允许并行提示。

Read More
2024-01-21 talkingdev

DoraemonGPT:基于LLM的AI系统在视频理解方面迈出重要一步

最近,一种名为DoraemonGPT的新型AI系统基于大型语言模型取得了重要进展,它聚焦于视频任务,提升了对于动态现实场景的理解。DoraemonGPT将视频转换为符号记忆,以进行高效的时空查询,并利用专门的工具和新颖的规划...

Read More
2024-01-21 talkingdev

论文:自动驾驶汽车视觉基础模型前沿技术分析

本文探讨了开发自动驾驶汽车视觉基础模型(VFMs)所面临的挑战。通过分析超过250篇研究论文,它提供了有关数据准备,预训练和AI任务适应的见解,重点介绍了NeRF和3D高斯点渲染等前沿技术。

Read More
2024-01-21 talkingdev

DeepMind新数学模型获得IMO金牌,不需要任何人类样本数据

DeepMind的新数学模型AlphaGeometry在规定的时间内解决了25个奥林匹克问题,优于之前的最先进技术解决的10个问题。重要的是,它是在1亿个合成问题的训练下训练的,这消除了现有的数据瓶颈。DeepMind已经开源了代码和...

Read More
2024-01-20 talkingdev

用GPT-4对Mixtral进行微调

Mixtral是一款人工智能软件,可用于数据处理和分析。使用GPT-4对其进行微调,可以快速降低其使用成本。GPT-4是最新一代的自然语言处理模型,具有更高的性能和更广泛的应用场景。在测试中,Mixtral与GPT-4的结合效果...

Read More
2024-01-20 talkingdev

Mega Dolphin成功合并

Dolphin被广泛认为是可用性最强的未经审查的开放模型之一。它主要建立在Mixtral上。这个120B的模型是通过合并两个较小的Dolphin模型而制成的。研究发现,与Goliath 120B一起使用这种合并过程可以提高整体模型性能。

Read More
2024-01-20 talkingdev

开源项目:针对新物体的实例分割模型

近日,一款名为Instance Segmentation for Novel Objects的GitHub开源项目备受关注。该项目旨在评估深度学习模型在实例分割方面对新物体的泛化能力。通过该项目,用户可以训练自己的实例分割模型,并对模型进行评估...

Read More
  1. Prev Page
  2. 335
  3. 336
  4. 337
  5. Next Page