模型的相关内容 - 漫话开发者

2024-01-21 talkingdev

CPO策略提高翻译语言模型的能力

该项目提出了对比优化策略(CPO)，以提高机器翻译中中等规模语言模型的性能。将该方法应用于13B参数ALMA模型，解决了监督微调的局限性，并取得了改进。CPO策略通过对模型的预训练进行增量式微调，有助于提高机器翻译...

2024-01-21 talkingdev

LMSYS发布了两项语言模型推理的新技术。第一项是对后端进行的改进，提高了每秒的标记总数性能。第二项是嵌入式领域特定语言，用于复杂提示技术，允许并行提示。

2024-01-21 talkingdev

最近，一种名为DoraemonGPT的新型AI系统基于大型语言模型取得了重要进展，它聚焦于视频任务，提升了对于动态现实场景的理解。DoraemonGPT将视频转换为符号记忆，以进行高效的时空查询，并利用专门的工具和新颖的规划...

2024-01-21 talkingdev

本文探讨了开发自动驾驶汽车视觉基础模型（VFMs）所面临的挑战。通过分析超过250篇研究论文，它提供了有关数据准备，预训练和AI任务适应的见解，重点介绍了NeRF和3D高斯点渲染等前沿技术。

2024-01-21 talkingdev

DeepMind的新数学模型AlphaGeometry在规定的时间内解决了25个奥林匹克问题，优于之前的最先进技术解决的10个问题。重要的是，它是在1亿个合成问题的训练下训练的，这消除了现有的数据瓶颈。DeepMind已经开源了代码和...

2024-01-20 talkingdev

Mixtral是一款人工智能软件，可用于数据处理和分析。使用GPT-4对其进行微调，可以快速降低其使用成本。GPT-4是最新一代的自然语言处理模型，具有更高的性能和更广泛的应用场景。在测试中，Mixtral与GPT-4的结合效果...

2024-01-20 talkingdev

Dolphin被广泛认为是可用性最强的未经审查的开放模型之一。它主要建立在Mixtral上。这个120B的模型是通过合并两个较小的Dolphin模型而制成的。研究发现，与Goliath 120B一起使用这种合并过程可以提高整体模型性能。

2024-01-20 talkingdev

近日，一款名为Instance Segmentation for Novel Objects的GitHub开源项目备受关注。该项目旨在评估深度学习模型在实例分割方面对新物体的泛化能力。通过该项目，用户可以训练自己的实例分割模型，并对模型进行评估...