漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-13 talkingdev

基于Mamba的DNA序列模型

最近,一种基于Mamba竞争对手的DNA序列预测模型被开发出来。这个模型不仅非常高效,而且拥有强大的预测能力,而且模型规模非常小。目前,该模型已经在DNA测序领域得到了广泛的应用。

Read More
2024-03-13 talkingdev

Meta建设GenAI基础设施

本文介绍了Meta的两个版本的24,576 GPU数据中心规模集群的详细信息。这些集群支持公司当前和下一代AI模型以及GenAI和其他领域的AI研究和开发。Meta的长期愿景是建立一种人工智能,这种人工智能是开放的,建立在可负...

Read More
2024-03-12 talkingdev

Covariant推出ChatGPT,为机器人构建LLM

Covariant推出了RFM-1,旨在通过利用其Brain AI平台的大规模数据收集,为机器人语言构建大型语言模型,提高机器人在各行业的决策和交互能力。这将彻底改变机器人的行业应用,为机器人开启新的聊天界面。ChatGPT将有...

Read More
2024-03-08 talkingdev

深入探讨:大规模模型训练的并行化技术

这是一篇关于大规模模型训练的并行化技术的教程。文章详细介绍了不同类型的并行化技术,以及如何在训练大模型时实现高效的并行化。本文介绍了数据并行、模型并行和混合并行等不同的技术,并详细讨论了它们的优缺点。...

Read More
2024-03-01 talkingdev

论文:AI模型的视觉感知能力得到提升

本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。

Read More
2024-02-29 talkingdev

字节跳动开发 MegaScale 系统,可用于训练大型语言模型

据悉,字节跳动开发了一种名为 MegaScale 的系统,可用于训练大规模并行的大型语言模型。该系统成功地在 12,288 个 GPU 上训练了一个 175B 的语言模型,达到了 55.2% 的模型 FLOPs 利用率,相当惊人。此外,字节跳动...

Read More
2024-02-28 talkingdev

多场景3D重建技术框架开源

该项目介绍了一个多视角3D重建框架,不需要先验场景深度知识。它智能地选择最相关的源帧,使其适用于包括大规模室外和俯视建筑环境在内的各种场景。这项技术的突破将极大地提高3D重建的效率和精度,可应用于数字娱乐...

Read More
2024-02-26 talkingdev

Stability AI发布Stable Diffusion 3,模型参数达80亿

Stability AI宣布推出Stable Diffusion 3,这是一款类似于OpenAI的Sora的Diffusion Transformer。公司训练了一套模型,参数范围从8亿到80亿,这是从以前的图像生成模型中跨越式的飞跃。这些模型将在经过一段时间的研...

Read More
2024-02-26 talkingdev

BlueSky是如何工作的?

BlueSky是一家使用微博应用程序BlueSky来证明认证转移协议(atproto)可行性的公司。atproto是一种用于大规模分布式社交应用程序的联合协议,由于其联合性质,无法由任何一个组织进行控制——与彼此通信的系统的各个部...

Read More
2024-02-19 talkingdev

Cohere For AI发布Aya,覆盖100多种语言的LLM

Cohere的非营利研究实验室C4AI发布了一个名为Aya的模型,这是一个新的最先进的开源大规模多语言研究LLM,涵盖101种语言,包括50多种以前未得到服务的语言。

Read More
  1. Prev Page
  2. 18
  3. 19
  4. 20
  5. Next Page