模型的相关内容 - 漫话开发者

2024-03-29 talkingdev

AI21发布Jamba语言模型，性能超越Transformers

AI21实验室近日发布了一款新型语言模型——Jamba，它采用了独特的模型结构，旨在实现比Transformers更高的效率，同时保持相当的性能水平。Jamba模型的最大亮点在于其创新性地融合了MoE（Mixture of Experts）层，这使...

2024-03-28 talkingdev

近日，英伟达的GPU在MLPerf推理测试中取得了优异的成绩，尤其是H200型号。MLPerf推理测试是业界公认的深度学习性能评估基准，对AI系统的推理能力进行全方位评测。在此次测试中，英伟达的GPU展现了其在处理复杂机器学...

2024-03-28 talkingdev

研究人员发现一种侧信道攻击手段，该手段通过利用加密内的令牌传输，能够以高准确率解密AI助手的特定话题聊天内容。这种攻击方法使用大型语言模型将令牌序列重构为可读文本，可能会暴露用户的敏感对话。除了谷歌的Ge...

2024-03-28 talkingdev

随着新的模型不断涌现，声称在标准基准测试中达到了最先进的水平，衡量这些模型在特定任务和数据上的表现变得尤为重要。Superpipe是一个强大的工具，它能够帮助开发者构建自己的数据评估流水线。通过Superpipe，用户...

2024-03-28 talkingdev

OPTIN框架是一个创新的方法，用于提高基于变换器的AI模型在各个领域的效率，而无需进行重新训练。该框架采用了一种称为中间特征蒸馏的技术，可以在特定约束下压缩网络，同时几乎不影响其准确性。通过这种方法，可以...

2024-03-28 talkingdev

语言模型（LLMs）的实用性在于其速度、准确性以及遵循指令的能力。这三个特性使得通过文本输入控制的街头霸王模拟器成为了衡量不同模型在这三个方面表现的绝佳方式。GitHub上的一个项目通过这种方式为LLMs提供了一个...

2024-03-28 talkingdev

科技巨头Databrix与Mosaic合作，成功训练了一个具有132B参数的混合专家（MoE）模型。该模型在3000个H100 GPU上进行了训练，目前其权重文件已经公开发布。此外，该模型也已在Databricks API上提供服务，供企业和开发...

2024-03-28 talkingdev

随着人工智能的蓬勃发展，行业内的人才争夺战达到了前所未有的激烈程度。企业为了吸引具备开发生成性AI技术的专业知识和经验的人才，提供了百万美元的年薪和加快股票归属时间表等丰厚待遇。与此同时，科技行业的其他...