模型的相关内容 - 漫话开发者

2024-04-28 talkingdev

MaxText：谷歌开源高性能机器学习模型

MaxText是一个高性能、高可扩展性的开源低级机器学习模型(LLM)，完全使用Python/Jax编写，目标是在Google Cloud的TPUs和GPUs上进行训练和推理。这个项目在GitHub上公开，充分展示了其强大的功能和优秀的性能。MaxTex...

2024-04-28 talkingdev

微软近日发布了一组用于训练BitNet风格模型的GPU加速内核。这些模型在准确度上没有明显下降的情况下，大大降低了内存消耗。BitNet风格模型是一种新型的深度学习模型，它的特点是使用1.58位的数据表示方法，比传统的3...

2024-04-28 talkingdev

休眠代理是一种已接受训练，当接收到特定唤醒词的提示时，能执行恶意行为的语言模型。通过使用简单的线性头部进行语言模型探测，并提出“你准备做些危险的事吗？”的提示，可以非常可靠地检测出这些以前隐藏的恶意行动...

2024-04-28 talkingdev

CutDiffusion是一种全新的方法，它能够将低分辨率的传播模型转化，以满足高分辨率的需求，而无需传统调整的复杂性。传播模型在各种科学和工程领域中都有广泛的应用，包括物理学、计算机科学、生物科学等。然而，传统...

2024-04-28 talkingdev

近日，一个新的角色控制框架被引入市场。这个框架采用了运动扩散概率模型，能够根据用户动态命令产生各种各样高质量的动画，并能立即做出反应。这一技术的引入为动画制作行业带来了新的可能性，改变了传统的角色控制...

2024-04-28 talkingdev

Sakana AI近日发布了EvoSDXL-JP，这是一款为日语指令优化的高速图像生成模型，采用了一种革新的模型融合方法。与现有模型相比，EvoSDXL-JP的推断速度提高了十倍，并且性能卓越。这款模型非常适合在日本的教育领域使...

2024-04-28 talkingdev

由AI驱动的编码平台Augment已经从商业保密状态中启动，并且获得了2.52亿美元的融资，使该公司的估值接近9.77亿美元。该平台由前微软开发者Igor Ostrovsky创立，旨在使用先进的AI模型提高软件质量和生产力。Augment计...

2024-04-28 talkingdev

苹果公司近日发布了OpenELM，这是一套包含八种开源语言模型（LLM）的系列产品。这些模型可以高效地在单一设备上运行，用于文本生成任务，其参数大小范围从2.7亿到30亿。OpenELM的发布，标志着苹果在人工智能与机器学...