谷歌利用MaxText和Jax训练技术,同时在超过5万个芯片上进行了LLM(语言模型)训练任务,保持了66%以上的利用率,成为了最佳MFU的强有力竞争者。该项目主要基于专有技术,但其中展示了一些有趣的细节,对于其他大规模...
Read MoreI2VGen-XL模型采用双阶段方法解决视频合成中的挑战,例如保持语义准确性和清晰、连续的图像,首先将语义连贯性与视频质量增强分开处理。第一阶段专注于保留静态图像的内容,第二阶段则细化细节和分辨率。
Read MorePunica是一个开源的Python库,旨在降低使用LoRA精细调整模型的成本。LoRA是一种用于低功耗、远距离通信的无线电调制技术。在使用LoRA进行通信时,需要对模型进行精细调整以获得最佳性能。Punica可以同时运行多个精细...
Read MoreAudiocraft MusicGen是一款强大的将文本转化为音乐的人工智能模型。最新升级的版本现在支持立体声生成,通过巧妙地交叉使用左右声道进行微调,提高了整体音乐体验。虽然这一升级并没有提高基准分数,但它能够更好地...
Read MoreCohere的最新模型是用于与真实世界的嘈杂数据互动的搜索应用的升级,以及用于检索增强生成(RAG)系统的应用。其多语言模型现在支持100多种语言,并可用于搜索同一语言内的内容(例如,在法国文档上使用法语查询进行...
Read More近日,一项使用Manifold Markets的5000个问题测试GPT-4准确性的研究结果显示,GPT-4在预测时存在过度自信的现象。研究人员发现,GPT-4所给出的答案在很多情况下都是正确的,但其自信度却远远超过了正确率。这种过度...
Read MoreCogVLM-17B是一个开放式的视觉语言模型,具有100亿视觉参数和70亿语言参数。该模型在许多标准基准测试中表现出色,并在人类评估中表现良好。CogVLM-17B的性能优于以往的模型,将为计算机视觉和自然语言处理领域的发...
Read More