模型的相关内容 - 漫话开发者

2023-11-13 talkingdev

LongQLoRA：提升LLMs上下文理解能力

GitHub上有一个新的工具——LongQLoRA，它可以让LLMs（语言模型）理解更长的序列。LLMs已经在自然语言处理方面取得了很大的成功，但它们的上下文理解能力有限。长序列的理解也是LLMs的一个挑战。LongQLoRA通过对序列切...

2023-11-13 talkingdev

MLPerf是一个标准的机器学习性能基准测试，可以准确显示平台和模型在实际环境中的表现。最新的MLPerf Training v3.1展示了H100在绝对性能方面的惊人表现，但在比较每花费一美元的时间性能时，Intel仍然占据着优势。

2023-11-13 talkingdev

谷歌利用MaxText和Jax训练技术，同时在超过5万个芯片上进行了LLM（语言模型）训练任务，保持了66%以上的利用率，成为了最佳MFU的强有力竞争者。该项目主要基于专有技术，但其中展示了一些有趣的细节，对于其他大规模...

2023-11-10 talkingdev

I2VGen-XL模型采用双阶段方法解决视频合成中的挑战，例如保持语义准确性和清晰、连续的图像，首先将语义连贯性与视频质量增强分开处理。第一阶段专注于保留静态图像的内容，第二阶段则细化细节和分辨率。

2023-11-10 talkingdev

Punica是一个开源的Python库，旨在降低使用LoRA精细调整模型的成本。LoRA是一种用于低功耗、远距离通信的无线电调制技术。在使用LoRA进行通信时，需要对模型进行精细调整以获得最佳性能。Punica可以同时运行多个精细...

2023-11-10 talkingdev

Audiocraft MusicGen是一款强大的将文本转化为音乐的人工智能模型。最新升级的版本现在支持立体声生成，通过巧妙地交叉使用左右声道进行微调，提高了整体音乐体验。虽然这一升级并没有提高基准分数，但它能够更好地...

2023-11-10 talkingdev

Cohere的最新模型是用于与真实世界的嘈杂数据互动的搜索应用的升级，以及用于检索增强生成（RAG）系统的应用。其多语言模型现在支持100多种语言，并可用于搜索同一语言内的内容（例如，在法国文档上使用法语查询进行...

2023-11-09 talkingdev

近日，一项使用Manifold Markets的5000个问题测试GPT-4准确性的研究结果显示，GPT-4在预测时存在过度自信的现象。研究人员发现，GPT-4所给出的答案在很多情况下都是正确的，但其自信度却远远超过了正确率。这种过度...