最近,一款基于Phi-2和SigLIP训练的多模态模型Imp v1 3B发布了。该模型在性能上表现极为出色,并且体积小,足以在设备上运行。Imp v1 3B的发布,对于未来的多模态研究和应用具有重要意义。目前,该模型的开源代码已...
Read MoreLLM Steer是一个用于使用情感向量控制语言模型生成的库。这意味着您可以嵌入一个诸如“深思熟虑”的概念,并使生成变得更加深思熟虑。一般而言,它的效果要比提示更好,但需要进行更多的研究。
Read MoreTensorDict是一个非常实用的小工具,它可以让你在PyTorch中使用字典和张量。使用TensorDict可以提高代码的可读性和可用性,同时保持良好的性能。 TensorDict提供了一种简单的方法来将张量转换为字典,并且可以像字...
Read MoreDiffMoog是一种新的音频技术,它将模块化合成器的多功能性与神经网络的强大结合起来。它可以实现自动化声音匹配和定制声音的创建,使其成为音频合成的有价值的工具。该技术已在GitHub上发布。
Read More最近,由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成,将复杂的图像创建任务分解为更简单的任务,从而在处理多个...
Read More