模型参数的相关内容 - 漫话开发者

2024-12-07 talkingdev

Countless.dev：AI模型比较平台上线，涵盖LLM、TTS和STT技术

PH社区发布了一个名为Countless.dev的新产品，该网站旨在提供一个比较各种AI模型的平台，包括大型语言模型（LLM）、文本到语音（TTS）和语音到文本（STT）技术。在Countless.dev上，用户可以直观地比较不同AI模型的...

2024-10-17 talkingdev

在人工智能领域，推理能力是评估大型语言模型（LLM）性能的重要指标。近期研究表明，结合Prolog这类逻辑编程语言，能够显著增强LLM的推理能力。Prolog以其强大的逻辑推理机制，使得模型在处理复杂逻辑关系时更加高效...

2024-07-15 talkingdev

AuraFlow是由Fal训练的全新开放模型。这款模型采用了muP进行训练，是一款拥有58亿参数的模型。AuraFlow的开发标志着Fal在人工智能领域的又一次重大突破，展示了其强大的技术实力和深厚的研发能力。此次训练使用的muP...

2024-06-06 talkingdev

Mistral近日宣布，通过其平台和API推出模型定制功能。这一新功能允许开发者根据具体需求对Mistral的模型进行微调，从而提高模型在特定应用场景下的性能。Mistral表示，此次推出的定制化服务将为企业和开发者提供更大...

2024-05-31 talkingdev

随着大型语言模型性能的提升，其对能源和计算能力的渴求也随之增加。为降低成本，提高处理速度，同时减少对环境的影响，模型需要实现更小型化。研究人员目前采用一种名为量化的技术，通过减少模型参数的精度来压缩网...

2024-05-14 talkingdev

IBM近日宣布，将其Granite代码模型开源，以便更好地服务于开源社区，推动各平台的编程工作更为轻松和高效。这些模型的参数量在3亿到340亿之间，并覆盖了多种编程任务。这一举动，对于开发者们来说无疑是一大福音，他...

2024-04-08 talkingdev

近期在GitHub上发布的ReFT（Representation Fine-Tuning）项目，为微调语言模型带来了一种新的参数高效方法。与传统的PeFT相比，ReFT在保持强大性能的同时，大大降低了成本。该方法通过精细化调整模型参数，使得在进...

2024-03-22 talkingdev

最近，Fed3DGS发布了一种基于联邦学习的3D重建框架，该框架采用3D高斯投影（3DGS）技术，能够实现在广阔区域内的去中心化场景构建。这种创新方法不仅提高了3D重建的效率和精确度，还保证了数据处理的隐私性。联邦学...

2024-02-26 talkingdev

Stability AI宣布推出Stable Diffusion 3，这是一款类似于OpenAI的Sora的Diffusion Transformer。公司训练了一套模型，参数范围从8亿到80亿，这是从以前的图像生成模型中跨越式的飞跃。这些模型将在经过一段时间的研...

2024-02-08 talkingdev

近日，一项研究探讨了如何通过采用参数更少的微型语言模型，使得强大的语言模型更适合移动设备。研究人员发现，相较于传统的大型语言模型，微型语言模型在保证语言表达能力的前提下，可以极大地减少模型参数，从而显...