语言模型的相关内容 - 漫话开发者

2024-03-20 talkingdev

LlamaGym：在线强化学习优化大模型Agent

近日，GitHub上出现了一个新的项目LlamaGym，该项目专注于通过在线强化学习方法对大型语言模型（LLM）代理进行微调。大型语言模型在近年来取得了显著的进展，但如何进一步提升其性能，尤其是在特定任务上的表现，成...

2024-03-20 talkingdev

研究人员开发了一种新框架，通过为新任务增加特殊适配器的方式来扩展模型，帮助视觉-语言模型在不遗忘之前知识的情况下进行持续学习。这一技术突破为深度学习模型的持续学习能力提供了新的解决方案，能够有效避免传...

2024-03-20 talkingdev

Quiet-Star是一个推理框架，旨在增强语言模型生成正确输出的能力。该框架的代码已经公开，同时发布了一个每个令牌8步的模型。Quiet-Star通过优化模型的推理过程，提高了生成文本的准确性和相关性，对于自然语言处理...

2024-03-20 talkingdev

IBM与NASA的合作项目成功开发出基于先进变换器架构的语言模型，这些模型经过科学文献的训练，旨在提升自然语言理解任务在科学领域的性能。这些模型现已在Hugging Face上开源，供全球开发者和研究人员使用。此举将有...

2024-03-20 talkingdev

苹果公司近期公布了其新型人工智能模型“MM1”的详细信息。这一模型在训练大型语言模型方面采用了一种创新方法，能够无缝整合文本和视觉信息。这种整合方式有望提升AI模型在理解和处理复杂信息方面的能力，特别是在处...

2024-03-19 talkingdev

韩国科学技术院(KAIST)的研究人员成功研发了C-Transformer，这是一款面向大型语言模型的超低功耗AI芯片，其能效表现显著优于Nvidia的A100 GPU。C-Transformer的问世，为AI领域的能源效率提升设立了新的标杆，有望推...

2024-03-19 talkingdev

微软宣布，已将最新的GPT-4 Turbo LLM（大型语言模型）添加到Copilot的免费版本中。这一举措旨在提升用户体验，使其能够享受到更先进的代码辅助功能。与此同时，Copilot Pro用户仍然可以选择使用旧版模型，并且还可...

2024-03-19 talkingdev

最新的研究显示，随着人工智能和机器学习模型不断优化自身的提示，人类的提示工程师可能面临淘汰。由算法生成的提示虽然奇特，却异常有效，它们不仅胜过人工编写的提示，还大幅缩短了优化时间。尽管自动调整的提示显...