语言模型的相关内容 - 漫话开发者

2024-05-03 talkingdev

开源实现扩展LLM大模型到128K上下文长度

一项最新的研究揭示了一种能够显著扩展语言模型上下文长度至128K的方法。这项研究强调了大量和多样性的训练数据的重要性。语言模型的上下文长度是语言模型理解和生成连贯文本的能力的一个重要因素。此项新的研究方法...

2024-05-03 talkingdev

近日，GitHub Repo发布了一款名为InstructDr的模型，该模型的设计目标是在各种视觉文档理解任务中表现优异，如问题回答和信息提取等。InstructDr能结合文档图片和大型语言模型，适应新的任务和数据集，其性能超过了...

2024-05-02 talkingdev

本次调查报告深入探讨了检索增强语言模型（RALMs）的领域，重点展示了它们的演变过程、结构以及在NLP任务中的多样化应用，如翻译和对话系统。检索增强语言模型是一种新型的语言模型，不仅通过训练数据生成文本，还能...

2024-05-02 talkingdev

Anthropic近日推出了其Claude 3 AI语言模型的iOS移动应用，并且引入了一个为团队协作设计的新的订阅级别。Claude 3 AI是Anthropic的最新产物，它可以理解和生成自然语言，提供了一个强大的工具，使得用户可以以更人...

2024-05-01 talkingdev

正在从加密转向AI的Cognition Labs，正寻求20亿美元的估值为其AI编码工具Devin融资。在AI初创公司估值飙升的趋势中，Cognition的成功反映了行业的增长以及在数据和计算资源上进行重大投资的重要性。像Google和Micros...

2024-05-01 talkingdev

QUICK是一套新的优化CUDA内核，通过解决内存问题，提升了大型语言模型的效率。这导致了NVIDIA GPU上的显著速度提升，使AI模型运行更快，效率更高。QUICK的出现，无疑为AI领域带来了新的可能性，通过优化内存处理方式...

2024-05-01 talkingdev

Meta-Prompting是一种能够将单个语言模型转化为多技能团队的技术。这种方法将复杂的任务分解为更简单的部分，由同一模型的专门实例处理，从而在各种任务中显著提高性能。在这种情况下，一个语言模型可以被看作是一个...

2024-05-01 talkingdev

Meta发布了一款名为ExecuTorch的框架，这是一个后训练量化工具包，能够支持在各种iPhone和Galaxy设备上运行Llama模型。该框架能够在运行7B大小语言模型的手机上，每秒获取多达11个令牌。ExecuTorch框架的发布，进一...