语言模型的相关内容 - 漫话开发者

2023-06-19 talkingdev

斯坦福的基础模型框架

从头开始训练基础模型是一项具有挑战性的任务。斯坦福大学的语言模型团队发布了一个在Jax上的框架，使这个过程更加简化。它提供了多种数据和模型并行策略，简化了编程过程。

2023-06-19 talkingdev

OpenAI的GPT-4语言模型现在可以使用外部工具来完成任务，例如查看天气、获取股票价格或在公司数据库中查找数据。这是相对于之前的GPT版本的一项重大改进，之前的版本由于其受训数据的限制，功能受到了限制。

2023-06-19 talkingdev

本文讨论了几种加速大型语言模型（LLM）训练和推理的技术，以使用高达100K个输入令牌的大上下文窗口。这些技术包括：ALiBi位置嵌入，稀疏注意力，闪电注意力，多查询注意力，条件计算以及使用80GB的A100 GPU。

2023-06-19 talkingdev

本研究调查了强大的语言模型是否能够教授较不先进的人工智能系统并提高其性能。研究提出了两个人工智能之间的“学生-教师”关系，并探讨了“教师”人工智能应该在什么时候、如何以及解释给“学生”人工智能，以提升其能力...

2023-06-16 talkingdev

## 新闻概要： - 梅赛德斯宣布将OpenAI的语言模型ChatGPT集成到MBUX信息娱乐系统中。 - 集成ChatGPT将允许驾驶员和乘客与系统进行更自然和复杂的交互，提高用户体验。 - MBUX信息娱乐系统是梅赛德斯汽车上的一款语...

2023-06-15 talkingdev

微软公司的CEO Satya Nadella通过将OpenAI的语言模型与名为Sydney的聊天机器人集成到Bing中，并推出能够自动化编码方面的AI工具Copilot，将公司带入了人工智能技术的令人瞩目的复苏之路。尽管最初有些波折，但微软正...

2023-06-15 talkingdev

近日，一种开源代码模型在编码任务中表现超越ChatGPT等语言模型。封闭模型之所以强大，是因为它们实际上是伪装成语言模型的代码模型。很多开放式语言模型表现不佳，因为它们无法从大规模的代码预训练中获得推理能力...

2023-06-13 talkingdev

近日，研究人员提出了一种名为“对比输入解码（CID）”的新方法，旨在通过生成反映两个略有不同输入的独特特征的文本来揭示AI语言模型对微小变化的反应，从而使其响应更加易于理解和管理。这对于确保公平性和实用性至...