预训练的相关内容 - 漫话开发者

2024-12-02 talkingdev

论文：预训练中的程序性知识提升LLM的推理能力

最新研究显示，大型语言模型（LLM）的推理能力得益于预训练阶段发展出的程序性知识。程序性知识指的是一系列规则和步骤，这些知识在预训练过程中被模型学习并内化，进而在后续任务中被用来指导推理。这一发现强调了...

2024-07-11 talkingdev

SuperFlow是一种新的框架，通过使用连续的LiDAR-camera对进行时空预训练，增强了自动驾驶中的3D感知能力。在自动驾驶技术中，3D感知的重要性不言而喻，它可以帮助自动驾驶汽车更准确地理解周围环境，进行更安全、更...

2024-07-09 talkingdev

Meta推出了利用全新的多令牌预测方法的预训练模型，该方法可以同时预测多个未来的词汇，承诺提升性能并大幅度缩短训练时间。这种新颖的多令牌预测方法改变了我们对于未来词汇的预测方式，将其从单一的词汇预测转变为...

2024-06-27 talkingdev

在预训练中，如何积极选择下一批最好的样本是一个挑战性和开放性的问题。DeepMind的这项工作探索了如何只花费10%的浮点运算和硬挖掘负样本，仍然能匹配各种任务的最新技术。在这个过程中，他们采用了一种名为“联合样...

2024-06-12 talkingdev

Coqui.ai TTS是一款用于文本转语音的深度学习工具包，它支持多种语言和声音风格，并可在较低的计算资源上实现高质量的语音合成。该工具包基于TensorFlow 2和PyTorch，是一款开源、易于使用的工具，可帮助研究人员和...

2024-06-09 talkingdev

在自然语言处理（NLP）中，分块是指将句子分成更小的组块（块）的过程，每个块都有自己的语法和含义。在RAG（Retrieval-Augmented Generation）应用程序中，分块是生成响应的重要步骤。不同于传统的基于规则或基于统...

2024-05-20 talkingdev

xAI近期公开发布了Grok-1模型的权重和架构。Grok-1是一种混合专家模型，拥有3140亿参数。发布的模型是Grok-1预训练阶段的原始基础模型检查点，这意味着它并未针对任何特定应用进行精调。该模型是由xAI使用自定义训练...

2024-05-14 talkingdev

WebLlama是一个设计精良的模型，能够浏览网页并据此回答相关问题。这种模型可用于生成高质量的预训练数据集，或者执行需要从网页查询信息的研究。WebLlama的目标是通过模型的训练，使其能够更好地理解和处理网络信息...