LLM模型的相关内容 - 漫话开发者

2024-04-30 talkingdev

Effort引擎实现Apple硅芯片上LLM模型推断的实时调整

Effort引擎为Apple硅芯片上的LLM模型推断提供了实时调整的可能，从而在速度和质量之间找到了平衡。这种方法无需重新训练，但需要转换和预计算，可以通过加载更少的权重使模型运行得更快。开发者正在寻求Swift/Metal...

2024-04-15 talkingdev

Gemma和Siglip最近发布了一款小型但功能强大的视觉语言模型（VLLM），该模型专为理解和生成与图像相关联的语言而设计。VLLM利用大规模的LAION和LLaVA数据集进行训练，这些数据集包含了大量的图像和相关文本信息，使...

2024-03-07 talkingdev

Reka的创始人、著名GPU评论家Yi Tay在一篇博客文章中概述了他们在谷歌之外训练极强语言模型的经验。主要的挑战来自于集群和硬件的不稳定性，他们还发现软件的成熟度也是一个挑战。尽管如此，他们还是成功地训练出了...

2024-02-23 talkingdev

近日，一种名为ChartX的新工具发布在GitHub上，用于测试多模态大语言模型（MLLM）在解释和推理可视化图表方面的能力。ChartX通过评估模型对图表的理解能力来测试其多模态能力，包括语言和视觉。该工具可以评估多种不...

2024-02-13 talkingdev

Llmware是一个统一的框架，用于开发基于LLM的应用程序模式，包括检索增强生成。它提供了一个通用的API，使得开发人员能够轻松地使用不同的LLM模型和数据集。Llmware还为开发人员提供了一组可自定义的工具，用于自动...

2024-02-06 talkingdev

研究表明，经过调整的BERT模型在检测假新闻方面比通用的LLM模型（如GPT-3.5-turbo）更有效。BERT模型是一种预训练的自然语言处理模型，可用于各种文本任务。由于假新闻的传播日益严重，利用AI技术检测假新闻变得越来...

2024-02-01 talkingdev

本周，Mistral公司的CEO确认了Mistral的一个量化版本文件在HuggingFace上泄露，该技术使得在较弱的电脑和芯片上运行某些AI模型成为可能。据报道，该模型在EQ-Bench上超过了全球所有其他LLM模型，仅次于GPT-4。Mistra...

2023-12-26 talkingdev

苹果公司和康奈尔大学的研究人员于10月份发布了一个名为Ferret的开源多模态LLM模型。Ferret是一个系统，可以在图像中的任何位置引用和定位任何东西，并以任何粒度进行查询。该模型可以检查图像上绘制的区域，确定其...