HuggingFace团队最近展示了如何为语言模型的预训练阶段生成、筛选、合成和扩展大量的合成数据。这一过程不仅涉及数据的生成,还包括对数据进行精心的筛选和过滤,以确保其在模型训练中的有效性和准确性。通过这种方...
Read More近日,Draw-and-Understand项目推出了一款名为SPHINX-V的多模态大型语言模型。该模型通过视觉提示,旨在增强人与AI之间的互动交流。SPHINX-V结合了文本、图像与声音等多种信息输入,通过深度学习技术,实现了更加自...
Read More近期,GitHub上出现了一个名为Chug的新型数据集加载器项目。Chug专注于处理文本和图像任务,提供了强大且高效的多模态数据加载能力。该工具的出现,对于从事机器学习和人工智能领域的开发者来说,无疑是一个极大的助...
Read More近日,一个庞大的工业文档OCR数据集正式发布,该数据集包含了2600万页的高质量PDF文档,总计约180亿个标记。这些文档涵盖了工业领域的广泛内容,包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布,将...
Read More微软正在测试一款全新的AI驱动的Xbox聊天机器人,旨在自动化支持任务。该公司正在扩大测试范围,并将聊天机器人与Xbox的支持文档集成,以回答查询和处理游戏退款。这一举措有望提高客户服务效率,并为玩家提供更加便...
Read More普林斯顿大学的软件工程小组近日开源了一款名为“SWE-agent”的工具,该工具可以帮助开发者在GitHub上提高问题修复率。该小组在GitHub上发布了800个问题以供参考,工具通过学习这些问题并分析代码库中的代码,能够快速...
Read More微软在其广受欢迎的大型语言模型(LLMs)、向量数据库、提示技术以及低代码应用课程的基础上,发布了第二版的课程内容,现已上线GitHub。该课程共包含18课,虽然部分内容具有前瞻性,但依然是踏入该领域的良好起点。...
Read More英伟达在其GitHub仓库Optimum-Nvidia中发布了TensorRT的最新更新,这一更新使得AI推理速度大幅提高,达到了比基线快28倍的速度。特别是在Llama 2的基准测试中,能够达到每秒处理1200个令牌的惊人速度。这一进步得益...
Read More