CPU的相关内容 - 漫话开发者

2024-02-26 talkingdev

谷歌开源轻量级CPP Gemma推理引擎

谷歌工程师和科学家开发了一个新的代码库，名为CPP Gemma推理引擎。与llama.cpp类似，该代码库允许在SIMD CPU架构上进行推理。该工具的目的是鼓励实验和使用昨天发布的Gemma模型。

2024-02-21 talkingdev

尽管过去七年来SSD技术有了很大的提升，但AWS NVMe实例的性能仍然停留在每个SSD 2GB/s的速度。这远远低于SSD的最大速度。这是因为在云端中，SSD不能直接连接到CPU和内存。相反，SSD必须通过网络连接到服务器，这会导...

2024-02-19 talkingdev

Magika是一款AI驱动的文件类型检测工具。它使用自定义的Keras模型，仅重约1MB，能够在单个CPU上运行时毫秒级别地实现精确的文件识别。Magika的精度和召回率均达到了99%以上。Google在大规模使用Magika来提高用户的安...

2024-02-09 talkingdev

Low Latency Runtime (LLRT)是一种JavaScript运行时，旨在解决对快速高效Serverless应用程序的不断增长的需求。与在AWS Lambda上运行的其他JavaScript运行时相比，它提供了超过10倍的更快启动时间和最多2倍的总体更...

2024-01-30 talkingdev

Tachyum即将开始大规模生产其Prodigy Universal处理器，这是一款多功能处理器，结合了CPU，GPU和TPU的功能，承诺显着提高云计算，高性能计算和人工智能应用的性能。这可能会颠覆AI市场。

2024-01-30 talkingdev

受 Llama 模型的努力启发，这个项目使用纯 Rust 在 CPU 上运行 Mamba 推理。

2023-12-26 talkingdev

qsv是一款并行化、CPU加速的命令行程序，可用于查询、索引、切片、分析、过滤、增强、转换、排序、验证和连接CSV文件。它具有超过50个简单、快速和可组合的命令，旨在处理大型数据集而无需专业编程技能。此外，它还...

2023-12-12 talkingdev

Ollama就像是llama cpp模型周围的软件包管理器。它具有易用性和质量生活功能，甚至可以在CPU上轻松运行模型。本示例展示了如何运行两个优秀的模型，Dolphin和Samantha，它们是用于对话任务的优秀未过滤模型。

2023-12-08 talkingdev

Stable Fast是HuggingFace扩散模型的推理引擎，通过它可以进行快速的Diffusers推理。该推理引擎在多种硬件上实现了出色的性能，包括CPU和GPU。此外，Stable Fast还兼容多个框架，包括PyTorch和TensorFlow。在GitHub...

2023-11-30 talkingdev

近日，llamafile发布了新的GitHub Repo，它是一种新的单文件分发工具，允许任何人使用单个文件分发和运行LLMs。LLMs可以在多个CPU微架构上运行，而不需要用户在每个平台上编译。这种工具可以节省开发者的时间和精力...