推理速度的相关内容 - 漫话开发者

2025-04-17 talkingdev

Stable Diffusion在AMD GPU上实现性能优化

Stability AI与AMD近日宣布，双方已成功针对Radeon显卡及Ryzen AI处理器优化了多款Stable Diffusion模型。这一技术突破显著提升了AMD硬件平台在生成式AI工作负载下的运行效率，实测显示推理速度最高可提升40%。该优...

2025-04-17 talkingdev

OpenAI正式推出新一代o3和o4-mini模型，标志着大语言模型在功能整合与推理效率上的重大突破。该系列模型通过深度融合网络搜索、文件解析及图像生成三大核心能力，显著提升了ChatGPT的复杂任务处理水平。技术层面，o4...

2025-04-16 talkingdev

NVIDIA在GitHub开源项目TensorRT-LLM中发布了名为Auto Deploy的创新工具，该技术实现了将PyTorch和Hugging Face模型转化为高效可部署格式的重大突破。通过TensorRT-LLM的优化编译器，模型推理速度可提升数倍，特别适...

2025-02-24 talkingdev

近日，OmniServe发布了一个全新的统一框架，旨在优化大规模LLM（大语言模型）的部署效率。该框架结合了低比特量化和稀疏注意力机制等创新技术，显著提升了模型推理速度并降低了成本。通过低比特量化，OmniServe能够...

2025-02-14 talkingdev

近日，Jakiro团队通过引入Mixture of Experts（MoE）技术，成功优化了Speculative Decoding的性能。该方法通过生成多样化的预测结果，减少了候选预测之间的相关性，从而显著提升了推理速度。Speculative Decoding作...

2024-09-16 talkingdev

近日，研究人员利用Llama-3.1 70B模型在Groq平台上实现了o1类推理链的创建。这一创新方法通过结合高效的推理能力和强大的计算性能，提升了机器学习模型在复杂任务中的表现。Groq的硬件架构为Llama-3.1 70B模型提供了...

2024-07-09 talkingdev

微软近日发布了Minference，这是一款能够显著提升支持模型推理速度的系统。通过一系列系统性的改进，Minference能够在不损失准确性的前提下，大大提升模型的推理速度。这一创新举措显示了微软在人工智能领域的巨大投...

2024-05-22 talkingdev

LeMeViT是一种新的方法，通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息，从而显著提高推理速度。与传统的视觉Transformer相比，LeMeViT在保持高精度的同时，大幅减少了计...