AI推理的相关内容 - 漫话开发者

2026-07-23 talkingdev

告别昂贵算力：Petals让大模型在家用显卡上分布式运行成为现实

Petals 是一个颠覆性的点对点网络平台，它让普通用户能够在自己家中，仅凭消费级GPU甚至是免费的Google Colab笔记本环境，就运行起像 Llama 3.1、Mixtral、Falcon 和 BLOOM 这类巨型语言模型。其核心技术思路是将大...

2026-07-21 talkingdev

据TechCrunch报道，谷歌母公司Alphabet正在秘密推进一项代号为Frozen v2的服务器芯片项目，目标是在2028年前后实现部署。这款芯片专为提升Gemini系列大模型的运行效率而设计，其核心突破在于能效比：与谷歌现有的AI...

2026-06-24 talkingdev

Graphsignal Profiler 是一个面向生产环境的推理性能剖析平台，专为大规模 AI 推理场景设计。它能够跨越模型、推理引擎、GPU 及其他加速器，提供全栈式的性能可见性，帮助工程师精准定位瓶颈并优化推理效率。与传统...

2026-06-23 talkingdev

在当今 AI 应用爆发式增长的时代，大型语言模型（LLM）动辄拥有数十亿甚至上千亿参数，其设计初衷是追求“全能”，但在实际落地中，这种“大而全”往往意味着在特定场景下的效率低下和资源浪费。Fastino Labs 推出的 Pio...

2026-05-21 talkingdev

OpenAI的一个推理模型成功推翻了离散几何学中的核心猜想——“平面单位距离问题”（Planar Unit Distance Problem）。该猜想最早由20世纪著名数学家保罗·埃尔德什于1946年提出，在长达80年的时间里一直未被攻克，是离散...

2026-05-12 talkingdev

在AI大模型推理成本与日俱增的背景下，测试时扩展（Test-Time Scaling）正成为提升模型性能的前沿方向之一。近日，来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架，旨在通过编码Agent在回放环境中迭...

2026-05-09 talkingdev

人工智能公司Anthropic近日发布了一项名为“Teaching Claude Why”的研究，旨在提升其大语言模型Claude的推理和解释能力。传统AI模型往往只输出结果，而缺乏对“为什么做出这个决策”的透明解释。这项研究通过创新的训练...

2026-04-29 talkingdev

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型，标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计，在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...