分布式推理的相关内容 - 漫话开发者

2025-11-06 talkingdev

AWS EFA实现万亿参数模型突破：Perplexity发布分布式推理代码

人工智能研究机构Perplexity近日发布突破性代码，首次实现万亿参数混合专家模型在多个AWS服务器间的高效运行。这项技术突破使得算力基础设施相对薄弱的数据中心也能承载尖端AI模型的推理任务。当前大型语言模型面临...

2025-09-18 talkingdev

人工智能研究公司Anthropic近日披露了其创新的多智能体研究系统架构。该系统采用编排器-工作者模式，通过一个主导研究智能体协调多个并行工作的专业化子智能体，并配备专门的引证验证智能体进行来源核查。该设计通过...

2025-09-11 talkingdev

大型语言模型（LLM）推理过程中的非确定性问题正成为制约科学研究可重复性的关键障碍。即使将温度参数调整为0（贪婪采样模式），ChatGPT等模型仍无法保证输出结果的确定性。这种现象不仅存在于API服务中，即使在本地...

2024-05-24 talkingdev

Llama cpp现已支持跨多台机器的分布式推理。这一功能目前仅限于FP16（半精度浮点数），但对于开源部署来说，这无疑是一个巨大的进步。通过分布式推理，开发者可以更高效地利用集群资源，提升模型推理的速度和效率。...