规模的相关内容 - 漫话开发者

2025-02-24 talkingdev

OmniServe框架开源，助力大规模LLM高效部署

近日，OmniServe发布了一个全新的统一框架，旨在优化大规模LLM（大语言模型）的部署效率。该框架结合了低比特量化和稀疏注意力机制等创新技术，显著提升了模型推理速度并降低了成本。通过低比特量化，OmniServe能够...

2025-02-24 talkingdev

近日，首个基于Muon优化器训练的大规模模型Moonlight 16B在GitHub上正式发布。该模型经过5.7万亿个token的训练，架构与DeepSeek v3高度相似。Muon优化器的引入为大规模模型的训练提供了新的可能性，显著提升了训练效...

2025-02-22 talkingdev

加密货币交易所Bybit近日遭遇重大安全事件，黑客攻击导致其损失高达15亿美元。尽管损失规模巨大，Bybit CEO已公开确认，公司具备足够的财务能力来覆盖此次损失，用户资金安全不会受到影响。此次事件再次引发了对加密...

2025-02-21 talkingdev

近日，社区推出了一款名为Flex 1的图像生成模型，该模型基于Flux Schnell进行微调，并采用Apache许可证。Flex 1的设计参数为8B，能够在保持高性能的同时实现快速运行。这一模型的推出为图像生成领域提供了新的工具，...

2025-02-21 talkingdev

近日，LLM-Oasis作为一个大规模数据集正式发布，旨在为训练和评估系统提供支持，以检测和提升LLM（大语言模型）输出的事实性。随着LLM在自然语言处理领域的广泛应用，其生成内容的准确性和可靠性成为业界关注的焦点...

2025-02-20 talkingdev

微软近日发布了其首款量子计算芯片——Majorana 1，这标志着微软近二十年在量子计算领域的研究成果。微软宣称，为了构建这款芯片，他们创造了一种全新的物质态——拓扑态。这款芯片的所有部件均在美国制造，这得益于项目...

2025-02-19 talkingdev

近日，DeepSeek公司推出了一项名为Native Sparse Attention的创新算法技术，旨在加速传统的二次Attention计算。该技术通过硬件对齐和原生可训练的稀疏Attention机制，实现了高达11倍的计算速度提升，同时保持了整体...

2025-02-18 talkingdev

Mistral Saba是一款基于中东和南亚地区精心策划数据集训练的24B参数模型。尽管其规模仅为同类模型的五分之一，但Mistral Saba在提供更准确和相关响应方面表现出色，同时显著降低了计算成本和响应时间。这一突破性技...