模型的相关内容 - 漫话开发者

2025-05-05 talkingdev

阿里巴巴发布Qwen 3系列AI模型，号称可媲美谷歌与OpenAI顶级模型

阿里巴巴近日正式推出Qwen 3系列人工智能模型，该系列模型采用混合专家架构（Mixture of Experts），具备先进的推理能力，并宣称其性能可媲美谷歌和OpenAI的顶级模型。Qwen 3系列模型支持119种语言，训练数据规模高...

2025-05-05 talkingdev

中国人民大学自然语言处理实验室推出的WebThinker框架，标志着大语言模型（LRMs）向自主科研领域迈出关键一步。该开源项目通过构建深度研究架构，使LRMs具备三项突破性能力：1）智能化的全网信息检索系统，可自主定...

2025-05-05 talkingdev

谷歌研究院近日宣布启动一项名为Amplify的全球数据收集计划，通过与各地区本土专家合作，旨在提升人工智能在服务不足地区的适用性。该计划聚焦非主流语言和文化场景下的数据缺口，采用社区共建模式采集高质量标注数...

2025-05-05 talkingdev

联邦学习领域迎来突破性进展，FUSED（Federated Unlearning with Sparse Efficient Deletion）系统通过创新的稀疏遗忘适配器技术，首次实现了联邦学习环境下的定向知识擦除与可逆操作。该技术通过在模型微调层植入轻...

2025-05-05 talkingdev

GitHub开源项目TScale提出了一种创新性的分布式训练解决方案，允许开发者在消费级GPU集群上高效运行大规模模型训练。该项目通过优化通信协议和资源调度算法，显著降低了分布式训练的硬件门槛，使中小型研究团队也能...

2025-05-05 talkingdev

一篇题为《Dummy's Guide to Modern LLM Sampling》的技术指南近期在开发者社区引发热议，该文章系统性地解读了现代大语言模型(LLM)中的采样技术。作为自然语言生成的核心组件，采样策略直接决定了文本输出的质量和...

2025-05-04 talkingdev

GitHub最新开源项目Anemll（Artificial Neural Engine Machine Learning Library）引发开发者社区广泛关注，该项目实现了在苹果设备神经引擎(ANE)上高效运行大语言模型(LLMs)的技术突破。作为专为ANE优化的机器学习...

2025-05-03 talkingdev

音乐生成技术平台Suno近日发布了其最新版本v4.5，该版本进一步拓展了AI音乐创作的边界，为用户提供了更多样化的音乐风格选择。Suno v4.5的发布在技术社区引发了广泛关注，相关讨论在Hacker News上获得了278个点赞和1...