一位开发者在构建稀疏自编码器时遭遇了罕见的PyTorch框架底层Bug。该问题表现为模型训练损失函数持续处于平台期,经深度排查发现根本原因在于苹果硅GPU(MPS)后端执行Adam优化器时,由于内存处理机制缺陷导致部分张...
Read MoreMeta近日宣布任命ChatGPT联合创始人赵盛佳(Shengjia Zhao)为其新成立的超级智能实验室(Superintelligence Lab)的首席科学家,以加强其在人工智能领域的布局。赵盛佳将负责主导实验室的研究方向,并与Meta首席执...
Read More艾伦人工智能研究所(Allen Institute for AI)近日开源了Genesys项目,这是一个基于分布式进化系统的创新框架。该系统利用大型语言模型(LLM)作为智能体,通过遗传编程技术自动探索和发现更优的语言模型架构。这一...
Read More本报告详细分析了由Claude Opus 4联合多个主流旗舰模型开发的Claude Code。作为一款创新性的AI编程工具,Claude Code采用了流式架构设计,能够实时处理模型响应、工具执行和UI更新,同时配备了不中断工作流的安全系...
Read More在人工智能领域,通用大模型(LLMs)虽然功能强大,但对于特定任务而言,其庞大的计算资源消耗和较高的成本并不总是最优选择。为此,Fastino公司推出了专精任务的语言模型(TLMs),旨在为特定任务提供更高效、更精...
Read More人工智能研究机构Ai2近日推出其最新研发的小型AI模型Olmo 2 1B,该模型拥有10亿参数,在关键基准测试中表现优异,超越了谷歌和Meta等科技巨头发布的同规模模型。这一突破性进展展示了小型化AI模型的巨大潜力,表明在...
Read More最新研究通过理论与实证分析揭示了单层Transformer模型在完成奇偶校验等复杂任务时的学习机制。研究表明,这类极简架构不仅能捕捉输入数据的配对关系,其训练动态还展现出与深层模型截然不同的特征。尤为值得注意的...
Read More在医疗技术不断进步的今天,精准的剂量预测模型对于放射治疗至关重要。AAPM 2025挑战赛(GDP-HMM Challenge)旨在推动这一领域的发展,而最近在GitHub上发布的开源代码库为参赛者提供了宝贵的资源。该代码库不仅包含...
Read More