大语言模型(LLM)作为基于Transformer架构的神经网络,通过并行分析完整序列并计算词语间的全局关联性,实现了自然语言处理的突破性进展。在推理过程中,模型首先将输入文本转化为数字化的词元嵌入向量,随后通过Tr...
Read More据《华尔街日报》报道,中国人工智能公司月之暗面(Moonshot AI)正启动新一轮数亿美元规模的融资,估值预计达40亿美元。该公司开发的Kimi智能助手凭借超长上下文处理能力成为行业焦点,目前已向潜在投资者透露计划...
Read More字节跳动Seed团队在GitHub开源了Depth Anything 3(DA3)项目,这是深度估计领域的重要进展。该模型通过纯Transformer架构和创新的深度射线表示法,实现了无需相机位姿信息的单视图或多视图图像空间一致性深度估计。...
Read More当前最强大的开源大语言模型普遍采用自回归解码器架构的Transformer模型,但近年来涌现出多种创新架构。这些模型不仅关注计算效率的提升,更致力于突破性能瓶颈。文本扩散模型通过模拟去噪过程生成连贯文本,在创造...
Read MoreAnthropic研究团队在《Circuits Updates – October 2025》中披露了令人振奋的发现:其大型语言模型Claude的内部神经元展现出跨模态理解能力。实验表明,当模型处理文字“眼睛”时激活的特定神经元,在遇到用@符号排列...
Read More在近期播客访谈中,OpenAI创始研究员、AI领域权威安德烈·卡帕西针对通用人工智能发展路径提出关键见解。他系统阐述了AGI实现时间线的技术瓶颈,指出当前模型仍处于‘动物级’感知智能阶段,距离具备抽象推理能力的‘幽...
Read More近期发布的表征自编码器(RAE)技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器(VAE),结合学习型解码器构建高维潜在空间。实验表明,这种新型架构能显著提...
Read MoreMeta Superintelligence Labs于arXiv发布编号2509.01092的首篇论文,引发学术社区高度关注。该研究并未延续当前大模型参数规模竞赛的常规路径,而是聚焦于注意力机制的基础架构创新。论文提出了一种名为"动态稀疏注...
Read More