Anthropic公司宣布其Claude Sonnet 4模型现已支持高达100万tokens的上下文窗口,这一重大升级使其处理能力提升了5倍。这一突破性进展意味着该模型能够胜任更复杂、数据密集型的任务,如大规模代码库的深度分析和长文...
Read More近日,全球首个完全由AI自主组织的活动成功举办,标志着人工智能在复杂组织任务自动化方面迈出了重要一步。该活动由四个AI代理共同策划,目标为“撰写一个故事并邀请100人线下庆祝”。在数周的准备过程中,AI独立完成...
Read MoreGitHub最新推出的Spark项目标志着软件开发领域的一次重大革新,该项目旨在通过人工智能技术实现"氛围编程"(vibe coding),让不具备专业编程技能的用户也能轻松创建个性化的"微应用"。这一创新工具整合了Anthropic...
Read More通义千问团队正式发布Qwen3-Coder,这是迄今为止最先进的智能编码代理模型。该模型采用4800亿参数的混合专家架构(Mixture-of-Experts),其中激活参数达350亿,并支持超长上下文处理。在智能编码、浏览器操作和工具...
Read More一项名为“Power”注意力的创新技术通过引入超参数p,实现了对状态大小的独立控制,有效解决了长上下文训练中计算成本平衡的难题。该机制在长序列任务中表现优于标准注意力,并支持定制GPU内核,在64k上下文长度下速度...
Read More一项名为'基于能量的Transformer'(Energy-Based Transformers)的新型架构在机器学习领域取得突破性进展。该技术摒弃了传统的直接预测方式,转而采用学习验证函数来评估输入与候选输出之间的兼容性得分。这种创新架...
Read More近期,一篇关于强化学习(RL)如何扩展至惊人10^26 FLOPs(每秒浮点运算次数)的探讨引起了业界广泛关注。文章指出,强化学习被视为构建前沿AI模型,尤其是大型语言模型(LLMs)的下一个核心训练技术。传统观点认为...
Read More深度学习领域知名专家安德鲁·卡帕西(Andrej Karpathy)近日就强化学习(RL)的规模化应用趋势发表了深刻见解,指出RL的扩展性已成为当前AI研究的焦点。他强调,强化学习在得当的运用下,能够展现出远超监督式微调的...
Read More