近日,一个名为TTT-Discover的开源项目在GitHub上发布,其核心创新在于将强化学习(Reinforcement Learning)技术应用于大型语言模型(LLMs)的推理(Inference)阶段,而非传统的训练阶段。这一“测试时训练”(Test-...
Read More近日,由D2I-ai团队在GitHub上开源的DASD(序列蒸馏)项目,提出了一种创新的模型蒸馏流程,旨在训练出更紧凑、高效的模型以应对复杂的推理任务。该流程整合了温度调度学习与发散感知采样等前沿技术,通过精细化的知...
Read More近日,数学界迎来一项里程碑式进展:著名数学家陶哲轩在其社交账户上宣布,埃尔德什问题#728在人工智能工具的辅助下首次被基本自主地解决。这一突破性成果并非简单复现已有文献,而是在埃尔德什问题网站社区重构问题...
Read More近日,Vercel团队在GitHub上开源了Streamdown项目,这是一个旨在解决AI模型流式输出Markdown内容时特有难题的React库。作为`react-markdown`的直接替代品,Streamdown的核心价值在于其专门针对AI生成内容流式传输过...
Read More近期,一项关于强化学习基础理论的讨论在技术社区引发关注。传统强化学习框架通常将奖励函数视为环境的一部分,但新的观点提出,奖励机制本质上应被理解为智能体自身的组成部分。这一范式转换意味着,奖励的“翻译”或...
Read More人工智能公司Prime Intellect正式推出INTELLECT-3模型,这是一个基于强化学习训练、具备1060亿参数的混合专家开源模型。该模型采用创新的MoE架构,通过动态激活专家网络显著提升计算效率,在数学推理、代码生成、科...
Read More中国AI初创公司深度求索(DeepSeek)最新发布的DeepSeekMath-V2数学模型在国际数学奥林匹克竞赛(IMO)2025及中国数学奥林匹克2024中达到金牌级水平,标志着AI在复杂数学推理领域的重大突破。该模型通过创新的推理架...
Read More数据分析平台ClickHouse近日正式发布Hacker News向量搜索数据集,该数据集包含超过2800万条Hacker News社区评论及其对应的向量嵌入表示。这一数据集将成为开发者和研究人员构建语义搜索系统、推荐算法和自然语言处理...
Read More