近日,EmbodiedEval作为一种全面且交互式的基准测试工具正式亮相,旨在评估多模态大语言模型(MLLMs)在具身任务中的表现。具身任务是指模型需要在物理环境中执行具体操作的任务,这对模型的感知、推理和执行能力提...
Read More科技界瞩目的人工智能公司DeepSeek正加快步伐,提前推出其备受期待的R2模型。原先计划于5月初发布R2模型的DeepSeek,现决定提前发布日期。新一代R2模型有望在编码技能上有所提升,并且能够处理除英语外的其他语言。...
Read More近日,DeepSeek宣布开源其内部基础设施的一部分,首推MLA(机器学习加速)核心框架FlashMLA。这一开源项目已在GitHub上发布,旨在为开发者提供高效、灵活的机器学习加速工具。FlashMLA通过优化计算资源分配和任务调...
Read More近日,一项名为Light Thinker的技术引起了广泛关注。该技术旨在将冗长的推理轨迹压缩为更小、更紧凑的表示形式,从而节省上下文空间,同时仍能有效引导模型。这一创新不仅提升了模型的效率,还为处理复杂任务时的资...
Read More近日,OmniServe发布了一个全新的统一框架,旨在优化大规模LLM(大语言模型)的部署效率。该框架结合了低比特量化和稀疏注意力机制等创新技术,显著提升了模型推理速度并降低了成本。通过低比特量化,OmniServe能够...
Read More近日,一项关于如何仅用四个数字2构造任意整数的数学挑战在技术圈引发广泛讨论。该问题不仅考验数学家的创造力,也为算法设计和逻辑推理提供了新的思路。通过结合数学运算符、括号以及指数等工具,参与者可以尝试构...
Read MoreGoogle Titans模型是Google最新推出的一种内存驱动AI架构,旨在通过高效的内存管理和数据处理能力,提升AI模型的性能和效率。该模型的核心在于其独特的内存驱动设计,能够显著减少数据访问延迟,从而加速模型训练和...
Read More近日,社区推出了一款名为Flex 1的图像生成模型,该模型基于Flux Schnell进行微调,并采用Apache许可证。Flex 1的设计参数为8B,能够在保持高性能的同时实现快速运行。这一模型的推出为图像生成领域提供了新的工具,...
Read More