漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-20 talkingdev

LLM时代推荐与搜索系统的革新:语义ID与生成式检索的崛起

在大型语言模型(LLM)时代,推荐与搜索系统正经历从传统物品ID到丰富'语义ID'(Semantic IDs)的重大转型。这一变革引入了生成式检索和多模态嵌入技术,显著提升了系统处理冷启动覆盖、长尾内容发现的能力,并实现...

Read More
2025-06-19 talkingdev

[论文推荐]Text-to-LoRa:无需训练数据的即时Transformer定制技术

Sakana AI研究团队开发出一项突破性技术——Text-to-LoRa(T2L)系统,该系统仅需文本描述即可即时定制大型语言模型,无需传统方法所需的训练数据或耗时微调过程。该技术的核心创新在于将数百个LoRA适配器(一种高效轻...

Read More
2025-06-19 talkingdev

Claude Code新增远程MCP服务器支持,开发者体验再升级

人工智能编程助手Claude Code近日宣布支持远程MCP服务器连接,这一重大更新将显著提升开发者的工作效率。通过这项新功能,开发者可以直接将各类工具和数据源接入Claude Code平台,无需再费心管理本地服务器。该技术...

Read More
2025-06-18 talkingdev

MiniMax开源推理模型M1:混合专家架构+闪电注意力

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1,该模型采用创新的混合专家架构(MoE)并引入'闪电注意力'技术,实现百万token级别的超长上下文处理能力(相当于DeepSeek R1的8倍)。特别值得注意...

Read More
2025-06-18 talkingdev

TCANet-基于时空注意力机制的脑电运动解码技术

TCANet作为一项突破性神经解码技术,通过多尺度卷积网络、时序压缩模块和堆叠自注意力机制的创新性结合,为运动想象脑电信号(MI-EEG)的解码提供了全新解决方案。该模型在GitHub开源后迅速引发脑机接口领域关注,其...

Read More
2025-06-17 talkingdev

CoRT-通过代码解释器增强大模型推理能力

GitHub最新开源项目CoRT(Code Interpreter Reasoning)提出了一种创新的方法,通过提示工程(hint engineering)对大语言模型进行后训练(post-train),使其能够将复杂计算任务智能分配给外部代码解释器执行。这一...

Read More
2025-06-17 talkingdev

[论文推荐]TreeRL:无需奖励模型的LLM训练新方法,数学与代码推理能力显著提升

TreeRL是一种创新的语言模型训练方法,通过结合on-policy树搜索和中间监督机制,实现了无需单独奖励模型的LLM训练。这一技术突破来自最新arXiv论文,相比传统的ChainRL方法,TreeRL在数学推理和代码生成等复杂任务上...

Read More
2025-06-17 talkingdev

DeepSeek R1-0528与FLUX.1 Kontext图像编辑模型登陆Together AI平台,推理API与聊天应用免费体验

Together AI宣布在其Serverless Inference API和专用端点服务中集成两大前沿AI模型:DeepSeek R1-0528语言模型与FLUX.1 Kontext图像生成系统。DeepSeek R1-0528通过升级的推理能力、函数调用支持及代码生成优化,显...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page