漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-21 talkingdev

BERT竟是单步文本扩散?谷歌DeepMind新研究揭示语言模型本质关联

近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

Read More
2025-10-10 talkingdev

开源|Sora MCP:为大型语言模型接入Sora视频生成能力

近日GitHub平台出现名为Sora MCP的开源项目,该项目通过构建MCP(模型控制协议)服务器,首次实现大型语言模型直接调用Sora视频生成API的技术突破。该工具使LLMs具备创建Sora视频、实时查询生成状态、将生成视频下载...

Read More
2025-10-08 talkingdev

GPT-5-Codex实现突破:AI自主研究能力超越人类研究员

开发者Sean Goedecke在最新实验中证实,OpenAI的GPT-5-Codex在人工智能研究领域展现出超越人类研究员的潜力。通过构建自动化研究流程,Codex能够自主设计实验方案并根据结果持续优化策略,特别是在文本生成领域取得...

Read More
2025-09-24 talkingdev

大语言模型核心解码:采样与结构化输出如何协同塑造下一代AI

在大型语言模型的技术架构中,采样与结构化输出是决定模型生成质量与可控性的两大核心技术。采样指模型根据概率分布从词汇表中选择下一个标记的过程,直接影响了文本生成的多样性和创造性。而结构化输出技术则赋予模...

Read More
2025-09-14 talkingdev

谷歌发布VaultGemma:全球最大具备差分隐私训练的开源10亿参数LLM

谷歌研究团队正式推出VaultGemma模型,这是目前全球最大的基于差分隐私技术从头训练的开源大语言模型,参数量达到10亿级别。该模型已在Hugging Face和Kaggle平台开放访问。VaultGemma采用严格的差分隐私训练框架,在...

Read More
2025-09-10 talkingdev

Firefox本地AI运行时性能大幅提升,推理速度最高加快10倍

Mozilla近日宣布对Firefox浏览器的AI运行时进行重大架构升级,将原本基于WebAssembly的“onnxruntime-web”替换为直接集成到浏览器底层的原生C++ ONNX Runtime。这一技术革新使Firefox的本地AI功能获得2-10倍的推理性...

Read More
2025-08-29 talkingdev

D2:用文本生成精美图表的新一代编程语言

D2是一种革命性的领域特定语言(DSL),它通过简洁的文本描述自动生成专业级图表,彻底改变了传统的图表创建方式。该技术采用先进的解析引擎和渲染系统,支持包括专业主题、手绘草图风格、动态动画效果等现代化功能...

Read More
2025-08-17 talkingdev

谷歌Gemini API全面开放Imagen 4系列模型,Imagen 4 Fast同步亮相

谷歌开发者博客宣布,其先进的文本生成图像模型Imagen 4系列现已在Gemini API中全面开放使用,同时推出高性能版本Imagen 4 Fast。这一里程碑式更新标志着谷歌在多模态AI领域取得重要突破,开发者可通过API直接调用具...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page