漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-04 talkingdev

UniTok:统一视觉生成与理解的离散Tokenizer

近日,一项名为UniTok的创新技术引起了广泛关注。UniTok是一种离散视觉Tokenizer,旨在解决视觉生成与理解之间的表征差距。通过引入多码本量化技术,UniTok显著提升了token的表达能力,使其在生成任务中能够编码详细...

Read More
2025-03-01 talkingdev

Chromebooks打造最疯狂的视频墙

近日,一项创新的技术展示引起了广泛关注:使用多台Chromebooks构建了一个前所未有的视频墙。这一视频墙不仅展示了Chromebooks的强大处理能力,还体现了其在多屏协作方面的潜力。通过精密的软件配置和硬件连接,这些...

Read More
2025-02-27 talkingdev

微软发布全新Phi模型,专为多模态处理优化

微软近日发布了两款全新的开源语言模型Phi-4-mini和Phi-4-multimodal,这两款模型在硬件效率和多模态处理方面表现出色。其中,Phi-4-mini拥有38亿参数,专注于文本任务;而Phi-4-multimodal则具备56亿参数,能够处理...

Read More
2025-02-27 talkingdev

ElevenLabs推出高精度多语言转录模型Scribe,支持99种语言

ElevenLabs近日宣布推出其自主研发的转录模型Scribe,该模型支持99种语言,并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能,还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

Read More
2025-02-26 talkingdev

Google Cloud推出首款Blackwell AI GPU驱动的A4X实例

Google Cloud近日发布了由Nvidia GB200 NVL72系统驱动的A4X虚拟机实例,该实例配备了72个B200 GPU和36个Grace CPU,专为大规模AI和高并发应用设计。A4X实例的训练效率是前代A3实例的四倍,并且与Google Cloud服务无...

Read More
2025-02-26 talkingdev

R1-OneVision:多模态推理模型在复杂视觉任务中的突破

近日,R1-OneVision作为一种多功能的大型多模态模型,正式在GitHub上发布。该模型通过整合视觉与文本数据,在数学、科学、深度图像理解及逻辑推理等复杂任务中表现出色。R1-OneVision的设计旨在解决传统单一模态模型...

Read More
2025-02-20 talkingdev

论文:突破极限,单向量嵌入1568个Token的技术探索

近日,一项关于表示容量极限的研究引起了广泛关注。该研究尝试将尽可能多的Token嵌入到一个固定大小的向量中,成功实现了将1568个Token压缩至单一向量。这一突破不仅展示了embedding技术的强大潜力,也为LLM和agent...

Read More
2025-02-14 talkingdev

论文:Jakiro利用Mixture of Experts优化Speculative Decoding,提升推理速度

近日,Jakiro团队通过引入Mixture of Experts(MoE)技术,成功优化了Speculative Decoding的性能。该方法通过生成多样化的预测结果,减少了候选预测之间的相关性,从而显著提升了推理速度。Speculative Decoding作...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page