漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-30 talkingdev

CogView 4图像生成模型发布:性能超越Flux模型,开放许可引关注

清华大学知识工程组(KEG)与智谱AI联合推出的CogView 4最新一代生成式图像模型近日在Hugging Face平台正式发布。作为采用宽松许可协议的开源项目,该模型在图像质量、生成效率和多模态理解等核心指标上显著超越当前...

Read More
2025-04-06 talkingdev

OCR pipeline革新ML训练:支持表格、图表、数学公式及多语言处理

近日,一款专注于ML训练的OCR pipeline技术引发业界关注。该工具创新性地支持表格、图表、数学公式等复杂结构的识别,并具备多语言处理能力,为机器学习数据预处理提供了高效解决方案。其核心优势在于通过优化的算法...

Read More
2025-03-13 talkingdev

谷歌发布开源权重模型Gemma 3,性能接近Gemini 1.5 Pro

谷歌近日发布了Gemma 3模型的权重和技术报告,这一模型共有四种规模,其性能与Gemini 1.5 Pro相当。Gemma 3不仅在多语言处理上表现出色,能够理解超过140种语言,还被认为是接近当前最先进的密集模型之一。这一发布...

Read More
2025-02-21 talkingdev

Qwen 2.5 VL技术报告发布:最强开源视觉语言模型亮相

近日,Qwen团队发布了Qwen 2.5 VL技术报告,详细介绍了其最新研发的视觉语言模型。该模型被誉为目前最强的开源权重视觉语言模型,具备卓越的多模态处理能力,能够高效地理解和生成图像与文本的结合内容。Qwen 2.5 VL...

Read More
2024-07-12 talkingdev

论文:PaliGemma技术报告-基于SigLIP 和 Gemma 2B的强大视觉语言模型

PaliGemma是一款基于SigLIP和Gemma 2B的强大视觉语言模型。这份技术报告详细阐述了在构建PaliGemma过程中的架构选择和数据收集方面所做的决策。SigLIP和Gemma 2B的结合使得PaliGemma在视觉语言建模方面展现出卓越性...

Read More
2024-07-10 talkingdev

高盛发布报告质疑生成式AI的性价比

高盛最近发布了一份题为《Gen AI: Too Much Spend, Too Little Benefit?》的31页的重要报告,该报告主张生成式AI的生产力益处和回报显著有限,而且其电力需求将极大地增加公共设施的开支。报告显著地对AI是否能够改...

Read More
2024-05-20 talkingdev

谷歌最新模型Gemini 1.5的技术报告发布

谷歌近日发布了最新模型Gemini 1.5的技术报告。报告详细介绍了此次升级的主要内容和改进之处,但并未透露过多关于模型或所使用数据的信息。然而,报告中对评估和安全措施的详尽描述,让我们得以深入了解大规模对齐的...

Read More
2024-05-08 talkingdev

AI现状:13张图表一览无余

斯坦福大学最新的一份报告跟踪了全球的人工智能趋势。报告通过13张图表全面展示了人工智能的现状,深入剖析了目前AI技术的发展趋势,涵盖了各种AI应用场景和技术挑战。该报告不仅对AI行业进行了全面的梳理,更是提供...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page