漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-01 talkingdev

Inception Labs发布商用级扩散语言模型Mercury

人工智能研究机构Inception Labs近日正式发布了商用级扩散语言模型Mercury,标志着自然语言处理技术向大规模商业化应用迈出重要一步。该模型基于先进的扩散概率模型框架,通过多阶段训练策略实现了文本生成的稳定性...

Read More
2025-04-21 talkingdev

Gemini Advanced用户现可通过Veo 2模型生成高清电影级视频

谷歌最新宣布,Gemini Advanced用户即日起可利用Veo 2模型实现文本到视频的AI生成能力。这项突破性技术可将自然语言描述直接转化为1080P分辨率、具有电影质感的动态影像,标志着多模态AI在视频创作领域的重大进展。V...

Read More
2025-04-01 talkingdev

TriplaneTurbo实现文本到3D模型的突破性进展

研究人员通过渐进式渲染蒸馏技术(Progressive Rendering Distillation),成功开发出无需真实3D网格数据即可从文本提示生成高质量3D模型的新方法。这一名为TriplaneTurbo的创新系统仅需1.2秒即可完成生成,在速度和...

Read More
2025-03-25 talkingdev

Roblox开源Cube 3D AI模型,文本生成3D对象助力创作效率提升

Roblox近日开源了其最新的AI模型Cube 3D,该模型能够通过文本提示生成3D对象,旨在提升创作效率。Cube 3D采用了先进的标记化技术,并通过授权和公开可用的数据集,以及Roblox自身的体验数据进行训练。未来,Cube 3D...

Read More
2025-03-24 talkingdev

SynCity:无需训练,从文本生成精细3D世界的创新系统

SynCity是一种革命性的系统,能够直接从文本提示生成详细的3D世界,而无需任何训练。该系统结合了2D图像生成器和3D生成器的优势,前者确保了艺术质量,后者则提供了精确的几何结构。SynCity以分块的方式构建场景,并...

Read More
2025-03-12 talkingdev

[论文推荐] 广义离散扩散: 提升文本数据去噪效率与自校正能力

在最新的研究进展中,科学家提出了一种广义离散扩散方法,该方法显著改进了在文本等离散数据上的扩散过程。这一创新通过引入一种广义的去噪过程和略微改进的掩码方案,使得训练过程更加高效,并赋予了模型自我校正输...

Read More
2025-03-05 talkingdev

无损加速超长序列生成:开源框架助力100K tokens高效处理

近日,一项名为“无损加速超长序列生成”的技术框架在GitHub上开源,旨在显著提升超长序列生成的处理速度,同时保持目标模型的固有质量。该框架支持高达100K tokens的序列生成,适用于需要处理大规模数据的场景,如自...

Read More
2025-02-27 talkingdev

Vision Language Models或将取代OCR技术

随着Vision Language Models(VLMs)的快速发展,传统的光学字符识别(OCR)技术正面临被取代的可能。VLMs结合了计算机视觉和自然语言处理的能力,能够更准确地理解和解析图像中的文本内容。与OCR相比,VLMs不仅能识...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page