扰动注意力指引(PAG)是一种提升扩散模型生成图像质量的新方法,无需额外的训练或外部模块。通过创新地操作模型内部的自我关注机制,PAG显著提高了无条件样本和条件样本的结构和保真度。扩散模型一直以来都是生成对...
Read More最新研发的混元-DiT在文本到图像扩散变换器方面设立了新的标杆,特别是对于英文和汉文。这一技术特征包括先进的变换器结构和精炼的数据管道,为持续的模型改进提供了可能性。而这一突破性的发展,不仅提升了英汉文本...
Read More深度学习中的SiLU和SoftMax函数在许多任务中都是必不可少的,但它们的计算成本很高。为了改进这一点,来自华盛顿大学的研究人员提出了两个新的指数函数,可以将它们的速度提高2倍,同时完全保持准确性。这些函数分别...
Read More在2024年的Google I/O开发者大会上,Google发布了众多新功能,包括Gemini Flash、Veo视频生成、Imagen 3及其最新助手Project Astra。整体而言,这些改进数量惊人,包括扩大到2m的令牌上下文长度,大幅降低的模型价格...
Read MoreOpenAI近日宣布推出一款名为GPT-4o的全新模型。此款模型是一种天生的多模型处理,其性能在文本处理方面已超越GPT-4,并在各种模式上展现出最先进的性能。OpenAI同时也发布了一款全新的桌面应用,一个接近实时的音频...
Read More阿里巴巴云已经发布了其最新版的大语言模型 - Tongyi Qianwen Qwen2.5。这一新版本在推理、代码理解以及文本理解等方面相比于Qwen2.0有了显著的改进。Qwen2.5的推出标志着阿里巴巴在人工智能语言模型开发上取得了重...
Read MoreGoogle DeepMind与Isomorphic Labs联手开发了第三代AlphaFold,这是一款强大的蛋白质折叠预测模型。他们正在推出AlphaFold Server,这是一种免费的与模型交互的方式。AlphaFold 3比前两代的准确性提高了50%。它准确...
Read More近日,一家名为Klimb的初创公司推出了一款名为“Klimb AI”的攀岩教练软件,可以根据用户的身体状况和技能水平,为其呈现出可视化的攀岩路线。据悉,该软件使用计算机视觉技术,分析攀岩者的身体姿势和动作,以及攀爬...
Read MoreHeadless UI v2.0 for React带有内置的锚定定位、新的复选框组件、HTML表单组件、组合框列表虚拟化、新网站、改进文档和改进的悬停、焦点和活动状态检测功能。这些改进旨在帮助开发人员编写更少的代码,并使开发人员...
Read More像GPT-4V这样的视觉-语言模型在理解和与图像和文本交互方面正在快速发展。然而,最近的一项研究揭示了它们在视觉推理上的重大限制。研究人员使用复杂的视觉难题,如智商测试中的难题,来测试这些模型,并发现它们在...
Read More