漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-09 talkingdev

PartCraft:突破传统的视觉AI生成控制新方法

近期,一种名为PartCraft的新型视觉AI生成方法引起了业界的广泛关注。不同于传统的文本或素描基础方法,PartCraft允许用户通过部分选择视觉概念。这一创新的方式为视觉AI生成提供了更多可能性,使得用户可以更灵活、...

Read More
2024-07-08 talkingdev

fun-audio:发布超强音频理解与生成模型

近日,Tongyi语音团队发布了他们的最新成果,一套超强的音频理解与生成模型。这套模型的发布,无疑将大大推动音频技术的发展与进步。模型的理解部分,能够准确分析出音频中的各种元素和信息,包括但不限于音质、音色...

Read More
2024-07-05 talkingdev

FlexiFilm-新扩散模型助力长视频生成

FlexiFilm 是一种专门为生成超过30秒的长视频而设计的扩散模型,它能够保证生成的视频具有高度的一致性和质量。这一新模型的出现,将在视频制作领域开启新的可能性。视频长度不再受限,而且模型生成的视频质量也得以...

Read More
2024-07-05 talkingdev

提升智能手机摄像头清晰度的新方法开源

本项目介绍了一种使用自我监督学习模型提高智能手机上图像分辨率的方法,该模型能够改善基于参考的超分辨率(RefSR)。通过使用自我监督学习模型,我们能够有效地提升智能手机摄影的图像质量和分辨率,使得拍摄出来...

Read More
2024-07-04 talkingdev

面部筛查工具可在几秒钟内检测出中风

一项新颖的AI技术通过分析面部肌肉运动和对称性,使用面部表情识别来检测中风。这项技术的开发是为了提高中风的早期发现和治疗,从而减少患者的痛苦和死亡率。通过使用AI技术分析患者的面部表情,我们能够快速准确地...

Read More
2024-07-04 talkingdev

论文:从模糊图像中重建3D场景,一项革新性技术的研发

研究人员已经研发出一种使用神经辐射场(NeRF)和事件流从单一模糊图像中重建3D场景的方法。这种创新性的方法模拟相机运动并合成亮度变化,从而可以从模糊的输入中生成高质量、视图一致的图像,而无需预计算相机姿势...

Read More
2024-07-04 talkingdev

法国实验室Kyutai Moshi研发出低延迟的纯音频LLM

Kyutai,一家法国的开放研究实验室,成功地训练出一款具有极低延迟的纯音频LLM。他们成功地创建了一个令人印象深刻的演示,将在未来几个月内开源。Kyutai的这项工作表明,纯音频LLM的实现并不遥不可及,只是需要在技...

Read More
2024-07-03 talkingdev

instantstyle+:运用现代扩散模型和内容嵌入器进行风格转换

即时风格+是一种新兴的技术,它使用现代扩散模型和内容嵌入器进行风格转换。扩散模型是一种强大的机器学习工具,能够生成高质量的图像。内容嵌入器则是一种特殊的算法,能够从图像中提取出有意义的特征。结合这两种...

Read More
2024-07-03 talkingdev

Mutahunter:开源语言无关的LLM基础突变测试工具

近日,一款名为Mutahunter的开源LLM基础突变测试工具在GitHub上公开。这款工具是语言无关的,可以广泛应用于自动化软件测试。Mutahunter的核心功能是通过LLM基础的突变测试,帮助开发者在自动化软件测试过程中,找到...

Read More
2024-07-02 talkingdev

向Jupyter笔记本中添加Mistral Codestral和GPT-4o

Mistral Codestral和GPT-4o最近被添加到了Jupyter Notebooks中。Mistral Codestral是一种新型的代码编辑器,它可以提高代码的编写速度和质量,而GPT-4o是一种新型的文本生成模型,可以生成更加精准和自然的文本。这...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page