漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-21 talkingdev

Distil Whisper:新的语音识别技术比 Whisper 更快、更小、误差不到1%

Distil-Whisper 是 Whisper 的精简版本,比 Whisper 更快、更小,且在评估集上的误差不到1%。该技术是由 Google Brain 团队在 GitHub 上发布的。Distil-Whisper 采用了一些精简技术,包括低秩分解和知识蒸馏,以实现...

Read More
2023-12-21 talkingdev

VideoPoet:谷歌语言模型在视频创作中大放异彩

Google的VideoPoet是一种开创性的语言模型,它在处理文本到视频,视频风格化甚至视频到音频转换等多种任务方面具有独特的能力。这种方法通过将多种视频生成技术融合到一个模型中而脱颖而出。VideoPoet的革命性技术为...

Read More
2023-12-20 talkingdev

Google Vision开源权重分片,提升多节点系统训练效率

Google的Big Vision项目是一个研究和生产最先进的视觉系统的重要工具库。最近,他们添加了权重分片,使得在多节点系统上的训练更加容易。这个新功能可以将模型分成多个子模型,分别在不同的节点上进行训练,最后再将...

Read More
2023-12-15 talkingdev

Google推出Imagen2,提供文本和标志生成功能

Google推出了Imagen 2,这是一种增强的AI图像模型,可供经批准的Google Cloud Vertex AI用户使用,提供文本渲染,标志以及多语言翻译等新功能。Imagen 2可以通过Google Cloud的AutoML API和Vision API实现。该模型使...

Read More
2023-12-12 talkingdev

AI正在颠覆的行业并不是那么有利可图

谷歌的Gemini AI模型尽管有令人印象深刻的演示视频,但仅导致谷歌股票的微小增长,反映了对其实时功能的怀疑,因为演示使用的是预先录制的镜头和编辑过的回答。这种怀疑反映了AI行业的更广泛担忧,即公司创造了高期...

Read More
2023-12-08 talkingdev

优化LLMs使其可实现真实世界应用

Lightspeed分享了来自Google和TitanML关于通过提示或微调优化LLMs的内幕。 这些技术可以优化自然语言处理模型,从而帮助它们更好地适应真实世界的应用。 在这篇文章中,您将了解到这些优化技术的工作原理以及它们如...

Read More
2023-12-08 talkingdev

Google Gemini:原生多模态模型,文本能力达到GPT4水平

Google的旗舰机型Gemini是一款原生多模态模型,其文本能力达到了GPT4的水平,同时还能够处理许多其他数据序列。此外,它还训练了Alpha Code 2,这是一个在代码力量比赛中排名前15%的编码器。Alpha Code 2将在12月13...

Read More
2023-11-30 talkingdev

llamafile:运行在多个CPU微架构上的单文件分发工具

近日,llamafile发布了新的GitHub Repo,它是一种新的单文件分发工具,允许任何人使用单个文件分发和运行LLMs。LLMs可以在多个CPU微架构上运行,而不需要用户在每个平台上编译。这种工具可以节省开发者的时间和精力...

Read More
2023-11-29 talkingdev

Align API 为 AI 应用提供即插即用的保护措施

Align API 通过主动识别可能包含敏感内容的提示,防止这些提示被用于推理,从而节省不必要的成本,保护品牌,并防止被 OpenAI、苹果应用商店或 Google Play 等平台封禁。

Read More
2023-11-23 talkingdev

谷歌推迟Gemini的发布

谷歌推迟了其大型语言模型(LLM)和GPT-4竞争对手Gemini的发布时间,直到2024年第一季度,原因是担心其无法达到或超越OpenAI的GPT-4,并且着重于在允许外部开发人员访问之前加强其消费者产品。

Read More
  1. Prev Page
  2. 12
  3. 13
  4. 14
  5. Next Page