漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-11 talkingdev

Ada-LEval:全新基准测试,挑战理解长文本的能力

近期,Ada-LEval这一新基准测试的发布,旨在严格评估大型语言模型处理长篇及超长文本的理解能力。随着人工智能技术的不断进步,语言模型在处理文本信息方面的能力也越来越受到关注。Ada-LEval的推出,不仅为研究人员...

Read More
2024-04-11 talkingdev

Rewriting PyTorch nn in Triton,开创神经网络实验库新篇章

Attorch项目旨在用Python和Triton重新编写PyTorch的nn模块部分代码,创建一个易于修改且性能卓越的神经网络实验库。这一尝试标志着以往成本过高的编写工作现在变得可行。Attorch的设计允许研究人员和开发者轻松进行...

Read More
2024-04-11 talkingdev

iOS 18 将推出全新的“Safari 浏览助手”功能

即将发布的 iOS 18 版本中,一项名为“Safari 浏览助手”的新功能已经得到确认。虽然关于该功能的详细情况尚未完全公开,但已有确切信息显示其代码已存在于系统中。此外,苹果还在开发一项名为“加密视觉搜索”的功能。i...

Read More
2024-04-10 talkingdev

使用Colab在H100上训练超过20万上下文窗口的新梯度累积卸载技术

Longcontext Alpaca训练技术最近取得了重大突破,通过在H100硬件上使用新的梯度累积卸载技术,成功训练了超过200,000个上下文窗口。这种创新方法使得大规模深度学习模型的训练变得更加高效,显著提高了计算资源的利...

Read More
2024-04-10 talkingdev

戴密斯·哈萨比斯能否挽救谷歌?

DeepMind创始人戴密斯·哈萨比斯目前领导着谷歌统一的人工智能研究部门,致力于通过AlphaGo和AlphaFold等突破性成果保持科技巨头在人工智能领域的领先地位。尽管取得了成功,但将AI集成到实际产品中以及来自OpenAI的C...

Read More
2024-04-10 talkingdev

Visual Autoregressive Models:图像生成高分辨率解决方案

Visual Autoregressive Models是一个新的GitHub项目,它将图像生成视为逐步预测更高分辨率的过程。该代码库包含了用于下一分辨率预测工作的推理脚本和演示笔记本。虽然训练代码将很快公开,但目前该项目已经引起了技...

Read More
2024-04-10 talkingdev

SqueezeAttention技术助力LLM优化,内存使用降低30%至70%

近日,开发者社区GitHub上出现了一项名为SqueezeAttention的新技术,该技术针对大型语言模型(LLMs)的键值缓存进行了优化。通过SqueezeAttention,内存使用量能够显著降低30%至70%,同时吞吐量也得到了翻倍提升。这...

Read More
2024-04-10 talkingdev

谷歌Gemma扩展模型提升性能与效率

谷歌近期成功训练了一套名为Gemma的代码模型和循环Gemma模型。这些新模型展现出了与现有技术相媲美的性能,并且已经集成了FIM(查找插入记忆)功能。值得注意的是,循环Gemma模型在运行速度和内存效率方面都有显著提...

Read More
  1. Prev Page
  2. 105
  3. 106
  4. 107
  5. Next Page