漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-10 talkingdev

学习在测试时:新型RNN变体超越Mamba

最近,一种新型的循环神经网络(RNN)变体在多项任务中的表现超过了Mamba。这种新型的RNN变体的重要特点是其更新函数本身就是一个机器学习(ML)模型。这使得它可以处理长上下文和在上下文中进行学习。在现今的机器...

Read More
2024-05-15 talkingdev

Google推出全新轻量级模型Gemini Flash,拥有多模态推理和高达百万Token上下文窗口

近日,Google发布了新的轻量级模型Gemini Flash。此模型具有多模态推理和高达一百万个符号的长上下文窗口。Google利用其先进的技术,使Gemini Flash在处理大量数据时保持了高效与精确。这种新型的轻量级模型将有助于...

Read More
2024-04-28 talkingdev

使用Unsloth微调Llama3:显著减少内存使用且长上下文增6倍

Llama3是一种革命性的新技术,它通过使用Unsloth进行微调,可以在保持相同的计算效率的同时,显著降低VRAM的使用量。最近的研究表明,使用Unsloth微调Llama3可以使上下文长度增长六倍,这比HF的flash attention技术...

Read More
2024-03-06 talkingdev

论文:支持更长上下文长度的LLMs技术研究

近日,研究人员开发了一种名为Resonance RoPE的新技术,帮助LLMs更好地理解和生成比其原始训练序列更长的文本。这种方法在现有的Rotary Position Embedding(RoPE)系统上进行了改进,提高了模型在长文本上的性能,...

Read More
2023-08-28 talkingdev

微软开源DeepSpeed训练长文本模型

DeepSpeed是微软推出的一个库,可以用来扩大语言模型的预训练。虽然使用起来有些复杂,但它提供了强大的抽象功能。微软最近添加了序列并行性,可以训练具有更长上下文长度的模型。这并不是一个新的突破,而是对开源...

Read More
2023-05-13 talkingdev

Anthropic模型升级:100k上下文标记突破

Anthropic最新消息,其Claude模型现已可处理更长上下文标记。这意味着,您的组织可以将完整文档输入模型,语言模型将会对其进行操作。他们举了一个例子,将240页编码文档输入Claude,并让其回答编码问题。目前尚未公...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7