漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-01 talkingdev

开源|E2E:基于JAX的端到端测试时训练框架,革新长上下文语言建模

近日,GitHub上开源了一个名为E2E的JAX官方实现项目,它提出了一种创新的长上下文语言建模方法。该方法的核心在于将传统的语言建模任务重新定义为持续学习问题。E2E模型采用标准的Transformer架构,并配合滑动窗口注...

Read More
2025-10-21 talkingdev

BERT竟是单步文本扩散?谷歌DeepMind新研究揭示语言模型本质关联

近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

Read More
2025-05-19 talkingdev

[开源] 使用SBERT建模《伏尼契手稿》结构:NLP技术探索中世纪未解之谜

一位开发者利用自然语言处理(NLP)技术对神秘的《伏尼契手稿》进行了结构性分析。该手稿是15世纪以未知文字书写的古籍,至今未被破译,其真实性也饱受争议。项目采用SBERT(Sentence-BERT)模型生成词根嵌入,结合K...

Read More
2025-01-23 talkingdev

EvaByte:字节级语言模型的新突破

SambaNova推出的EvaByte模型在字节级语言建模领域取得了显著进展。尽管其性能仅与两代前的模型(如Llama 2)相当,但对于长期受限于10亿参数以下的字节级模型来说,这无疑是一个重要的突破。EvaByte的成功不仅展示了...

Read More
2024-07-17 talkingdev

Bert发生了什么?——Yi Tay的精彩分享

近日,Reka和Google的Yi Tay发表了一篇精彩的文章,详细讲述了编码器、prefixlm、降噪目标等现代语言建模技巧。在这篇文章中,Yi Tay详细分析了一些对于语言建模领域的最新的研究成果和思考。他深入剖析了编码器的工...

Read More
2024-07-12 talkingdev

论文:PaliGemma技术报告-基于SigLIP 和 Gemma 2B的强大视觉语言模型

PaliGemma是一款基于SigLIP和Gemma 2B的强大视觉语言模型。这份技术报告详细阐述了在构建PaliGemma过程中的架构选择和数据收集方面所做的决策。SigLIP和Gemma 2B的结合使得PaliGemma在视觉语言建模方面展现出卓越性...

Read More
2024-07-04 talkingdev

Sasha Rush教授分享扩散语言模型的精彩讲座

来自康奈尔科技大学的教授和Hugging Face的研究员Sasha Rush,近日做了一场关于使用扩散作为语言建模目标的精彩讲座。在15分钟的视频中,他详细解读了扩散语言模型的核心理念,让我们有机会深入了解这一前沿技术。Sa...

Read More
2024-06-10 talkingdev

YOLO-World实现开放词汇对象检测创新

研究人员升级了流行的YOLO对象检测器,推出了YOLO-World,首次引入了开放词汇检测的概念。这种方法结合了视觉语言建模和大规模数据集训练,使其能够快速且准确地识别大量对象,即使在未特定训练的场景中也能表现出色...

Read More
  1. Next Page