漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-12 talkingdev

[论文推荐] 广义离散扩散: 提升文本数据去噪效率与自校正能力

在最新的研究进展中,科学家提出了一种广义离散扩散方法,该方法显著改进了在文本等离散数据上的扩散过程。这一创新通过引入一种广义的去噪过程和略微改进的掩码方案,使得训练过程更加高效,并赋予了模型自我校正输...

Read More
2025-02-27 talkingdev

LLM推理能力研究:System 2思维在大型语言模型中的应用

近期,一项针对OpenAI的o1/o3和DeepSeek的R1等推理型LLM的研究揭示了这些模型在逐步逻辑推理能力方面的表现。研究通过对比人类认知能力,对这些模型进行了基准测试。结果显示,尽管LLM在复杂任务中表现出色,但在需...

Read More
2025-02-26 talkingdev

Character AI在NanoGPT中实现内存优化,KV缓存使用减少40%

近日,Character AI在其大规模推理系统中成功减少了KV缓存的使用,并在一个简化版的GPT模型中实现了这一优化。通过这一技术改进,内存使用量减少了40%。这一优化不仅提升了系统的运行效率,还为未来更大规模的AI模型...

Read More
2025-02-24 talkingdev

谷歌发布SigLIP2:图像与文本编码模型的重大升级

SigLIP2作为SigLIP的升级版本,在多个方面实现了显著改进。SigLIP原本是一款广受欢迎的联合图像与文本编码模型,而SigLIP2在零样本分类性能上取得了重大突破,这一性能曾是CLIP模型的标志性成果。此次升级不仅提升了...

Read More
2025-02-21 talkingdev

BadSeek揭示大型语言模型的后门植入方法

近日,BadSeek项目揭示了如何在大型语言模型(LLM)中植入后门的技术细节。该项目通过深入研究LLM的embedding机制,展示了如何在不影响模型整体性能的情况下,植入特定的触发机制,从而在特定条件下激活后门功能。这...

Read More
2025-02-16 talkingdev

Jellyfin:开源媒体系统的未来之路

Jellyfin作为一款开源的媒体系统,正在迅速成为家庭娱乐和媒体管理的首选工具。与传统的媒体服务器不同,Jellyfin不仅完全免费,还提供了强大的功能,包括跨平台支持、实时转码、远程访问以及丰富的插件生态系统。其...

Read More
2025-02-14 talkingdev

论文:Jakiro利用Mixture of Experts优化Speculative Decoding,提升推理速度

近日,Jakiro团队通过引入Mixture of Experts(MoE)技术,成功优化了Speculative Decoding的性能。该方法通过生成多样化的预测结果,减少了候选预测之间的相关性,从而显著提升了推理速度。Speculative Decoding作...

Read More
2025-02-14 talkingdev

AI设计酶:从零开始创造全新生物催化剂

蛋白质设计的终极目标之一是从无到有地构建全新的酶。传统上,科学家通过在自然界中发现酶,然后通过试错方法对它们进行改进和适应。AI的最新进展可能最终引领我们从头开始创建定制酶的道路,但这一过程仍然是一个巨...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page