arXiv的相关内容 - 漫话开发者

2025-08-01 talkingdev

[论文推荐] FGFP框架：基于分数阶高斯滤波与剪枝的深度神经网络压缩技术

随着深度神经网络（DNNs）在边缘设备上的应用日益广泛，网络压缩技术的重要性愈发凸显。针对现有方法在边缘设备部署上的挑战，研究者提出了一种创新的分数阶高斯滤波与剪枝（FGFP）框架。该框架将分数阶微分计算与高...

2025-08-01 talkingdev

近期，佛教学者对ChatGPT o3生成的一篇AI“佛经”进行了专业分析，发现其通过悖论解构等手法，呈现出复杂的哲学概念与意象，成功唤起了佛教核心教义如“空性”的思考。研究表明，尽管大语言模型（LLMs）能够复述佛法教义...

2025-07-24 talkingdev

Voxtral团队最新发布了Voxtral Mini和Voxtral Small两款多模态音频聊天模型，在语音理解和文本处理方面均达到业界领先水平。这两款模型能够同时处理语音音频和文本文档，在多项音频基准测试中取得了最先进的性能表现...

2025-07-18 talkingdev

一项名为“Power”注意力的创新技术通过引入超参数p，实现了对状态大小的独立控制，有效解决了长上下文训练中计算成本平衡的难题。该机制在长序列任务中表现优于标准注意力，并支持定制GPU内核，在64k上下文长度下速度...

2025-07-15 talkingdev

一项名为'基于能量的Transformer'（Energy-Based Transformers）的新型架构在机器学习领域取得突破性进展。该技术摒弃了传统的直接预测方式，转而采用学习验证函数来评估输入与候选输出之间的兼容性得分。这种创新架...

2025-07-10 talkingdev

最新研究发现，在数学问题中插入诸如'有趣的事实：猫一生大部分时间在睡觉'等无关短语，会导致大语言模型的错误应答率较基准水平飙升300%。这种与查询无关的对抗性触发现象具有跨模型规模的迁移性，且蒸馏版模型表现...

2025-07-08 talkingdev

近日，研究人员发布了新一代商业级大语言模型Mercury，该模型基于扩散模型技术，采用Transformer架构进行参数化，并能够并行预测多个token。报告重点介绍了Mercury Coder，这是首套专为编程应用设计的扩散大语言模型...

2025-07-03 talkingdev

研究人员最新提出了一种创新的神经网络架构预测器，该预测器将图神经网络（GNN）与Transformer架构相结合，通过引入兄弟感知令牌混合器（sibling-aware token mixer）和双向图同构前馈网络（bidirectional graph iso...