大型语言模型的相关内容 - 漫话开发者

2025-02-21 talkingdev

BadSeek揭示大型语言模型的后门植入方法

近日，BadSeek项目揭示了如何在大型语言模型（LLM）中植入后门的技术细节。该项目通过深入研究LLM的embedding机制，展示了如何在不影响模型整体性能的情况下，植入特定的触发机制，从而在特定条件下激活后门功能。这...

2025-02-14 talkingdev

近日，研究人员通过优化技术展示了大型语言模型（LLMs）在减少非embedding参数的同时仍能保持学习能力。研究表明，通过用优化的子网络替换密集层，LLMs可以在减少高达77%的参数的情况下，依然保持与原有模型相当的性...

2025-02-13 talkingdev

OpenAI近日公布了其GPT系列模型的未来发展路线图，计划在推出GPT-5之前，先发布GPT-4.5作为最后一个非链式思维（non-chain-of-thought）模型。GPT-5将实现o-series与GPT-series模型的统一，标志着OpenAI在大型语言模...

2025-02-10 talkingdev

近日，一项研究提出了一种创新方法，通过无数据余弦相似度技术追踪稀疏自编码器在大型语言模型（LLM）连续层中发现的特征演化过程。该方法能够映射特征的持久性、转换和涌现，生成跨层特征图。研究表明，这些特征图...

2025-02-10 talkingdev

在最新的技术观察中，我们总结了三个关键点，揭示了AI与LLM（大型语言模型）领域的未来发展趋势。首先，LLM的embedding技术正在迅速进步，使得模型能够更好地理解和生成自然语言。其次，agent技术的应用范围不断扩大...

2025-01-31 talkingdev

近日，一种名为VIRUS的方法在GitHub上开源，该方法旨在生成对抗性数据，以绕过大型语言模型（LLM）的审核系统，并破坏其安全对齐机制。VIRUS通过精心设计的输入数据，能够有效规避现有的内容过滤和防护措施，从而对L...

2025-01-28 talkingdev

近日，一款名为ErisForge的Python库在技术社区中引起了广泛关注。该库由一位开发者独立创建，旨在为大型语言模型（LLM）的消融研究提供支持。ErisForge通过简化消融实验的流程，帮助研究人员更高效地分析和理解LLM的...

2025-01-26 talkingdev

近日，DeepSeek团队发布了其最新研究成果DeepSeek-R1，旨在通过强化学习（RL）技术提升大型语言模型（LLM）的推理能力。DeepSeek-R1的核心目标是通过激励机制优化模型的推理过程，使其在处理复杂问题时表现出更高的...