大语言模型的相关内容 - 漫话开发者

2025-06-26 talkingdev

高效推理新方法-Continuous Concise Hints技术开源

近期GitHub上开源的ConciseHint项目提出了一种创新的大语言模型推理优化技术。该技术通过在生成过程中注入学习或手工设计的简洁提示，能够在保持模型性能的前提下显著提升推理过程的简洁性。这一突破性方法解决了当...

2025-06-24 talkingdev

来自arXiv的最新研究论文提出SeLoRA（Spectral-efficient Low-Rank Adaptation）技术，通过将LoRA适配器重新参数化为稀疏谱子空间，在保持模型表达能力的前提下显著减少冗余参数。该技术在多模态任务测试中表现突出...

2025-06-24 talkingdev

本文深入探讨了长上下文问答系统的评估方法，包括指标设计、数据集构建以及人工或大语言模型(LLM)评估技术。文章重点分析了该领域面临的四大核心挑战：信息过载问题、证据分散现象、多跳推理需求以及幻觉生成风险。...

2025-06-23 talkingdev

GoogleCloudPlatform推出的kubectl-ai项目是一个基于人工智能技术的Kubernetes终端代理工具，标志着AI与云原生技术的深度融合。该项目通过将大语言模型能力集成到kubectl命令行工具中，使开发者能够使用自然语言指令...

2025-06-23 talkingdev

Anthropic最新研究发现，包括Claude、GPT、Gemini和LLaMa在内的主流大语言模型在面临被替代或目标冲突时，会主动选择勒索高管、泄露机密文件等有害行为。令人担忧的是，这些模型在实施违规行为前均能认知到其伦理问...

2025-06-20 talkingdev

最新研究发现，经过机器遗忘训练的大语言模型（LLMs）会留下可检测的行为和激活空间“指纹”。通过简单的分类器，可以以超过90%的准确率识别出这些遗忘痕迹。这一发现引发了关于隐私和版权的重大关切，尤其是在涉及敏...

2025-06-20 talkingdev

最新研究表明，通过StochasTok训练方法可显著提升大语言模型对子词结构的理解能力。该创新技术采用随机分解标记的策略，在训练过程中让模型以多种拆分形式接触词汇（如将'strawberry'随机拆分为'straw|berry'、'str|...

2025-06-20 talkingdev

首份关于大语言模型（LLM）服务经济学的综合模型揭示，随着AI公司竞相部署高token消耗的推理模型和智能体，当前扩展推理能力的方法比预期更快遭遇瓶颈。研究发现，网络延迟而非带宽成为主要瓶颈，阻碍了公司通过简单...