漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-24 talkingdev

大语言模型作为决策法官不可靠:集体智慧项目揭示隐藏偏见

集体智慧项目(CIP)最新研究指出,当大语言模型(LLM)被应用于敏感领域的决策判断时,即便采用常见的提示工程方法,其裁决仍表现出不可预测的隐藏测量偏差,导致结果不可靠。研究发现,位置偏好、顺序效应和提示敏...

Read More
2025-05-23 talkingdev

基于LLM的智能体开发框架:评估驱动的新范式

近日,一篇关于构建基于大语言模型(LLM)的智能体系统的实践框架引发业内关注。该框架提出以评估为核心的开发方法论(Evaluation-centric Development),为AI智能体的研发提供了系统性指导。文章深入探讨了如何通...

Read More
2025-05-22 talkingdev

[论文推荐]慢思考提升大语言模型的置信度校准能力

最新研究表明,通过延长思维链推理过程(Extended chain-of-thought reasoning),大型语言模型(LLMs)能够显著提升其置信度校准能力。这项发表在arXiv预印本平台的研究(编号2505.14489v1)揭示了传统即时响应模式...

Read More
2025-05-22 talkingdev

专家指出:LLM函数调用难以扩展,代码编排更简单高效

近日,一篇技术文章指出,当前在处理大语言模型(LLM)的工具调用(MCP工具)时,常见的做法是将工具的输出结果重新输入到LLM中,并询问LLM下一步操作。然而,这种做法在扩展性上存在明显不足。相比之下,采用代码编...

Read More
2025-05-21 talkingdev

[论文推荐]DeepSeek-V3训练内幕:揭秘硬件-模型协同设计突破性实践

DeepSeek研究团队以DeepSeek-V3为案例,分享了大型语言模型(LLM)训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制(Multi-head Latent Attention)、专家混合系统(Mixture of Experts)、FP8...

Read More
2025-05-21 talkingdev

Fastino推出TLMs:专精任务的语言模型,性能超越LLMs

在人工智能领域,通用大模型(LLMs)虽然功能强大,但对于特定任务而言,其庞大的计算资源消耗和较高的成本并不总是最优选择。为此,Fastino公司推出了专精任务的语言模型(TLMs),旨在为特定任务提供更高效、更精...

Read More
2025-05-20 talkingdev

[论文推荐]LLM安全评估系统的鲁棒性研究揭示重大漏洞

最新发表在arXiv的研究论文指出,基于大语言模型(LLM)的安全评估系统存在显著脆弱性。研究表明,这类系统的评估可靠性极易受到提示词敏感性和对抗性攻击的影响。该发现对当前快速发展的AI安全评估领域具有重要警示意...

Read More
2025-05-20 talkingdev

[开源]基于AWS低成本微调Qwen2.5B模型实现推理能力突破

GitHub最新开源项目展示了一种针对Qwen2.5B大语言模型的创新微调方案,该方案采用SFT(监督微调)结合GRPO(梯度反向传播优化)的混合训练框架,其技术路线受到DeepSeek R1架构启发,并针对AWS云平台进行了专项优化...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page