漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-01 talkingdev

开发者指南:何时需要对大型语言模型进行微调

近日,Kiln公司发布了一篇关于大型语言模型(LLM)微调的深度指南,引发了开发者社区的广泛讨论。文章详细探讨了在什么情况下需要对预训练的大型语言模型进行微调,以及如何开始这一过程的技术细节。随着ChatGPT等大模...

Read More
2025-05-30 talkingdev

[开源]RenderFormer:无需场景训练的全局光照神经渲染器(GitHub项目)

微软研究院推出的RenderFormer是一项突破性的神经渲染技术,能够直接从三角形基础场景表征生成具有完整全局光照效果的逼真图像。该技术的核心优势在于其通用性——不同于传统神经渲染方法需要针对每个场景进行单独训练...

Read More
2025-05-27 talkingdev

OpenAI Cookbook发布:利用强化微调模型提升医疗任务性能

OpenAI最新发布的Cookbook教程详细介绍了如何通过强化微调技术(RFT)提升o4-mini模型在医疗任务中的表现。该教程不仅涵盖了技术实现步骤,还重点探讨了如何应对奖励机制滥用(reward hacking)和模型评分不准确等关...

Read More
2025-05-20 talkingdev

[开源]基于AWS低成本微调Qwen2.5B模型实现推理能力突破

GitHub最新开源项目展示了一种针对Qwen2.5B大语言模型的创新微调方案,该方案采用SFT(监督微调)结合GRPO(梯度反向传播优化)的混合训练框架,其技术路线受到DeepSeek R1架构启发,并针对AWS云平台进行了专项优化...

Read More
2025-05-16 talkingdev

[论文推荐]BLIP3-o:新型扩散Transformer架构在多模态基准测试中创下最优成绩

BLIP3-o作为一种新型的扩散Transformer架构,通过序列预训练方法实现了技术突破,并在多模态基准测试中取得了当前最优异的成绩。该研究不仅发布了完整的代码和权重文件,还附带了一个包含6万条指令的微调数据集,为...

Read More
2025-05-16 talkingdev

AI三重透镜:工具、代理与模拟器的本质解析

最新理论框架将人工智能划分为三个核心认知维度:工具、代理和模拟器。作为工具时,AI严格遵循人类指令延伸能力边界;代理形态下则具备自主目标追求能力;而模拟器模式专精于无特定目标的流程仿真。研究表明,大型语...

Read More
2025-05-09 talkingdev

[论文推荐]基于离线数据的Actor-Critic学习算法实现近最优样本效率

强化学习领域取得重要突破,研究人员开发出一种新型actor-critic算法,通过结合离线数据和针对性探索,在混合强化学习场景中实现了接近最优的样本效率。该研究解决了长期困扰强化学习领域的核心挑战——如何在有限的实...

Read More
2025-05-08 talkingdev

[论文推荐]基于LoRA的代码检索方法:参数减少98%准确率提升9.1%

研究人员最新提出了一种基于LoRA(低秩适应)的微调方法,专门针对代码搜索任务进行优化。该方法通过低秩矩阵分解技术,将可训练参数总量压缩至原始模型的2%以下,同时显著提升了代码检索的准确率——在Code2Code任务...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page