漫话开发者 - UWL.ME

2024-04-08 talkingdev

人工智能竞赛中的数据争夺战：四大看点

人工智能的发展极度依赖大量数据支持，科技公司对数据的渴求速度远超数据产生的速度，有预测指出到2026年高质量数字数据可能会耗尽。为此，像OpenAI、谷歌和Meta这样的公司正在探索获取更多数据的新方法，包括使用Yo...

2024-04-08 talkingdev

MLPerf 近日更新了其推理基准测试，新增了如 Llama 2 70B 和 Stable Diffusion XL 等大型语言模型，这一变化体现了整个行业对于大型生成型人工智能的转移。在最新测试中，Nvidia 的系统，尤其是搭载了 H200 处理器的...

2024-04-08 talkingdev

近期在GitHub上发布的ReFT（Representation Fine-Tuning）项目，为微调语言模型带来了一种新的参数高效方法。与传统的PeFT相比，ReFT在保持强大性能的同时，大大降低了成本。该方法通过精细化调整模型参数，使得在进...

2024-04-08 talkingdev

Meta的研究团队近日推出了一款新型的优化器，并已在X平台上公开代码及其多种集成方式。这款优化器的独特之处在于它不依赖于学习率（LR）调度，训练过程中无需预先设定总步数。经过实证，该优化器在包括语言模型在内...

2024-04-08 talkingdev

研究人员近日推出了ReaLMistake基准测试工具，该工具专注于系统性地检测大型语言模型（LLM）响应中的错误。随着人工智能技术的发展，大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而，这些模型在生成文...

2024-04-08 talkingdev

Qwen团队最新力作——一个具备32B参数的AI模型，现已成功训练并对外发布。该模型在各类任务中展现出卓越的性能表现，同时其设计考虑到了内存的局限性，能够适配更为普遍的中等内存硬件系统。这意味着，即便是在资源有...

2024-04-08 talkingdev

近日，一项名为"Anything Unsegmentable"的创新技术问世，旨在保护数字图像不受人工智能模型的非法分割。该技术的出现，对于解决因AI技术发展而日益凸显的版权和隐私问题具有重要意义。通过防止图像被AI模型分割，可...

2024-04-08 talkingdev

Cohere公司近日推出了Command R+，这是一款专为企业级应用场景设计的高性能、可扩展的大型语言模型（LLM）。Command R+具备先进的检索增强生成功能，并支持引用，同时覆盖10种关键语言的多语言处理能力，以及工具使...