漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-08-23 talkingdev

聊天机器人GPT-3.5-turbo现可进行微调操作

您现在可以在自定义数据上微调gpt-3.5-turbo模型了。微调后的模型完全属于您,且不会利用您的数据训练其他模型。这种方法可以大大降低成本、提升控制性,并改善整体性能。此外,GPT-4的微调功能也将在今年秋季推出。

Read More
2023-08-21 talkingdev

你可能不需要微调大型语言模型

对于大多数大型语言模型(LLM)应用,微调并非必要。使用少量提示或检索增强生成(RAG)可能是更好的选择。少量提示是指向LLM提供期望输出的示例,而RAG则涉及查询向量数据库,获取LLM未经训练的信息。这意味着,我...

Read More
2023-08-19 talkingdev

轩辕:首个千亿级中文金融开源对话模型

轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的...

Read More
2023-08-18 talkingdev

LoRA探索者:改变模型性能的低阶适配器

LoRA,全称低阶适配器,可以帮助改变模型性能。这意味着,你不需要对模型中的每个参数进行微调,只需训练一个可以轻松插入的子集。在这种情况下,社区中训练了许多可以改变SDXL行为的LoRA。这个空间可以帮助你探索其...

Read More
2023-08-15 talkingdev

如何选择并获取最适合的GPU?

随着越来越多的云服务提供商为AI工作负载提供微调或服务,人们往往很难决定选择哪一个。这里提供了一套相当不错的启发式规则,帮助您决定在哪个云上运行您的任务。在选择云服务提供商时,您应首先考虑您的具体需求,...

Read More
2023-08-11 talkingdev

论文:通过在上下文中学习提升Llama-2模型的性能

在一篇新的研究报告中,研究人员在聊天式提示中通过检索9个演示示例,使用预训练的Llama-2语言模型进行了在上下文中的学习。这种方法并没有改变模型的权重,但它使得与文本达芬奇-003模型相比,赢率增加了7倍,使其...

Read More
2023-08-09 talkingdev

HuggingFace联手AWS和Nvidia云,一键进行模型训练

近日,知名开源人工智能库HuggingFace宣布与AWS和Nvidia展开合作,为平台带来一键式训练功能。用户只需上传数据,即可直接在hub上对先进的模型进行微调。这一创新举措无疑将为AI研究者和开发者提供极大的便利,不再...

Read More
2023-08-02 talkingdev

论文:ToolLlama-语言模型与API的强大结合

工具使用是一个范例,其中语言模型生成触发某些API被调用的词汇,其输出作为令牌被反馈到语言模型中。这意味着语言模型能够使用计算器,网络浏览器,甚至编码环境。随着最近强大的开源语言模型的发布,您可以收集40k...

Read More
2023-08-01 talkingdev

论文:利用大型语言模型提升交通安全性

尽管大型语言模型(LLMs)在众多自然语言处理任务中取得了成功,但在交通安全领域却显得力不从心,因为这需要专门的知识。为解决这个问题,研究人员开发了TrafficSafetyGPT,这是一个经过独特数据集微调的LLM模型。...

Read More
2023-07-31 talkingdev

优化后的Llama 2,上下文长度达到32k

最近获得2000万美元投资的together公司,已经对Llama 2进行了微调,通过在位置嵌入上进行线性扩展,使其在处理上下文时可以处理高达32k的token。他们在许多有趣的基准测试中进行了测试,但是他们警告说,现代语言模...

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13
  5. Next Page