经过增强的LLaMA模型现已包含16,000个泰米尔语令牌,利用了LoRA方法进行高效训练。这个更新,连同Alpaca和OpenOrca数据集的新的泰米尔语版本,显著改进了泰米尔语文本处理,为印度语言人工智能的未来发展铺平了道路...
Read More据外媒报道,OpenAI近日宣布启动数据伙伴计划,旨在与合作伙伴共同构建开放和私有的AI训练数据集。这个计划的启动也许意味着OpenAI即将用尽其下一轮模型训练的代币。OpenAI表示,他们需要大量的数据来训练AI模型,但...
Read MoreRed Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据,并具有令人印象深刻的广度。重要的是,已经完成了许多去重工作和一些启发式过滤工作,没有代码数据。
Read More数据污染和其他数据管道攻击是网络安全界面临的巨大挑战,同时也是大多数AI组织的盲点。本文介绍了这些攻击的方式,并提供了代码以帮助未来进行缓解。AI数据管道遭受攻击可能会导致数据泄露,模型失效,模型被篡改等...
Read MoreQdrant是一个基于Rust语言开发的矢量数据库,它使用高速度的矢量检索技术来存储嵌入式向量。近日,Qdrant发布了一个名为“类似帖子”的新功能,它可以使用最相似的向量来搜索数据集。这个功能可以广泛应用于社交网络、...
Read More研究人员通过创建同理心对话训练数据集的方式,改进了用于心理咨询的大型语言模型的同理心能力。该研究旨在使机器人咨询师更加亲切自然,增加用户的体验感和满意度。目前,该技术已在心理咨询机器人和智能客服中得到...
Read More