漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-07 talkingdev

Meta巨型AI模型,以驱动其整个视频生态系统

Meta的技术路线图一直延伸到2026年,其中之一是开发一种AI推荐模型,以推动公司的Reels短视频服务和更传统的长视频。目前,该公司为其每个产品使用单独的模型。新的推荐系统将为用户提供更有吸引力和相关的内容。Met...

Read More
2024-03-07 talkingdev

从零开始培训LLMs的初创公司

一家名为LLMify的初创公司正在推出一种新的方法来训练语言模型,他们将在没有预训练模型的情况下从零开始培训LLMs。该公司的创始人表示,这种方法可以提高模型的准确性和适用性,并加快训练时间。该公司已经引起了一...

Read More
2024-03-06 talkingdev

SURE-提高神经网络图像分类置信度

SURE技术是一种将多种技术结合起来,提高深度神经网络对于图像分类任务中不确定性预测可靠性的新方法。该方法通过模型置信度估计、模型不确定性估计和置信度校准三个步骤来实现置信度的提高。SURE技术的应用将大大提...

Read More
2024-03-06 talkingdev

开源Sora计划启动,旨在打造类似OpenAI的文本到视频模型

近日,开源Sora计划在GitHub上成立,旨在打造类似OpenAI的文本到视频模型。该计划目前正在构建基础组件,并寻求有兴趣的开源贡献者的帮助。据悉,Sora模型通过将自然语言转化为场景描述,再将其转化为视频,实现了文...

Read More
2024-03-06 talkingdev

论文:支持更长上下文长度的LLMs技术研究

近日,研究人员开发了一种名为Resonance RoPE的新技术,帮助LLMs更好地理解和生成比其原始训练序列更长的文本。这种方法在现有的Rotary Position Embedding(RoPE)系统上进行了改进,提高了模型在长文本上的性能,...

Read More
2024-03-06 talkingdev

Anthropic发布Claude 3家族的三个新模型,最强模型匹敌GPT4

Anthropic最近发布了Claude 3家族的三个新模型,其中最强的模型匹敌了GPT4的报告基准结果。此外,这是一个多模态模型,对视觉任务表现良好。值得注意的是,Claude的编码能力在此版本中得到了显著提高。

Read More
2024-03-05 talkingdev

Emissary-简单的基准测试基础设施

Emissary发布了一个基准测试平台,可以使开发人员在他们自己的条件下快速可靠地评估提示并管理模型迁移和回归。通过自动LLM辅助评估或将评级外包给Emissary,生成和扩展测试集,定义自定义指标,并协作地手动团队评...

Read More
2024-03-05 talkingdev

使用 Unsolth 加速 Gemma 训练速度 2.4 倍

Unsloth 项目旨在重写训练和推理语言模型的重要内核。它发布了一个示例,其中包括 Google 开源的 Gemma 模型的代码。通过使用 Unsolth,Gemma 的训练速度可以提高 2.4 倍。这个项目的目标是通过修改模型的内核,实现...

Read More
  1. Prev Page
  2. 267
  3. 268
  4. 269
  5. Next Page