漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-04 talkingdev

探索LLMa的视频理解技术

这个仓库包含了一系列有用的资源,重点是大型语言模型在视频理解领域的应用。这些资源包括论文、代码和数据集,可以帮助研究人员和工程师更好地理解和应用LLMa模型。LLMa模型是一种基于自然语言处理的技术,在视觉和...

Read More
2024-03-01 talkingdev

论文:AI模型的视觉感知能力得到提升

本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。

Read More
2024-02-28 talkingdev

FlowMDM实现长时间人体动作生成

FlowMDM是一种新的模型,用于从文本描述生成长时间连续的人体运动序列。这种首创的扩散模型使用混合位置编码进行逼真的运动创建,无需额外的去噪步骤,在关键数据集上表现出卓越的准确性和逼真度。

Read More
2024-02-28 talkingdev

数据质量研究专家创立 DatalogyAI 公司,获1100万美元融资

由数据质量研究专家创立的 DatalogyAI 公司最近获得了1100万美元的融资。该公司旨在让数据集的可扩展筛选变得更加简单。

Read More
2024-02-27 talkingdev

OpenCodeInterpreter模型接近GPT-4的代码性能

OpenCodeInterpreter模型基于CodeLlama和DeepSeek Coder,通过训练合成多轮数据集和使用人类反馈,能够在编程HumanEval基准测试中获得85%以上的准确率。

Read More
2024-02-23 talkingdev

Meta发布MMCSG数据集,助力社交音频和视觉任务研究

Meta发布了MMCSG数据集,其中包含数千个通过Aria眼镜记录的双向对话,旨在鼓励在各种社交音频和视觉任务中的研究。

Read More
2024-02-20 talkingdev

OpenMathInstruct-用LLMs提高数学技能

研究人员创建了OpenMathInstruct-1,这是一个用于训练开源大型语言模型数学的新数据集,可与闭源模型的性能相匹配。这一突破包含180万个问题解决对,为更加可访问和有竞争力的数学教学AI工具打开了大门。

Read More
2024-02-16 talkingdev

VideoAnnotator开源:结合人类专业知识的注释方法提高视频分类精度

近日,一种名为Video Annotator的框架已经在GitHub上发布。该框架通过将领域专家直接融入注释过程中,利用零样本学习和主动学习技术提高模型的精度和效率。这种注释方法不仅提高了模型的分类准确度,而且可以更好地...

Read More
2024-02-14 talkingdev

MMI智能:AI普及化的下一个趋势

群体混淆智能(MMI)的概念代表了从传统的单一AI扩展向基于分布式、基于代理的系统的模型的转变,这些系统可以实时学习和适应。MMI的理念根植于具体化、边界智能、时间性和个体性的原则,倡导强调具有一定自主性和相...

Read More
2024-02-14 talkingdev

WebLinx对话式网页抓取数据集开源

WebLinx是一个包含10万个基于对话格式的网络交互的数据集。它的发布是为了改善基于语言模型导向的网络导航的研究。该数据集包括对话、URL、HTML和屏幕截图。它由Carnegie Mellon大学的研究人员发布,已经开源。这个...

Read More
  1. Prev Page
  2. 12
  3. 13
  4. 14
  5. Next Page