漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-23 talkingdev

CrewAI:构建与编排Agent方式升级

CrewAI提供了一个库,用于构建和编排利用LangChain和Replit的AI代理。它提供了一个模块化的设置,包括代理、任务、工具和团队,可轻松集成到各种项目中。通过LangSmith简化调试,增强了对非确定性LLM调用的性能洞察...

Read More
2024-02-22 talkingdev

VLM开源:增强AI对抗攻击的防御能力

近日,GitHub推出了一项新的方法,可以增强OpenFlamingo和LLaVA等多模型模型对视觉对抗攻击的防御能力。该方法通过无监督地微调CLIP视觉编码器,有效地保护这些模型免受恶意图像攻击,提高了它们在现实应用中的可靠...

Read More
2024-02-16 talkingdev

Google发布Lumiere文本到视频模型

Google最近推出了一种新的文本到视频模型Lumiere,该模型可以将图像和风格作为输入,并使用一种新颖的“空时UNet”同时扩散所有内容。该模型采用了深度学习技术,可以将文本内容转换为相对应的视频,并且不需要任何人...

Read More
2024-02-13 talkingdev

Llmware:统一LLM应用程序开发框架

Llmware是一个统一的框架,用于开发基于LLM的应用程序模式,包括检索增强生成。它提供了一个通用的API,使得开发人员能够轻松地使用不同的LLM模型和数据集。Llmware还为开发人员提供了一组可自定义的工具,用于自动...

Read More
2024-02-12 talkingdev

天使投资人对人工智能的评论

这位投资人的观点,有助于将当前人工智能中的价值层次带入一些背景,通过将它们分解为基础架构层,如云计算服务提供商和芯片制造商,建模和核心层,如OpenAI和Anthropic,以及AI增强产品,如所有使用AI来改善其产品...

Read More
2024-02-12 talkingdev

CogCoM开源新视觉语言模型,增强视觉推理能力

CogCoM是一种全新的通用视觉语言模型,它具有独特的操作链机制。这使得它能够通过主动调整输入图像来处理多轮视觉推理。该模型已经在GitHub上发布。

Read More
2024-02-12 talkingdev

利用任务指导提升Agent的游戏玩法

本文探讨了开发一种通用的AI代理的能力,能够理解和遵循游戏玩法指令的步骤,这是迈向“准备好玩”的能力的一步。研究人员通过将多模态游戏指令集成到决策转换器中,增强了代理的多任务和泛化能力。

Read More
2024-02-12 talkingdev

如何制作虚假的机器人演示视频

机器人和CGI技术的发展越来越让人难以分辨真假。即使视频真实,演示视频也往往是最佳表现的片段,每个视频背后可能都有数小时的视频没有进入最终剪辑。 CES缺乏酷炫的机器人演示,但有许多惊人的视频。观众应该用辨...

Read More
  1. Prev Page
  2. 52
  3. 53
  4. 54
  5. Next Page