漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-08-09 talkingdev

评估大型语言模型作为代理的能力:AgentBench工具

该项目引入了AgentBench,一个用于测试大型语言模型(LLMs)在各种交互环境中的基准工具。在对25个LLMs进行的初步测试中,结果显示商业模型的表现超过了开源模型。这项研究为我们理解和评估大型语言模型的交互性能提供...

Read More
2023-08-08 talkingdev

MM-Vet:多模态LLMs测试工具

MM-Vet是一种新的工具,用于测试大型语言模型(LLMs)处理涉及图像和文字的任务的能力,例如从照片中解决数学问题或解释图片中的笑话。这种工具的出现,为我们提供了一个全新的角度去评估和理解LLMs在图像和文字处理方...

Read More
2023-05-23 talkingdev

GitHub发布Next.js企业级样板文件

该仓库包含一个企业级的Next.js样板文件,用于构建高性能、易于维护的应用程序。它支持Tailwind CSS、TypeScript、ESLint、Prettier、测试工具等。该样板文件与ChatGPT集成,可以进行AI驱动的自动化代码审查。 ##...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5