漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-21 talkingdev

开源框架DeepEval助力大型语言模型系统评估

DeepEval是一个开源框架,专注于评估和测试大型语言模型系统。它整合了最新的研究成果,通过本地运行的模型来评估模型输出。DeepEval支持通过RAG、微调、LangChain、LlamaIndex等多种方式实现的应用。该框架可帮助开...

Read More
2025-01-24 talkingdev

开源推荐:评估蒸馏LLM的双重量化指标

近日,GitHub上发布了一个专注于评估蒸馏LLM(Large Language Models)性能的开源项目。该项目提供了两种互补的量化指标,旨在帮助研究人员和开发者更精确地衡量LLM蒸馏的效果。蒸馏技术是一种通过将大型模型的知识...

Read More
2025-01-01 talkingdev

利用LÖVE引擎快速打造游戏原型

LÖVE是一个适用于开发2D游戏的开源游戏框架,以其轻量级和易于上手的特性受到开发者的青睐。使用LÖVE,开发者可以快速构建游戏原型,并通过其提供的API轻松实现图形渲染、音频播放、键盘和鼠标输入等功能。LÖVE还支...

Read More
2024-12-27 talkingdev

Lua语言:被低估的编程瑰宝

Lua是轻量级、高效能的脚本语言,广泛应用于游戏开发、嵌入式系统和网络编程等多个领域。其小巧的体积、简单易学和高度可扩展性使其成为开发者的宠儿。尽管在某些领域被其他语言所掩盖,Lua的潜力和实用性依然不容小...

Read More
2024-06-30 talkingdev

字节码分解:揭开Factorio的Lua安全漏洞

Factorio是一款非常受欢迎的基于Lua脚本的游戏,但最近专家发现其Lua脚本中存在安全漏洞。这些漏洞可能会导致游戏中的恶意行为,例如破坏游戏世界、盗取数据等。专家使用反汇编工具对游戏的字节码进行了分解,发现一...

Read More
2024-06-26 talkingdev

EvalAlign:一种文本到图像生成模型评估指标

EvalAlign是一种新型的用于改进文本到图像生成模型评估的指标。与现有的评估指标不同,EvalAlign提供了细粒度的准确性和稳定性。它主要关注图像的真实性和文本与图像的对齐性。与其他评估指标不同的是,EvalAlign不...

Read More
2024-06-21 talkingdev

开源框架WebCanvas,实时评估Web Agent

WebCanvas是一个全新的框架,专门用于在动态的、实时的网络环境中评估自主Web代理Agent。该框架的出现,将为Web代理Agent的开发和应用带来革新。WebCanvas以其高度灵活和动态的特性,为Web代理提供了一个广阔的应用...

Read More
2024-06-12 talkingdev

论文:评估医疗模型的可信度,CARES全面评估框架

CARES是一个全面的评估框架,用于评估医疗大视觉语言模型(Med-LVLMs)的可信度。该框架的目标是确保这些模型能够在医疗环境中提供可靠且准确的结果。就像其他的人工智能模型一样,医疗大视觉语言模型的可信度是其成...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page