LLM的相关内容 - 漫话开发者

2024-04-02 talkingdev

LLMs如何引领RPA流程自动化新时代

尽管RPA（机器人流程自动化）在早期取得了一些成功，但其在企业范围内的部署并没有达到预期效果。德勤的一项调查显示，仅有3%的公司能够成功扩大其RPA项目规模。然而，人工智能的最新进展有望改变这一现状。大型语言...

2024-04-01 talkingdev

EvoEval是一套全新的基准测试工具，专为评估大型语言模型（LLMs）的编码能力而设计。该测试套件采用了比以往更加严格的测试标准，以确保对LLMs编程能力的全面检测。EvoEval的发布意味着开发者和研究人员现在可以更准...

2024-03-29 talkingdev

谷歌发布了一份数据集和基准测试，用以展示各语言模型生成事实信息的能力。本报告深入分析了如何提升模型的真实性，并揭示在多数情况下语言模型胜过人类注释者。这一发现不仅对技术领域产生重大影响，也对如何使用人...

2024-03-28 talkingdev

语言模型（LLMs）的实用性在于其速度、准确性以及遵循指令的能力。这三个特性使得通过文本输入控制的街头霸王模拟器成为了衡量不同模型在这三个方面表现的绝佳方式。GitHub上的一个项目通过这种方式为LLMs提供了一个...

2024-03-27 talkingdev

近期，由Anthropic开发的最新人工智能模型Claude-3在高级认知任务上的表现超越了普通人类智商，并且在某些领域胜过了业界知名的GPT-4模型。然而，尽管在这些复杂任务上表现出色，Claude-3在处理一些人类认为简单的谜...

2024-03-27 talkingdev

尽管AI技术日益进步，谷歌搜索的地位似乎并未受到太大威胁。谷歌搜索不仅复杂，而且用户需求多样化。虽然基于大型语言模型的AI工具在某些特定情况下可能比谷歌的搜索结果更有用，但对于大多数用例而言，AI仍难以取代...

2024-03-26 talkingdev

Anyscale与NVIDIA最近宣布了一项新的合作伙伴关系，旨在帮助客户将生成式AI模型扩展到生产环境中。通过这次合作，客户可以将Ray与Anyscale的托管运行环境相结合，以提高资源管理、可观测性和自动扩缩容的能力。这项...

2024-03-21 talkingdev

像Claude这样的大型语言模型(LLMs)能够为解析代码生成有效的模糊测试工具，这一过程传统上需要大量的人力投入。尽管LLMs通常在精确度上不足以进行静态分析，但它们似乎非常适合创建模糊测试工具，因为模糊测试的随机...