EvoEval是一套全新的基准测试工具,专为评估大型语言模型(LLMs)的编码能力而设计。该测试套件采用了比以往更加严格的测试标准,以确保对LLMs编程能力的全面检测。EvoEval的发布意味着开发者和研究人员现在可以更准...
Read More像Claude这样的大型语言模型(LLMs)能够为解析代码生成有效的模糊测试工具,这一过程传统上需要大量的人力投入。尽管LLMs通常在精确度上不足以进行静态分析,但它们似乎非常适合创建模糊测试工具,因为模糊测试的随机...
Read MoreRust编程语言近年来越来越流行,而现在Cranelift代码生成器也加入了这个生态系统。Cranelift是一个基于LLVM的代码生成器,它的目的是为多种语言提供通用的代码生成器。Rust作为一种系统级编程语言,需要高效的代码生...
Read More谷歌推出了一系列新的AI语言模型Gemma,这些模型是基于类似Gemini的技术构建的免费开源模型。Gemma模型可在桌面或笔记本电脑上本地运行,有两个模型,一个有20亿个参数,另一个有70亿个参数。每个模型都有经过预训练...
Read MoreMagic正在构建一款AI软件工程师,并获得更多资金来支持这一过程。该公司最近获得1.17亿美元的资金,以帮助开发人员自动生成代码。Magic的平台使用AI技术,可以自动完成大量编码工作,从而节省时间和减少人为错误。该...
Read MoreAlphaCodium推出了一种新颖的方法来增强LLMs的代码生成能力。这种多阶段、基于测试的迭代过程显著提高了像GPT-4这样的模型在解决复杂编程问题时的准确性,如在CodeContests数据集上所展示的。
Read MoreTACO是一个新的基准,用于评估系统生成代码的能力。它比现有数据集大得多,包含更具挑战性的问题。在简单的问题上,GPT-4的正确率达到30%,而在最难的问题子集上,它仅能达到2%。
Read MoreGitHub的首席产品官Inbal Shani讨论了AI在软件开发中的作用,认为AI驱动的代码生成不会取代开发人员,而是提高他们的效率。她探讨了GitHub的Copilot背后的成功指标和理念,以及该公司如何促进创新。这次对话揭示了AI...
Read More