模型的相关内容 - 漫话开发者

2026-04-09 talkingdev

开源|Claw-Eval：首个经人类验证的LLM智能体基准测试集，覆盖139项真实任务

近日，GitHub上开源了一个名为Claw-Eval的评估框架，专门用于评估大型语言模型作为智能体的能力。该框架的核心价值在于其构建了一个全面且经过人类验证的基准测试集，涵盖了139项多样化的真实世界任务。与以往许多依...

2026-04-09 talkingdev

Meta公司近日正式推出了名为Muse Spark的新型多模态推理模型，标志着其在追求个人超级智能（Personal Superintelligence）的道路上迈出了关键一步。该模型集成了三大前沿技术能力：工具使用、视觉思维链以及多智能体...

2026-04-09 talkingdev

谷歌旗下广受开发者欢迎的云端编程环境Colab近日迎来两项关键更新，进一步深化了其与Gemini大模型的集成，旨在为用户提供更具个性化和教育意义的AI辅助编程体验。此次更新的核心亮点在于“自定义指令”和“学习模式”两...

2026-04-08 talkingdev

近日，一个名为Clicky的开源项目在GitHub上发布，为macOS用户带来了一种新颖的人机交互体验。该项目本质上是一个运行在光标侧的AI“教师”或“伙伴”，能够实时“看到”用户屏幕内容，并通过语音与用户交流，甚至能直接“指...

2026-04-08 talkingdev

近日，GitHub上开源了一个名为TriAttention的项目，其核心是一种创新的KV（键值）缓存压缩技术。该技术旨在解决大语言模型在处理长上下文任务时，因KV缓存占用内存巨大而难以在消费级或内存受限的GPU上高效部署的行...

2026-04-08 talkingdev

人工智能安全研究公司Anthropic近日公布了其Claude Mythos预览版的早期评估细节。该评估重点展示了Claude Mythos在网络安全领域的突破性能力，特别是在发现零日漏洞和逆向工程漏洞利用方面表现出色。零日漏洞指尚未...

2026-04-08 talkingdev

在人工智能技术深刻重塑网络安全格局的当下，一项名为“Project Glasswing”（玻璃翼项目）的重大倡议正式启动，旨在为全球最关键软件提供安全保障，并为防御方在即将到来的AI驱动安全时代建立持久优势。该项目的核心...

2026-04-07 talkingdev

近日，一个名为Hippo Memory的开源项目在GitHub上发布，旨在为AI智能体构建一个受生物学启发的记忆系统，以解决其在长期交互中遗忘关键上下文信息的核心难题。该项目灵感来源于人类大脑中的海马体，通过模拟记忆衰减...