漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-08-22 talkingdev

PACT:对话议价基准测试集开放,揭示语言模型谈判能力

卡内基梅隆大学研究人员推出PACT(Pairwise Auction Conversation Testbed)对话议价基准测试平台,这是首个专门针对语言模型讨价还价能力构建的大规模评估体系。该平台包含超过5,000场对话博弈实验,每场包含20轮完...

Read More
2025-08-21 talkingdev

Rari框架横空出世:性能超Next.js四倍,吞吐量提升400%

开发者Ryan Skinner近日发布全新全栈React框架Rari,其基于自定义Rust运行时与V8引擎构建,在性能基准测试中展现出惊人表现——比Next.js快4倍且吞吐量提升400%。该框架采用三层架构设计:Rust核心运行时负责React服务...

Read More
2025-08-20 talkingdev

AnduinOS:新型操作系统引发技术社区热议

技术社区近期热议的新型操作系统AnduinOS(官网:anduinos.com)在Hacker News平台引发广泛关注,获得105点赞和126条深度讨论。该项目虽未公开具体技术细节,但从社区反馈可见其可能涉及操作系统架构创新或分布式计...

Read More
2025-08-17 talkingdev

OpenAI开源模型gpt-oss-120b性能测试报告:不同托管平台表现差异显著

近日,Artificial Analysis发布了一项针对OpenAI开源大语言模型gpt-oss-120b的性能基准测试报告。该测试聚焦于同一模型在不同托管服务提供商环境中的表现差异,结果显示各平台间的性能存在明显波动。作为当前参数规...

Read More
2025-08-13 talkingdev

AI2发布MolmoAct:首个支持3D空间推理的动作理解模型

艾伦人工智能研究所(AI2)近日开源了MolmoAct模型,这是首个基于Molmo框架构建的、专注于三维空间推理的动作理解系统。该模型通过创新的三维空间表征学习方法,实现了对复杂指令的精准环境交互能力,在SpatialQA等...

Read More
2025-07-30 talkingdev

DailyBench开源-实时监控AI模型性能的仪表盘

Daily Bench是一个开源的仪表盘项目,专注于监控Anthropic、Google和OpenAI等主流AI提供商的模型性能表现。该项目旨在检测模型在官方发布版本之间可能出现的质量退化问题,这些问题通常由推理过程变更、知识蒸馏或量...

Read More
2025-07-29 talkingdev

PyroWave-开发者自研高性能游戏流媒体编解码器

独立开发者Maister近日公开了专为本地游戏串流设计的革命性视频编解码器PyroWave。该技术突破性地采用纯帧内压缩与离散小波变换架构,彻底摒弃传统运动预测和熵编码模块,在保证容错性的同时实现惊人的编解码速度。...

Read More
2025-07-28 talkingdev

阿里开源Qwen3-235B思维模型:数学竞赛92.3%准确率,推理效率超越传统密集模型

阿里巴巴最新开源的Qwen3-235B思维模型在技术领域取得重大突破,该模型在AIME25数学竞赛中达到92.3%的准确率,与OpenAI的O4-mini性能相当,并在编码基准测试中以74.1%的LiveCodeBench得分实现超越。这一2350亿参数的...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page