漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-16 talkingdev

[论文推荐]BLIP3-o:新型扩散Transformer架构在多模态基准测试中创下最优成绩

BLIP3-o作为一种新型的扩散Transformer架构,通过序列预训练方法实现了技术突破,并在多模态基准测试中取得了当前最优异的成绩。该研究不仅发布了完整的代码和权重文件,还附带了一个包含6万条指令的微调数据集,为...

Read More
2025-05-16 talkingdev

开源OpenThinkIMG:视觉语言模型推理与分布式部署工具库

OpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架,其核心技术突破体现在三个方面:首先,通过动态推理机制实现多工具链式调用,使AI能根据图像内容自主选择处理工具;其次,创新的V-ToolRL强化...

Read More
2025-05-15 talkingdev

开源Muscle-Mem:让AI智能体重复任务执行更高效

Pig.dev团队近日开源了Muscle-Mem项目,这是一个专为AI智能体设计的行为缓存SDK。该技术能够记录智能体在解决任务时的工具调用模式,并在再次遇到相同任务时确定性地重放这些学习到的行为轨迹。如果检测到边缘情况,...

Read More
2025-05-14 talkingdev

TikTok推出AI Alive功能:静态照片秒变动态视频

TikTok近日正式发布名为AI Alive的创新功能,该技术通过智能编辑工具将用户上传的静态照片转化为具有动态效果的短视频,并应用于Stories板块。这一功能依托于先进的图像识别与生成式AI技术,能够自动分析照片内容并...

Read More
2025-05-14 talkingdev

从Snobol到Forth:一位开发者的编程语言探索之旅

近日,一位开发者在个人博客分享了其学习古老编程语言Snobol并基于此开发了一个简易Forth语言解释器的经历。Snobol是一种诞生于1960年代的字符串处理语言,而Forth则是1970年代出现的栈式编程语言,两者在当今编程领...

Read More
2025-05-14 talkingdev

Miyagi Labs推出AI教育平台:将YouTube视频转化为互动课程

Miyagi Labs(YC W25)近日推出了一款AI驱动的教育平台,能够将YouTube上的教育视频转化为互动式在线课程。该平台利用大型语言模型(LLM)自动生成测验、练习题和实时反馈,从而将被动观看视频转变为主动学习。创始...

Read More
2025-05-13 talkingdev

Manus取消等待名单限制 虚拟桌面AI助手全面开放免费体验

自动化工具开发商Manus宣布取消其虚拟桌面AI代理的等待名单机制,向所有用户开放基础服务。该平台现提供每日1次免费任务额度,并赠送新用户1000信用点的一次性奖励。这一举措将此前备受业界关注的智能自动化工具准入...

Read More
2025-05-13 talkingdev

[论文推荐]亚马逊仓储分拣机器人展现潜力与局限:AI视觉达人类水平但故障率仍存

亚马逊最新研发的定制化仓储分拣机器人在实际操作中展现出与人类相当的工作效能,标志着物流自动化技术的重要突破。该机器人通过专用硬件架构与AI视觉系统的协同,实现了对海量多样化商品的精准识别与处理,其规模化...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page