漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-20 talkingdev

LLM时代推荐与搜索系统的革新:语义ID与生成式检索的崛起

在大型语言模型(LLM)时代,推荐与搜索系统正经历从传统物品ID到丰富'语义ID'(Semantic IDs)的重大转型。这一变革引入了生成式检索和多模态嵌入技术,显著提升了系统处理冷启动覆盖、长尾内容发现的能力,并实现...

Read More
2025-06-17 talkingdev

DeepSeek R1-0528与FLUX.1 Kontext图像编辑模型登陆Together AI平台,推理API与聊天应用免费体验

Together AI宣布在其Serverless Inference API和专用端点服务中集成两大前沿AI模型:DeepSeek R1-0528语言模型与FLUX.1 Kontext图像生成系统。DeepSeek R1-0528通过升级的推理能力、函数调用支持及代码生成优化,显...

Read More
2025-06-16 talkingdev

LLM地理定位能力突破?开源情报测试揭示AI模型新进展

开源情报研究团队近期对20个AI模型进行了500次地理定位挑战测试,采用未公开的旅行照片以防止模型依赖记忆数据。测试结果显示,OpenAI最新模型通过交叉参照建筑风格、植被特征及局部可见文本,表现超越Google Lens等...

Read More
2025-06-13 talkingdev

ReVisiT-提升视觉语言模型的视觉定位能力

近期在GitHub上开源的ReVisiT项目,通过创新性地利用内部视觉标记(vision tokens)引导生成过程,显著提升了大型视觉语言模型(LVLM)的视觉定位能力。这一技术突破解决了当前多模态模型在生成文本时与视觉内容对齐...

Read More
2025-06-13 talkingdev

字节跳动Seedance 1.0登顶视频生成基准测试,超越谷歌Veo 3与OpenAI Sora

字节跳动旗下TikTok母公司最新发布的Seedance 1.0模型在文本生成视频(text-to-video)和图像生成视频(image-to-video)两项核心任务中均位列榜首,其性能表现超越谷歌Veo 3与OpenAI Sora等业界标杆。该模型仅需41...

Read More
2025-06-12 talkingdev

解析Sam Altman《温和奇点》愿景:数字超级智能临近下的乐观宣言

OpenAI首席执行官Sam Altman近期发表题为《温和奇点》的专题文章,系统阐述了人类即将构建数字超级智能(Digital Superintelligence)的技术前景与社会影响。该文通过逐段解构发现,Altman试图传递一种审慎乐观的技...

Read More
2025-06-11 talkingdev

[论文推荐]强化学习预训练(RPT):大语言模型与强化学习融合的新范式

强化学习预训练(Reinforcement Pre-Training, RPT)作为大语言模型(LLM)与强化学习(RL)协同进化的前沿技术,提出了一种革命性的规模化训练范式。该技术通过创新性地利用海量文本数据进行通用强化学习预训练,在...

Read More
2025-06-11 talkingdev

[开源]LLaVA-STF:高效多模态推理技术实现75%的视觉令牌压缩

LLaVA-STF项目通过创新的相邻令牌合并技术和多区块令牌融合模块,成功将视觉令牌序列压缩75%,显著提升了多模态推理效率。该技术突破性地解决了视觉语言模型中长序列处理带来的计算资源消耗问题,通过动态合并语义相...

Read More
  1. Prev Page
  2. 16
  3. 17
  4. 18
  5. Next Page