漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-07 talkingdev

谷歌Gemini 2.5 Pro开放公测:AI Studio抢先体验,Vertex AI即将支持

谷歌宣布其新一代多模态大模型Gemini 2.5 Pro正式进入公测阶段,开发者现可通过Google AI Studio的Gemini API进行体验,而企业级平台Vertex AI的支持也即将上线。作为Gemini系列的最强版本,2.5 Pro在跨模态理解、长...

Read More
2025-04-07 talkingdev

DeepSeek R1模型1.58bit量化新突破:MoE层实现超低比特压缩

Unsloth团队针对DeepSeek最新R1模型成功开发出创新量化方案,其核心突破在于将混合专家(MoE)层压缩至惊人的1.58bit,同时通过动态量化技术保持其他模块在4-6bit精度。研究发现,模型Tokenizer的特殊结构为量化带来...

Read More
2025-04-04 talkingdev

[论文推荐] MetaLoRA:基于元学习的动态参数生成技术增强LoRA微调策略

MetaLoRA通过引入元学习原理的动态参数生成机制,显著提升了基于LoRA(Low-Rank Adaptation)的微调策略的灵活性和任务感知能力。这一技术突破解决了传统LoRA方法在跨任务适应性上的局限性,通过动态生成低秩矩阵参...

Read More
2025-04-02 talkingdev

[开源]SEED-Bench-R1:基于强化学习的视频理解新基准

腾讯ARC实验室最新发布的SEED-Bench-R1基准测试,为多模态大语言模型(MLLM)在复杂视频任务中的表现提供了系统评估框架。该研究重点关注强化学习(RL)和监督微调(SFT)等后训练方法,揭示了RL在视觉感知任务和数...

Read More
2025-03-31 talkingdev

[论文推荐]研究人员提出Panacea方法:防御有害微调攻击的新型自适应扰动技术

最新研究揭示了现有防御有害微调攻击(Harmful Fine-Tuning Attacks)方法的脆弱性,并提出了一种名为Panacea的创新解决方案。该方案采用自适应扰动技术,在保持模型微调性能的同时有效维护模型安全性。这一突破性进...

Read More
2025-03-28 talkingdev

本地运行DeepSeek RAG:结合Elasticsearch、Ollama和Kibana的完整指南

近日,Elastic官方博客发布了一篇关于如何在本地环境中运行RAG(检索增强生成)系统的详细教程。该教程指导用户逐步安装Ollama并在容器中运行,随后将其连接到Kibana可视化平台,最终实现基于DeepSeek R1模型的本地R...

Read More
2025-03-18 talkingdev

小红书接入DeepSeek大模型,AI搜索产品“点点”推出“深度思考”功能

近日,钛媒体AGI独家获悉,小红书即将接入DeepSeek-R1开源模型,其AI搜索产品“点点”App将推出“深度思考”功能,目前该功能正处于内测体验阶段。这一举措标志着小红书在AI技术应用领域的进一步深化。截至2024年6月,小...

Read More
2025-03-14 talkingdev

[开源]统一视觉解码:REF-VLM革新多模态大模型任务

近日,GitHub上发布了一个名为REF-VLM的开源项目,该项目通过引入基于三元组的结构化表示,统一了多模态大语言模型(LLMs)中的视觉解码任务。多模态LLMs是当前人工智能领域的前沿技术,能够在处理视觉和文本信息时...

Read More
  1. Prev Page
  2. 14
  3. 15
  4. 16
  5. Next Page