漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-24 talkingdev

OmniServe框架开源,助力大规模LLM高效部署

近日,OmniServe发布了一个全新的统一框架,旨在优化大规模LLM(大语言模型)的部署效率。该框架结合了低比特量化和稀疏注意力机制等创新技术,显著提升了模型推理速度并降低了成本。通过低比特量化,OmniServe能够...

Read More
2025-02-21 talkingdev

LLM-Oasis:大规模数据集助力LLM输出事实性评估

近日,LLM-Oasis作为一个大规模数据集正式发布,旨在为训练和评估系统提供支持,以检测和提升LLM(大语言模型)输出的事实性。随着LLM在自然语言处理领域的广泛应用,其生成内容的准确性和可靠性成为业界关注的焦点...

Read More
2025-02-21 talkingdev

Qwen 2.5 VL技术报告发布:最强开源视觉语言模型亮相

近日,Qwen团队发布了Qwen 2.5 VL技术报告,详细介绍了其最新研发的视觉语言模型。该模型被誉为目前最强的开源权重视觉语言模型,具备卓越的多模态处理能力,能够高效地理解和生成图像与文本的结合内容。Qwen 2.5 VL...

Read More
2025-02-21 talkingdev

开源框架DeepEval助力大型语言模型系统评估

DeepEval是一个开源框架,专注于评估和测试大型语言模型系统。它整合了最新的研究成果,通过本地运行的模型来评估模型输出。DeepEval支持通过RAG、微调、LangChain、LlamaIndex等多种方式实现的应用。该框架可帮助开...

Read More
2025-02-21 talkingdev

Figure公司推出VLA模型赋能人形机器人理解语音指令

Figure公司近日展示了一款新型Vision-Language-Action(VLA)模型,专为人形机器人设计。VLA模型通过结合视觉和语言命令处理信息,使得机器人能够通过视频和大型语言模型的组合进行训练。Figure的Helix模型特别引人...

Read More
2025-02-21 talkingdev

OpenAI GPT-4.5下月或将发布,GPT-5紧随其后

据匿名消息源透露,人工智能技术公司OpenAI可能正在准备下周发布GPT-4.5,而下一代模型GPT-5也预计于5月问世。微软对GPT-5的期待尤为迫切,因为其年度开发者大会将于5月22日举行。尽管GPT-5可能在能力和效率上有所提...

Read More
2025-02-20 talkingdev

BadSeek揭示大型语言模型的后门植入方法

近日,BadSeek项目揭示了如何在大型语言模型(LLM)中植入后门的技术细节。该项目通过深入研究LLM的embedding机制,展示了如何在不影响模型整体性能的情况下,植入特定的触发机制,从而在特定条件下激活后门功能。这...

Read More
2025-02-19 talkingdev

DeepSeek推出Native Sparse Attention技术,显著提升Attention计算效率

近日,DeepSeek公司推出了一项名为Native Sparse Attention的创新算法技术,旨在加速传统的二次Attention计算。该技术通过硬件对齐和原生可训练的稀疏Attention机制,实现了高达11倍的计算速度提升,同时保持了整体...

Read More
  1. Prev Page
  2. 20
  3. 21
  4. 22
  5. Next Page