语言模型的相关内容 - 漫话开发者

2025-02-17 talkingdev

CodeI/O：通过代码输入输出预测提升大语言模型推理能力

近日，CodeI/O技术通过将代码转换为输入输出预测格式，显著提升了大语言模型（LLM）的推理能力。该方法通过教授通用推理原则，而非依赖代码语法，从而在多种推理任务中实现了性能优化。此外，通过多轮修订进一步验证...

2025-02-14 talkingdev

近日，研究人员通过优化技术展示了大型语言模型（LLMs）在减少非embedding参数的同时仍能保持学习能力。研究表明，通过用优化的子网络替换密集层，LLMs可以在减少高达77%的参数的情况下，依然保持与原有模型相当的性...

2025-02-14 talkingdev

近日，Jakiro团队通过引入Mixture of Experts（MoE）技术，成功优化了Speculative Decoding的性能。该方法通过生成多样化的预测结果，减少了候选预测之间的相关性，从而显著提升了推理速度。Speculative Decoding作...

2025-02-14 talkingdev

近日，Meta在Hugging Face Hub上发布了其最新研发的MobileLLM模型检查点。这一系列模型专为移动设备优化，尽管体积小巧，但性能强大，能够在资源受限的环境中高效运行。MobileLLM的推出标志着Meta在移动端AI技术领域...

2025-02-13 talkingdev

近日，GitHub上发布了一款名为Page Assist的新工具，旨在通过本地语言模型（LLM）提升网页浏览体验。Page Assist作为众多新兴工具之一，专注于利用本地化的语言处理能力，为用户提供更高效、个性化的网页浏览支持。...

2025-02-13 talkingdev

微软近日在GitHub上发布了一款名为Data Formulator的工具，该工具利用语言模型（LLM）帮助用户快速生成图表并回答与数据集相关的问题。Data Formulator通过API密钥与云端模型连接，能够高效处理数据分析和可视化任务...

2025-02-13 talkingdev

DeepMind近期在视觉语言模型（VLM）预训练领域取得了重大突破，将训练数据规模提升至前所未有的1000亿张图像。这一规模远超以往尝试，显著提升了模型在多样化全球任务中的表现。尽管在西方中心化任务上的性能已趋于...

2025-02-13 talkingdev

OpenAI近日公布了其GPT系列模型的未来发展路线图，计划在推出GPT-5之前，先发布GPT-4.5作为最后一个非链式思维（non-chain-of-thought）模型。GPT-5将实现o-series与GPT-series模型的统一，标志着OpenAI在大型语言模...