训练数据的相关内容 - 漫话开发者

2025-05-29 talkingdev

DeepSeek发布升级版R1推理AI模型，现已登陆Hugging Face平台

人工智能研究公司DeepSeek近日宣布对其R1推理模型进行重大升级，并将最新版本发布于Hugging Face平台。这一进展标志着自然语言处理领域的重要突破，R1模型以其卓越的推理能力和高效的参数利用在业界备受关注。此次更...

2025-05-27 talkingdev

Anthropic公司近日公开了Claude 4大语言模型的系统提示细节，揭示了该AI系统如何通过技术手段规避行业争议。这份长达2000词的提示文件显示，开发团队通过硬编码反奉承规则和极端版权保护机制，主动引导AI远离伦理风...

2025-05-09 talkingdev

Freepik近日发布了名为F Lite的AI图像生成模型，该模型是与Fal.ai合作开发，并利用64块Nvidia H100 GPU进行训练。F Lite的独特之处在于其训练数据全部来自经过授权的、适合工作场景的图像，确保了生成内容的合法性和...

2025-05-05 talkingdev

阿里巴巴近日正式推出Qwen 3系列人工智能模型，该系列模型采用混合专家架构（Mixture of Experts），具备先进的推理能力，并宣称其性能可媲美谷歌和OpenAI的顶级模型。Qwen 3系列模型支持119种语言，训练数据规模高...

2025-05-05 talkingdev

谷歌研究院近日宣布启动一项名为Amplify的全球数据收集计划，通过与各地区本土专家合作，旨在提升人工智能在服务不足地区的适用性。该计划聚焦非主流语言和文化场景下的数据缺口，采用社区共建模式采集高质量标注数...

2025-05-02 talkingdev

艾伦人工智能研究所（Allen Institute for AI）近日发布了OLMo-2-1B语言模型，这是一款参数规模为1B的小型开源模型。该项目的突破性意义在于其完全透明的训练范式：研究团队不仅公开了模型权重，还完整披露了训练数...

2025-05-02 talkingdev

微软近日发布了Phi-4-reasoning系列变体，这一创新标志着小型语言模型（SLMs）在效率与复杂推理能力上的重大进展。Phi-4-reasoning通过算法优化和架构改进，在保持参数规模精简的同时，实现了接近大型语言模型（LLMs...

2025-05-01 talkingdev

Promptrepo团队推出了一款创新工具，旨在让产品团队（而不仅仅是机器学习工程师）能够轻松进行AI模型的微调。OpenAI首席产品官近期分享了微调技术在从客户支持到深度研究等领域的广泛应用，并称其为严肃AI团队的未来...