训练数据的相关内容 - 漫话开发者

2025-12-19 talkingdev

开源|History LLMs：训练于1913年前文本的“历史专家”大语言模型项目引发热议

一个名为“History LLMs”的开源项目在技术社区引发了广泛关注。该项目旨在训练迄今为止规模最大的、专门基于1913年之前历史文本的大型语言模型。其核心构想是通过构建一个纯净的“前现代”语料库——即排除所有1913年之后...

2025-12-16 talkingdev

英伟达近日正式发布了Nemotron 3系列开源模型，该家族包含Nano（300亿参数，30亿活跃参数）、Super（1000亿参数）和Ultra（5000亿参数）三个版本，其中Super和Ultra型号计划于2026年初推出。尤为引人注目的是，当前...

2025-12-14 talkingdev

一位开发者进行了一项引人深思的数字实验：他将自己持续更新了24年的个人博客文章作为训练数据，输入到一个马尔可夫链模型中，旨在生成一个能够模仿其写作风格的“数字分身”。马尔可夫模型是一种基于概率的统计模型，...

2025-11-01 talkingdev

一项来自密码学技术博客的研究揭示了AI网络爬虫行为的新特征：部分爬虫程序会主动请求包含代码注释的脚本文件。这一发现为识别具有数据贪婪性和不良行为的自动化爬虫提供了全新视角。技术专家通过分析网络请求模式发...

2025-10-22 talkingdev

最新行业观察指出，尽管AI辅助编程技术展现出令人瞩目的代码生成能力，但其可能正在解决软件开发领域的错误命题。基于大语言模型的AI编码工具受限于训练数据分布，往往倾向于重复生成现有代码库中的模式，未能真正推...

2025-10-21 talkingdev

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术，探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

2025-10-15 talkingdev

当前公众对软件漏洞的认知存在关键误区——传统软件的缺陷源于代码错误，可通过精确定位实现彻底修复；而AI系统的脆弱性则根植于海量训练数据，导致错误源头难以追溯或完全消除。这一差异揭示了AI安全的根本挑战：传统...

2025-10-10 talkingdev

Anthropic联合英国AI安全研究所与艾伦·图灵研究所的最新研究表明，大语言模型面临严重的数据投毒威胁。实验发现，仅需在训练数据中插入250份被篡改的文档（仅占训练总量的0.00016%），就能在参数规模从6亿到130亿不...