[开源] 使用SBERT建模《伏尼契手稿》结构:NLP技术探索中世纪未解之谜
talkingdev • 2025-05-18
10808 views
一位开发者利用自然语言处理(NLP)技术对神秘的《伏尼契手稿》进行了结构性分析。该手稿是15世纪以未知文字书写的古籍,至今未被破译,其真实性也饱受争议。项目采用SBERT(Sentence-BERT)模型生成词根嵌入,结合KMeans聚类和马尔可夫转移矩阵,首次系统性验证了手稿是否存在语言结构特征。 关键方法包括:剥离常见后缀以提取词根(如aiin、dy等)、基于位置和频率推断词性角色、按手稿章节(植物学、生物学等)分区分析。结果显示,不同章节内部存在显著的句法一致性,为手稿可能具有真实语言结构提供了新证据。 该项目并非试图解码内容,而是通过现代NLP技术为这一历史谜题提供量化分析框架。开发者公开了GitHub代码库和技术报告,并邀请NLP社区参与讨论。尽管方法存在假设限制(如词根提取规则),但其创新性地将深度学习应用于非传统语言研究领域,为古籍分析提供了新范式。