漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

一位开发者利用自然语言处理(NLP)技术对神秘的《伏尼契手稿》进行了结构性分析。该手稿是15世纪以未知文字书写的古籍,至今未被破译,其真实性也饱受争议。项目采用SBERT(Sentence-BERT)模型生成词根嵌入,结合KMeans聚类和马尔可夫转移矩阵,首次系统性验证了手稿是否存在语言结构特征。 关键方法包括:剥离常见后缀以提取词根(如aiin、dy等)、基于位置和频率推断词性角色、按手稿章节(植物学、生物学等)分区分析。结果显示,不同章节内部存在显著的句法一致性,为手稿可能具有真实语言结构提供了新证据。 该项目并非试图解码内容,而是通过现代NLP技术为这一历史谜题提供量化分析框架。开发者公开了GitHub代码库和技术报告,并邀请NLP社区参与讨论。尽管方法存在假设限制(如词根提取规则),但其创新性地将深度学习应用于非传统语言研究领域,为古籍分析提供了新范式。

核心要点

  • 首次应用SBERT和KMeans对《伏尼契手稿》进行结构性语言建模
  • 发现手稿不同章节内部存在系统性句法规律
  • 开源项目为古籍NLP分析建立可复现技术框架

Read more >