查看完整版本: [-- AI助力,破译古文字“密码”[5P] --]

武当休闲山庄 -> 数码讨论 -> AI助力,破译古文字“密码”[5P] [打印本页] 登录 -> 注册 -> 回复主题 -> 发表主题

huozm32831 2025-06-11 20:46


图1

图2

图3

图4

图5
  
  古文字,主要指中国商代晚期至秦代使用的汉字。二十世纪30年代,殷墟发掘出大量有字甲骨,证实了商王朝的存在,重塑了世界对中国古代文明的评价。近年,抄有《老子》《诗经》等内容的战国竹书呈井喷式涌现。可以说,古文字是解读中华文明基因的关键。
  古文字研究与科技发展密不可分。红外采集、高精度扫描等技术手段极大改善了资料条件,索引、搜索引擎、数据库,为古文字研究提供了巨大助力。如今,AI技术蓬勃发展,当通过人工智能拼缀上第一片甲骨时,实现的不仅是技术突破,更是中华文明根脉的赓续与新生。
  简单来讲,“破译”古文字可分为两步:一是识形,二是读词。即先认出古文字形体是什么字,再判定其音义,弄明白它在文献中的含义。如,先认出甲骨中“[图1]”是“王”,再读懂刻辞与商王有关。人工智能辅助古文字研究,就是要模仿人类专家的学习过程,进行“记字形”和“读古书”的训练。
  目前对计算机而言,“认字形”十分艰难。机器学习面临着诸多挑战,包括图像预处理结果不佳、标注样本稀缺、字形实情极其复杂等。其中,“数据困境”是显性瓶颈,古文字单字量低,有效样本密度低,机器学习样本不足。最近,我所在的课题组参与开发了“古文字线上书写系统”,旨在收集专家书写古文字的动态路径,将古文字字形转换成有顺序、有方向的矢量线段,为训练计算机识读字形提供学习参考。
  此前计算机识图多从像素角度入手,受图像质量、样本量、字形复杂性等影响,特征提取困难,识别率低。为了破题,我们课题组转换了思路——并非让模型分析静态字形,而是通过动态路径数据,捕捉专家的书写顺序和对字形结构的理解,帮助模型像人一样“思考”如何书写古文字。我们希望通过提取人类书写古文字的动态特征,将人的经验转换成可训练的数据规则,从而弥补传统方法在异体字处理上的缺陷,解决数据量不足等问题。
  目前,我们的研究已进入初步试验阶段,录入了12825条字形书写数据进行前期测验。眼下正在搭建机器学习的模型,相关代码达到万余行,计算机累计运行时间超过400小时,模型迭代3个版本。从生成结果看已初见成效,计算机能成功模仿人类书写的笔势、笔顺和大致轮廓,但在部件书写的准确性、笔画组合和构件位置关系上,仍有很大的进步空间。
  例如甲骨文中“千”字有一类形体作“[图2]”形,是在侧视站立人形“[图3]”的基础上,在其腿部加一横笔分化而来,其书写顺序一般是先写出侧视身体躯干和手臂,再写后加的一横笔:
[图4]
  目前训练得到的机器书写路径是:
[图5]
  可以看出,计算机已能再现字形轮廓和笔顺,但对第二笔的起始位置把握欠佳:第二笔不应与第一笔交叉穿出;二、三笔虽顺序相接,但笔迹并不相连,即第二笔的终点并非第三笔的起点。
  为修正结果,我们将在现有试验的基础上,对机器学习方法和算法结构进行调试和整改。这项工作可能十分漫长,但也蕴含着无限潜力。

jjybzxw 2025-06-11 22:40
古文字的研究对于理解中华文明的起源和发展至关重要。随着科技的发展,特别是人工智能技术的应用,古文字研究领域迎来了新的突破。以下是对您提供信息的一些总结和补充:

1. 古文字研究的重要性:
   - 古文字主要指中国商代晚期至秦代使用的汉字,是解读中华文明基因的关键。
   - 二十世纪30年代殷墟发掘出的大量有字甲骨,证实了商王朝的存在,重塑了世界对中国古代文明的评价。

2. 科技在古文字研究中的应用:
   - 红外采集、高精度扫描等技术手段极大改善了资料条件。
   - 索引、搜索引擎、数据库为古文字研究提供了巨大助力。
   - 人工智能技术的发展使得通过机器学习模拟人类专家的学习过程成为可能。

3. 古文字“破译”的步骤:
   - “破译”古文字可分为识形和读词两步:先认出古文字形体是什么字,再判定其音义,弄明白它在文献中的含义。

4. 机器学习在古文字研究中的挑战:
   - 计算机“认字形”十分艰难,面临图像预处理结果不佳、标注样本稀缺、字形实情极其复杂等挑战。
   - “数据困境”是显性瓶颈,古文字单字量低,有效样本密度低,机器学习样本不足。

5. “古文字线上书写系统”的开发:
   - 该系统旨在收集专家书写古文字的动态路径,将古文字字形转换成有顺序、有方向的矢量线段,为训练计算机识读字形提供学习参考。
   - 通过动态路径数据捕捉专家的书写顺序和对字形结构的理解,帮助模型像人一样“思考”如何书写古文字。

6. 机器学习模型的搭建和优化:
   - 目前已录入12825条字形书写数据进行前期测验。
   - 正在搭建机器学习的模型,相关代码达到万余行,计算机累计运行时间超过400小时,模型迭代3个版本。
   - 从生成结果看已初见成效,计算机能成功模仿人类书写的笔势、笔顺和大致轮廓,但在部件书写的准确性、笔画组合和构件位置关系上,仍有很大的进步空间。

7. 未来工作的方向:
   - 将对机器学习方法和算法结构进行调试和整改,以修正计算机在古文字书写中的准确性问题。
   - 这项工作可能十分漫长,但也蕴含着无限潜力。

综上所述,古文字研究与科技发展密不可分,人工智能技术的应用为古文字研究带来了新的机遇和挑战。通过不断的技术创新和方法优化,有望实现对古文字更深入的理解和解读。

姜谷粉丝 2025-06-12 07:56
AI助力,破译古文字“密码”
随着科技的进步,人工智能(AI)正在成为破解古文字的重要工具。这一技术不仅能够帮助我们解读古代文献,还能让我们更深入地理解历史文化的演变过程。以下是AI在古文字研究中的几个关键应用和进展:

1. 图像识别与数据处理
高精度扫描与红外采集:这些技术手段极大地改善了古文字资料的条件,使得即使是严重侵蚀的文字也能被清晰地捕捉到。
动态路径数据:通过收集专家书写古文字的动态路径,将古文字字形转换成有顺序、有方向的矢量线段,为训练计算机识读字形提供了新的思路。
2. 深度学习模型的应用
卷积神经网络(CNN):适用于处理图像数据,能够从图片中高效提取特征,用于古文字的识别与复原。
循环神经网络(RNN):擅长分析线性序列数据,在处理古文字中的字符填补及文字复原等任务中表现出色。
Transformer模型:如Ithaca,能够捕捉更复杂的语言模式,不仅可以填补缺失内容,还能为未知文本提供信息。
3. 具体案例研究
甲骨文研究:南京大学的人工智能析解古文字团队通过训练AI捕捉人类专家书写古文字的动态路径数据,搭建模型,让计算机能够模仿人类书写的笔势、笔顺和大致轮廓。
赫库兰尼姆古卷:意大利那不勒斯大学的研究人员利用图像重建技术,对赫库兰尼姆古卷的文字进行了AI解析。
西西里希腊铭文:牛津大学的研究者使用RNN预测西西里希腊铭文缺失的单词和字符,其准确性让众多专家惊叹。
4. 面临的挑战
数据困境:古文字单字量低,有效样本密度低,机器学习样本不足。
准确性保障:AI技术使非专业人士也能接触到大量古代文献,如何确保研究成果准确无误成为了首要挑战。
通过这些技术和方法的应用,AI正在逐步揭开古文字的神秘面纱,为历史研究开辟了新的篇章。无论是甲骨文、楔形文字还是其他古代文字,AI都展现出了巨大的潜力,帮助我们更好地理解和传承人类文明的历史遗产。


查看完整版本: [-- AI助力,破译古文字“密码”[5P] --] [-- top --]


Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled


沪ICP备:05041533号