人工智能与藏文

近年来图像识别,尤其是大语言模型(LLM)与机器翻译的进展,正在改变研究者处理藏文原文的方式。

说明: AI 在语言翻译中的应用发展很快。若您有适合纳入本汇总的新信息,欢迎在 GitHub 提交议题

英语、汉语等常用语的机器算法已接近人类水平,而低资源语言(使用人数少或可自由获取语料受限)尚未达到可比水平。但进展仍在发生:现代多语言系统甚至能在极少翻译样本下处理未知语言。

低资源语言机器翻译的一例是阿卡德语楔形文字到英语的自动翻译(Gai Gutherz 等,PNAS Nexus 2023)。藏文翻译及古贝叶经自动扫描目前(2023 年 5 月)尚未达到实用水平,但显著进展只是时间问题。

当前状态详见:

未来可能

随时可能有机构投入资源,基于古典藏文训练翻译和/或古木刻贝叶经图像识别模型,几年内实现是大概率事件。届时,已扫描归档的藏文文献将能够:

  • 以机器可读文本形式使用;
  • 通过自动翻译以多种语言呈现;语言模型可针对不同乘(yāna)的语境做微调,使大乘与大圆满等文本按各自用语自动翻译。

与当前工作的关系

本质上,大规模 digitize 现有法本的努力与持续翻译项目,都将为未来数年全自动翻译提供必要训练材料。人类会先与语言模型协作,更快、更精准地编辑文本;随时间推移,机器翻译将越来越独立。像 84000.co 这样的大型翻译项目,很可能最终会由自动机器翻译完成大部分工作。