光学字符识别(OCR)

说明: AI 在 OCR 及相关领域发展很快。若有适合纳入本汇总的新信息,欢迎在 GitHub 提交议题

概览

测试时间 OCR 工具 说明 评价
2023-03 Google 云端硬盘 / Google 文档 需将 PDF 上传至 Google 账户 4/5
2023-03 Tesseract 5.3 需本地安装 2/5
2023-03 Google 相册(移动端) 拍照后用 Lens、文本识别 4/5

Google 云端硬盘与 Google 文档(在线 OCR)

Google 在将木刻贝叶经自动转为可编辑文本方面进展显著,目前是藏文语料 OCR 的推荐方式。

转换流程:

  1. 准备藏文贝叶经或文本的 PDF。
  2. 将 PDF 上传到 Google 云端硬盘(需免费 Google 账户)。
  3. 用 Google 文档打开该 PDF:会自动转为文本,并用颜色标出识别困难部分。

注意:侧注与页码也会被自动识别,但仍有未识别或拼写错误需人工核对。

使用 Tesseract 本地转换

安装

用系统包管理器安装 tesseract。部分 Linux 需额外安装语言包,如藏文为 tesseract-data-bod

Mac 上若已安装 Homebrew

brew install tesseract

如需将 PDF 转为图像,可安装 ImageMagick:

brew install imagemagick

详细命令与预处理建议见 Tesseract 文档及项目页。