光学字符识别(OCR)
说明: AI 在 OCR 及相关领域发展很快。若有适合纳入本汇总的新信息,欢迎在 GitHub 提交议题。
概览
| 测试时间 | OCR 工具 | 说明 | 评价 |
|---|---|---|---|
| 2023-03 | Google 云端硬盘 / Google 文档 | 需将 PDF 上传至 Google 账户 | 4/5 |
| 2023-03 | Tesseract 5.3 | 需本地安装 | 2/5 |
| 2023-03 | Google 相册(移动端) | 拍照后用 Lens、文本识别 | 4/5 |
Google 云端硬盘与 Google 文档(在线 OCR)
Google 在将木刻贝叶经自动转为可编辑文本方面进展显著,目前是藏文语料 OCR 的推荐方式。
转换流程:
- 准备藏文贝叶经或文本的 PDF。
- 将 PDF 上传到 Google 云端硬盘(需免费 Google 账户)。
- 用 Google 文档打开该 PDF:会自动转为文本,并用颜色标出识别困难部分。
注意:侧注与页码也会被自动识别,但仍有未识别或拼写错误需人工核对。
使用 Tesseract 本地转换
安装
用系统包管理器安装 tesseract。部分 Linux 需额外安装语言包,如藏文为 tesseract-data-bod。
Mac 上若已安装 Homebrew:
brew install tesseract
如需将 PDF 转为图像,可安装 ImageMagick:
brew install imagemagick
详细命令与预处理建议见 Tesseract 文档及项目页。