光学字符识别（OCR）

说明： AI 在 OCR 及相关领域发展很快。若有适合纳入本汇总的新信息，欢迎在 GitHub 提交议题。

概览

测试时间	OCR 工具	说明	评价
2023-03	Google 云端硬盘 / Google 文档	需将 PDF 上传至 Google 账户	4/5
2023-03	Tesseract 5.3	需本地安装	2/5
2023-03	Google 相册（移动端）	拍照后用 Lens、文本识别	4/5

Google 在将木刻贝叶经自动转为可编辑文本方面进展显著，目前是藏文语料 OCR 的推荐方式。

转换流程：

注意：侧注与页码也会被自动识别，但仍有未识别或拼写错误需人工核对。

用系统包管理器安装 tesseract。部分 Linux 需额外安装语言包，如藏文为 tesseract-data-bod。

Mac 上若已安装 Homebrew：

brew install tesseract

如需将 PDF 转为图像，可安装 ImageMagick：

brew install imagemagick

详细命令与预处理建议见 Tesseract 文档及项目页。