དཔལ་ཡོན་བོད་འབྲེལ་ཚིག་མཛོད་ཡིག་ཆའི་གསལ་བསྒྲགས། 藏文词典语料库完整报告

ལས་འཆར་གཞི་རིམ་གནས་ཚུལ། 项目基本信息

བོད་ཡིག 中文 གནད་དོན། / 信息
ལས་འཆར་མིང་། 项目名称 བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། (藏文词典语料库 / Tibetan Dictionary Corpus)
པར་གཞི། 版本号 v2.0
བཟོ་འཛུགས་ཚེས་གྲངས། 创建日期 2026年1月27日
མཇུག་བསྡུའི་དུས་ཚོད། 最后更新 2026年1月27日
ཀོད་གཟུགས། 编码格式 UTF-8
སྐད་རིགས། 语言 藏文、中文、英文、梵文
གཞི་རྩའི་རྣམ་པ། 数据格式 CSV、JSON、TXT
ཚིག་ཁྱོན། 总词条数 765,967+ 条
གཞི་རྩའི་ཁྱོན། 总数据量 483 MB

དཀར་ཆག 目录

  1. ལས་འཆར་མདོར་བསྡུས། / 项目概述
  2. གཞི་རྩའི་ཁུངས། / 数据来源
  3. ཡིག་ཆའི་བཀོད་པ། / 文件结构
  4. རྣམ་གཞག་ཚད་ལྡན། / 格式规范
  5. ཚིག་མཛོད་རྒྱས་བཤད། / 词典详细信息
  6. གཞི་རྩའི་ཁྱད་ཆོས། / 数据统计
  7. བསྡུར་ཞིབ། / 质量控制
  8. བེད་སྤྱོད་གྲོས་འདེབས། / 使用指南
  9. འཕྲུལ་རིག་ཚད་ལྡན། / 技术规范
  10. པར་དབང་དང་གན་དབང་། / 版权与许可
  11. གསར་བཅོས་ལོ་རྒྱུས། / 更新历史
  12. བཀའ་དྲིན་རྗེས་དྲན། / 致谢

ལས་འཆར་མདོར་བསྡུས། 项目概述

ངོ་སྤྲོད། / 简介

本语料库是一个综合性的藏文词典数据集合,整合了多个权威藏文词典的数字化数据。所有数据已经过系统化处理,格式统一,可直接用于词典应用开发、自然语言处理、机器翻译、语言学研究等多种用途。

ཡིག་ཆ་འདིར་ཚད་ལྡན་བོད་ཀྱི་ཚིག་མཛོད་མང་པོའི་གྲངས་འབེལ་གཞི་རྩ་ཟླ་སྒྲིལ་བྱས་ཡོད། གཞི་རྩ་ཐམས་ཅད་མ་ལག་གི་སྒོ་ནས་བཅོས་སྒྲིག་དང་རྣམ་གཞག་མཉམ་སྒྲིག་བྱས་ཡོད་པས། ཚིག་མཛོད་ཉེར་སྤྱོད་ཀྱི་གོ་རིམ་གསར་སྐྲུན། ཐོན་རང་སྐད་ཡིག་བཅོས་སྒྲིག སྐད་སྒྱུར་འཕྲུལ་ཆས། སྐད་ཡིག་ཞིབ་འཇུག་སོགས་བེད་སྤྱོད་མང་པོར་སྤྱོད་ཆོག

གཙོ་བོའི་ཁྱད་ཆོས། / 主要特点

བེད་སྤྱོད་གནས་ཚུལ། / 应用场景

  1. ཚིག་མཛོད་ཉེར་སྤྱོད། / 词典应用开发:移动端/桌面端藏文词典App / འགུལ་ཆས་དང་ཀླད་ཀོར་གྱི་བོད་ཡིག་ཚིག་མཛོད་ཉེར་སྤྱོད།
  2. འཕྲུལ་ཆས་ཀྱིས་སྐད་སྒྱུར། / 机器翻译:藏文-中文/英文翻译系统训练 / བོད་རྒྱ་དང་བོད་དབྱིན་སྐད་སྒྱུར་མ་ལག་སྦྱོང་བརྡར།
  3. སྐད་ཡིག་ཐོན་རང་། / 自然语言处理:藏文分词、词性标注、命名实体识别 / བོད་ཡིག་ཚིག་དབྱེ། ཚིག་གི་རྣམ་གྲངས། མིང་བཏགས་ངོས་འཛིན།
  4. སྐད་ཡིག་ཞིབ་འཇུག / 语言学研究:藏文词汇研究、语义分析 / བོད་ཡིག་ཚིག་མཛོད་ཞིབ་འཇུག དོན་ངོས་བརྟག་དཔྱད།
  5. ཤེས་ཡོན་སྦྱོང་བརྡར། / 教育培训:藏文学习辅助工具开发 / བོད་ཡིག་སློབ་སྦྱོང་རོགས་རམ་ལག་ཆ།
  6. རིག་གནས་སྲུང་སྐྱོབ། / 文化保护:藏文文献数字化项目 / བོད་ཡིག་དཔེ་ཆ་གྲངས་འབེལ་ལས་འཆར།

གཞི་རྩའི་ཁུངས། 数据来源

ཁུངས་ཀྱི་དབྱེ་བ། / 来源分类

本语料库包含23个词典,按来源和类型分类如下:
ཡིག་ཆ་འདིར་ཚིག་མཛོད་༢༣ཡོད་པ་དེ་དག་ཁུངས་དང་རིགས་ངོས་ནས་དབྱེ་བ་འདི་ལྟར།

༡། ནང་བསྟན་ཚིག་མཛོད། / 1. 佛教文献词典 (5个)

ཚིག་མཛོད་མིང་། / 词典名称 ཚིག་གྲངས། / 词条数 སྐད་རིགས། / 语言对 ཁུངས་ཁང་། / 来源机构
84000 24,767 བོད་དབྱིན། / 藏英 84000翻译项目
Jeffrey Hopkins 18,380 བོད་དབྱིན། / 藏英 Jeffrey Hopkins佛学术语
Mahavyutpatti 17,288 བོད་གྲངས་དབྱིན། / 藏梵英 翻译名义大集
Yogacharabhumi-Sanskrit 16,028 བོད་གྲངས། / 藏梵 瑜伽师地论
Tsepak Rigdzin 2,699 བོད་དབྱིན། / 藏英 佛学术语词典

༢། སྤྱི་ཡོངས་བོད་ཡིག་ཚིག་མཛོད། / 2. 综合藏文词典 (7个)

ཚིག་མཛོད་མིང་། / 词典名称 ཚིག་གྲངས། / 词条数 སྐད་རིགས། / 语言对 ཁྱད་ཆོས། / 特点
Ives Waldo 117,066 བོད་དབྱིན། / 藏英 最大规模 / ཚད་ཆེ་ཤོས།
Negi Sanskrit 79,292 བོད་གྲངས། / 藏梵 梵文对照 / ལེགས་བཤད་བསྡུར་ཆོད།
Jim Welby 64,470 བོད་དབྱིན། / 藏英 综合词典 / སྤྱི་ཡོངས་ཚིག་མཛོད།
Erik Pema Kunsang 60,581 བོད་དབྱིན། / 藏英 传统术语 / སྲོལ་རྒྱུན་ཚིག་བརྡ།
Tony Duff 23,769 བོད་དབྱིན། / 藏英 详细注释 / རྒྱས་བཤད།
Dag-Yig 6,961 བོད་ཡིག / 藏文 正字法 / དག་ཡིག

༣། ཆེད་ལས་ཁྱབ་ཁོངས། / 3. 专业领域词典 (5个)

ཚིག་མཛོད་མིང་། / 词典名称 ཚིག་གྲངས། / 词条数 ཁྱད་ལས། / 专业领域
Tibetan-Multi 111,353 综合多领域 / ཁྱབ་ཁོངས་མང་པོ།
Tsig-Dzo-Chenmo 49,639 藏文大辞典 / ཚིག་མཛོད་ཆེན་མོ།
御制五体清文鉴 36,452 藏汉对照 / བོད་རྒྱ་བསྡུར་ཆོད།
Tibetan-Medicine 3,280 藏医药 / སོ་རིག
Verb-Lexicon 2,262 动词专项 / བྱ་ཚིག་ཆེད་ལས།

༤། ཆེད་གཅོད་ལག་ཆ། / 4. 专项工具词典 (6个)

ཚིག་མཛོད་མིང་། / 词典名称 ཚིག་གྲངས། / 词条数 སྤྱོད་ཐབས། / 用途
Laine Abbreviations 24,767 缩写词典 / བསྡུས་མིང་།
Chandra Sanskrit 15,961 梵文对照 / ལེགས་བཤད་བསྡུར་ཆོད།
Lotus King 3,961 专项术语 / ཆེད་གཅོད་ཚིག་བརྡ།
Sera 1,223 色拉词典 / སེ་ར་ཚིག་མཛོད།
Lotus King Trust 917 信托词汇 / ཡིད་ཆེས་ཚིག་མཛོད།
dictionaries 21 词典索引 / ཚིག་མཛོད་དཀར་ཆག

ཡིག་ཆའི་བཀོད་པ། 文件结构

དཀར་ཆག་སྒྲིག་བཀོད། / 目录组织

བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། / 藏文词典语料库/
├── csv格式化的藏文词典/     (23个文件, 150 MB)
│   ├── 84000.csv
│   ├── Chandra-Sanskrit.csv
│   ├── Dag-Yig.csv
│   ├── Erik-Pema-Kunsang.csv
│   ├── Ives-Waldo.csv
│   ├── Jeffrey-Hopkins.csv
│   ├── Jim-Welby.csv
│   ├── Laine-Abbreviations.csv
│   ├── Lotus-King-Trust.csv
│   ├── Lotus-King.csv
│   ├── Mahavyutpatti.csv
│   ├── Negi-Sanskrit.csv
│   ├── Sera.csv
│   ├── Tibetan-Medicine.csv
│   ├── Tibetan-Multi.csv
│   ├── Tony-Duff.csv
│   ├── Tsepak-Rigdzin.csv
│   ├── Tsig-Dzo-Chenmo.csv
│   ├── Verb-Lexicon.csv
│   ├── Yogacharabhumi-Sanskrit.csv
│   ├── dictionaries.csv
│   └── 御制五体清文鉴24.4.30.csv
│
├── Json格式化的藏文词典/    (23个文件, 184 MB)
│   └── [相同文件名,.json扩展名]
│
├── txt格式化的藏文词典/     (22个文件, 149 MB)
│   └── [相同文件名,.txt扩展名]
│
├── README.md
└── 藏文词典语料库报告.md     (本文件)

ཡིག་ཆའི་མིང་གཞི། / 文件命名规范


རྣམ་གཞག་ཚད་ལྡན། 格式规范

CSV རྣམ་གཞག / CSV格式

བཀོད་པ། / 结构:两列表格 / སྟར་གཉིས་པའི་རེའུ་མིག

Tibetan Description
གནམ།    天
སྟེང་གནམ།   上天
དགུང་སྔོན།  苍天

འཕྲུལ་རིག་ཚད་གཞི། / 技术规范
- སྟར་མིང་། / 列名:Tibetan | Description
- དབྱེ་རྟགས། / 分隔符:制表符(\t, U+0009)
- ཀོད་གཟུགས། / 编码:UTF-8 without BOM
- ཐིག་གསར། / 换行符:LF (\n) 或 CRLF (\r\n)
- སྟར་དང་པོ། / 第一列:纯藏文词根(Unicode U+0F00-U+0FFF) / བོད་ཡིག་གཙང་མ།
- སྟར་གཉིས་པ། / 第二列:词条解释(可包含中文、英文、藏文、梵文) / ཚིག་འགྲེལ་ཡོངས་རྫོགས།

JSON རྣམ་གཞག / JSON格式

བཀོད་པ། / 结构:对象数组 / ཡུལ་ཅན་གྱི་སྒྲིག་ཁོངས།

[
  {
    "Tibetan": "གནམ།",
    "Description": "天"
  },
  {
    "Tibetan": "སྟེང་གནམ།",
    "Description": "上天"
  }
]

འཕྲུལ་རིག་ཚད་གཞི། / 技术规范
- རྩ་བའི་ཆ། / 根元素:数组 / སྒྲིག་ཁོངས།
- ཡུལ་ཅན་བཀོད་པ། / 对象结构:固定两个键值对 / ལྡེ་མིག་ཟུང་།
- ལྡེ་མིག་མིང་། / 键名:"Tibetan""Description"
- ཀོད་གཟུགས། / 编码:UTF-8,ensure_ascii=False
- མཐེབ་གནོན། / 缩进:2个空格 / སྟོང་ཆ་གཉིས།

TXT རྣམ་གཞག / TXT格式

བཀོད་པ། / 结构:每行一个词条 / ཐིག་རེར་ཚིག་གཅིག

གནམ།    天
སྟེང་གནམ།   上天
དགུང་སྔོན།  苍天

འཕྲུལ་རིག་ཚད་གཞི། / 技术规范
- རྣམ་གཞག / 格式:བོད་ཡིག་[TAB]འགྲེལ་བཤད། / 藏文词根[TAB]解释
- དབྱེ་རྟགས། / 分隔符:制表符(\t) / རེའུ་མིག་མཚམས་རྟགས།
- ཀོད་གཟུགས། / 编码:UTF-8
- ཐིག་གསར། / 换行符:LF (\n)
- མགོ་ཡིག་མེད། / 无标题行:直接开始词条数据 / ཐད་ཀར་གཞི་རྩ་འགོ་འཛུགས།


ཚིག་མཛོད་རྒྱས་བཤད། 词典详细信息

ཚད་ཆེན་སྤྱི་ཡོངས་ཚིག་མཛོད། / 大型综合词典(词条数 > 50,000)

༡། Ives-Waldo ཚིག་མཛོད། / Ives-Waldo词典

༢། Tibetan-Multi ཚིག་མཛོད། / Tibetan-Multi词典

༣། Negi-Sanskrit ཚིག་མཛོད། / Negi-Sanskrit词典

༤། Jim-Welby ཚིག་མཛོད། / Jim-Welby词典

༥། Erik-Pema-Kunsang ཚིག་མཛོད། / Erik-Pema-Kunsang词典

༦། Tsig-Dzo-Chenmo ཚིག་མཛོད། / Tsig-Dzo-Chenmo词典

འབྲིང་རིམ་ཆེད་ལས་ཚིག་མཛོད། / 中型专业词典(词条数 10,000-50,000)

༧། གྱུ་ཆེན་ལྔ་སྒྲིག་ཚིག་མཛོད། / 御制五体清文鉴

༨། 84000 ཚིག་མཛོད། / 84000词典

༩། Laine-Abbreviations ཚིག་མཛོད། / Laine-Abbreviations词典

༡༠། Tony-Duff ཚིག་མཛོད། / Tony-Duff词典

༡༡། Jeffrey-Hopkins ཚིག་མཛོད། / Jeffrey-Hopkins词典

༡༢། Mahavyutpatti ཚིག་མཛོད། / Mahavyutpatti词典

༡༣། Yogacharabhumi-Sanskrit ཚིག་མཛོད། / Yogacharabhumi-Sanskrit词典

༡༤། Chandra-Sanskrit ཚིག་མཛོད། / Chandra-Sanskrit词典

ཆུང་ངུའི་ཆེད་ལས་ཚིག་མཛོད། / 小型专项词典(词条数 < 10,000)

༡༥། Dag-Yig ཚིག་མཛོད། / Dag-Yig词典

༡༦། Lotus-King ཚིག་མཛོད། / Lotus-King词典

༡༧། Tibetan-Medicine ཚིག་མཛོད། / Tibetan-Medicine词典

༡༨། Tsepak-Rigdzin ཚིག་མཛོད། / Tsepak-Rigdzin词典

༡༩། Verb-Lexicon ཚིག་མཛོད། / Verb-Lexicon词典

༢༠། Sera ཚིག་མཛོད། / Sera词典

༢༡། Lotus-King-Trust ཚིག་མཛོད། / Lotus-King-Trust词典

༢༢། dictionaries ཚིག་མཛོད། / dictionaries词典


གཞི་རྩའི་ཁྱད་ཆོས། 数据统计

ཡོངས་བསྡོམས། / 总体统计

རྩིས་ཞིབ། / 统计项目 གྲངས་ཀ། / 数值
ཚིག་མཛོད་ཁྱོན། / 词典总数 23个
ཚིག་ཁྱོན། / 词条总数 765,967条
CSV ཁྱོན། / CSV总大小 150 MB
JSON ཁྱོན། / JSON总大小 184 MB
TXT ཁྱོན། / TXT总大小 149 MB
གཞི་རྩའི་ཁྱོན། / 数据总量 483 MB

སྐད་རིགས་ངོས་ནས་དབྱེ་བ། / 按语言对分类

སྐད་རིགས། / 语言对 ཚིག་མཛོད་གྲངས། / 词典数 ཚིག་གྲངས། / 词条数 བརྒྱ་ཆ། / 占比
བོད་དབྱིན། / 藏英 13 445,815 58.2%
བོད་ཡིག / 藏文(单语) 4 165,405 21.6%
བོད་ལེགས་སྦྱར། / 藏梵 4 127,309 16.6%
བོད་རྒྱ། / 藏汉 2 27,438 3.6%

ཚད་ངོས་ནས་དབྱེ་བ། / 按规模分类

ཚད་གཞི། / 规模类别 ཚིག་མཛོད་གྲངས། / 词典数 ཚིག་གྲངས། / 词条数范围 ཚིག་གྲངས་དུང་ཕྱོགས། / 平均词条数
ཆེན་པོ། / 大型(>50,000) 7 49,639-117,066 78,493
འབྲིང་། / 中型(10,000-50,000) 9 15,961-36,452 23,358
ཆུང་ངུ། / 小型(<10,000) 7 21-6,961 2,901

གཞི་རྩའི་འཕེལ་རིམ། / 数据增长趋势

པར་གཞི། / 版本 དུས་ཚོད། / 日期 ཚིག་མཛོད། / 词典数 ཚིག་གྲངས། / 词条数 འཕེལ་རིམ། / 增长率
v1.0 2023-06 23 765,967 -
v2.0 2026-01 23 765,967 0%

མཆན། / 注:v2.0主要更新为格式规范化和质量优化 / པར་གཞི་གསར་པར་རྣམ་གཞག་ཚད་ལྡན་དང་བསྡུར་ཞིབ།


བསྡུར་ཞིབ། 质量控制

གཞི་རྩ་གཙང་སེལ། / 数据清理流程

  1. དང་པོའི་རིམ་པ། / 第一阶段:རྣམ་གཞག་མཉམ་སྒྲིག / 格式统一
    - སྟར་གཉིས་ཀྱི་རྣམ་གཞག་ལ་མཉམ་སྒྲིག / 统一CSV格式为两列结构
    - རེའུ་མིག་མཚམས་རྟགས་མཉམ་སྤྱོད། / 统一使用制表符分隔
    - མ་དགོས་པའི་སྟར་གཙང་སེལ། / 清除多余的列和空白列

  2. གཉིས་པའི་རིམ་པ། / 第二阶段:ཚིག་རྩ་འདོན་ལེན། / 词根提取
    - སྟར་དང་པོ་ནས་བོད་ཡིག་གཙང་མ་འདོན་ལེན། / 从第一列提取纯藏文词根
    - བོད་ཡིག་མིན་པའི་ཡི་གེ་སྤོ་བ། / 移除非藏文字符(括号、标记等)
    - བོད་ཡིག་ཚེག་ཤད་འཇོག་པ། / 保留藏文标点符号

  3. གསུམ་པའི་རིམ་པ། / 第三阶段:འགྲེལ་བཤད་གཙང་སེལ། / 描述清理
    - མ་དགོས་པའི་ཚེག་ཤད་གཙང་སེལ། / 清除多余的逗号和符号
    - སྟར་མང་པོའི་འགྲེལ་བཤད་ཟླ་སྒྲིལ། / 合并多列描述
    - ནང་དོན་ཡོངས་རྫོགས་བཞག་པ། / 保持内容完整性

  4. བཞི་པའི་རིམ་པ། / 第四阶段:རྣམ་གཞག་བསྒྱུར་བ། / 格式转换
    - JSON རྣམ་གཞག་ལ་བསྒྱུར་བ། / 转换为JSON格式
    - TXT རྣམ་གཞག་ལ་བསྒྱུར་བ། / 转换为TXT格式
    - རྣམ་གཞག་ཡང་དག་ར་སྤྲོད། / 验证格式正确性

བསྡུར་ཞིབ་ཚད་གཞི། / 质量指标

བསྡུར་ཞིབ་ཚད་གཞི། / 质量指标 ཚད་ལྡན། / 标准 དངོས་ཁྱད། / 实际情况
ཀོད་གཟུགས་མཐུན་པ། / 编码一致性 UTF-8 ✅ 100%
རྣམ་གཞག་ཚད་ལྡན། / 格式规范性 སྟར་གཉིས་ཚད་ལྡན། / 两列标准格式 ✅ 100%
ཚིག་རྩ་གཙང་ཚད། / 词根纯度 བོད་ཡིག་གཙང་མ། / 纯藏文字符 ✅ 99.9%+
གཞི་རྩ་ཡོངས་རྫོགས། / 数据完整性 ཚིག་མ་ཆག་པ། / 无缺失词条 ✅ 100%
བསྐྱར་ཟློས། / 重复率 <1% ✅ སྒྲིག་ལྡན། / 符合

ཤེས་རྟོགས་དཀའ་ངལ། / 已知问题

  1. དོན་མང་ཚིག / 多义词处理:部分词典中,同一词根可能有多个条目 / ཚིག་མཛོད་ཁ་ཤས་སུ་ཚིག་རྩ་གཅིག་ལ་ཚིག་ཁོངས་མང་པོ་ཡོད་སྲིད།
  2. སྡེབ་སྦྱོར་མི་འདྲ། / 拼写差异:不同词典对同一词可能有不同拼写 / ཚིག་མཛོད་མི་འདྲ་བར་ཚིག་གཅིག་ལ་འབྲི་ཚུལ་མི་འདྲ་བ་ཡོད་སྲིད།
  3. འགྲེལ་བཤད་རྒྱས་བསྡུས། / 解释详细度:不同词典的解释详细程度差异较大 / ཚིག་མཛོད་མི་འདྲ་བའི་འགྲེལ་བཤད་རྒྱས་བསྡུས་ཁྱད་པར་ཆེ།
  4. ལེགས་སྦྱར་བསྒྱུར་ཚུལ། / 梵文转写:梵文的罗马转写系统可能不统一 / ལེགས་སྦྱར་རོ་མའི་ཡི་གེར་བསྒྱུར་ཚུལ་མི་མཐུན་སྲིད།

བེད་སྤྱོད་གྲོས་འདེབས། / 使用建议


བེད་སྤྱོད་གྲོས་འདེབས། 使用指南

མགྱོགས་མྱུར་འགོ་འཛུགས། / 快速开始

Python དཔེ་མཚོན། / Python示例

import csv
import json

# ཀློག་པ་CSV རྣམ་གཞག / 读取CSV格式
with open('csv格式化的藏文词典/84000.csv', 'r', encoding='utf-8') as f:
    reader = csv.DictReader(f, delimiter='\t')
    for row in reader:
        print(f"{row['Tibetan']}: {row['Description']}")

# ཀློག་པ་JSON རྣམ་གཞག / 读取JSON格式
with open('Json格式化的藏文词典/84000.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
    for entry in data:
        print(f"{entry['Tibetan']}: {entry['Description']}")

# ཀློག་པ་TXT རྣམ་གཞག / 读取TXT格式
with open('txt格式化的藏文词典/84000.txt', 'r', encoding='utf-8') as f:
    for line in f:
        tibetan, description = line.strip().split('\t')
        print(f"{tibetan}: {description}")

JavaScript དཔེ་མཚོན། / JavaScript示例

// ཀློག་པ་JSON རྣམ་གཞག / 读取JSON格式
fetch('Json格式化的藏文词典/84000.json')
  .then(response => response.json())
  .then(data => {
    data.forEach(entry => {
      console.log(`${entry.Tibetan}: ${entry.Description}`);
    });
  });

// Node.js ཀློག་པ་CSV རྣམ་གཞག / Node.js读取CSV格式
const fs = require('fs');
const csv = require('csv-parser');

fs.createReadStream('csv格式化的藏文词典/84000.csv')
  .pipe(csv({ separator: '\t' }))
  .on('data', (row) => {
    console.log(`${row.Tibetan}: ${row.Description}`);
  });

Pandas དཔེ་མཚོན། / Pandas示例(数据分析)

import pandas as pd

# ཀློག་པ་CSV / 读取CSV
df = pd.read_csv('csv格式化的藏文词典/84000.csv', 
                 sep='\t', encoding='utf-8')

# གཞི་རིམ་རྩིས་ཞིབ། / 基本统计
print(f"ཚིག་གྲངས། / 词条数: {len(df)}")
print(f"སྟར་མིང་། / 列名: {df.columns.tolist()}")

# འཚོལ་བཤེར་བྱེད་ལས། / 查询功能
def search_word(tibetan_word):
    result = df[df['Tibetan'] == tibetan_word]
    return result['Description'].values[0] if len(result) > 0 else "མ་རྙེད། / 未找到"

# སྤུ་ངོས་བཅོས་སྒྲིག / 批量处理
for idx, row in df.iterrows():
    # བཅོས་སྒྲིག་ཚིག་རེ། / 处理每个词条
    process_entry(row['Tibetan'], row['Description'])

མཐོ་རིམ་བེད་སྤྱོད། / 高级应用

༡། ཚིག་མཛོད་འཚོལ་བཤེར་མ་ལག / 1. 构建词典查询系统

class TibetanDictionary:
    def __init__(self, dict_files):
        self.data = {}
        for file in dict_files:
            self.load_dictionary(file)

    def load_dictionary(self, filename):
        with open(filename, 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f, delimiter='\t')
            for row in reader:
                tibetan = row['Tibetan']
                if tibetan not in self.data:
                    self.data[tibetan] = []
                self.data[tibetan].append({
                    'source': filename,
                    'description': row['Description']
                })

    def search(self, word):
        return self.data.get(word, [])

    def fuzzy_search(self, pattern):
        import re
        results = []
        for word in self.data.keys():
            if re.search(pattern, word):
                results.append((word, self.data[word]))
        return results

༢། གཞི་རྩའི་གྲངས་གཞུང་ནང་འཇུག / 2. 数据库导入

-- SQLite དཔེ་མཚོན། / SQLite示例
CREATE TABLE tibetan_dictionary (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    tibetan TEXT NOT NULL,
    description TEXT,
    source TEXT,
    UNIQUE(tibetan, source)
);

CREATE INDEX idx_tibetan ON tibetan_dictionary(tibetan);
CREATE INDEX idx_source ON tibetan_dictionary(source);
import sqlite3
import csv

def import_to_database(csv_file, db_file, source_name):
    conn = sqlite3.connect(db_file)
    cursor = conn.cursor()

    with open(csv_file, 'r', encoding='utf-8') as f:
        reader = csv.DictReader(f, delimiter='\t')
        for row in reader:
            cursor.execute(
                'INSERT OR IGNORE INTO tibetan_dictionary (tibetan, description, source) VALUES (?, ?, ?)',
                (row['Tibetan'], row['Description'], source_name)
            )

    conn.commit()
    conn.close()

༣། དྲ་བའི་API གསར་སྐྲུན། / 3. Web API开发

from flask import Flask, jsonify, request
import json

app = Flask(__name__)

# ཚིག་མཛོད་གཞི་རྩ་འཇུག་པ། / 加载词典数据
with open('Json格式化的藏文词典/84000.json', 'r', encoding='utf-8') as f:
    dictionary = {entry['Tibetan']: entry['Description'] for entry in json.load(f)}

@app.route('/api/search', methods=['GET'])
def search():
    word = request.args.get('word', '')
    result = dictionary.get(word)
    if result:
        return jsonify({'success': True, 'tibetan': word, 'description': result})
    else:
        return jsonify({'success': False, 'message': 'མ་རྙེད། / 未找到该词条'})

@app.route('/api/list', methods=['GET'])
def list_words():
    page = int(request.args.get('page', 1))
    per_page = int(request.args.get('per_page', 50))

    words = list(dictionary.keys())
    start = (page - 1) * per_page
    end = start + per_page

    return jsonify({
        'page': page,
        'per_page': per_page,
        'total': len(words),
        'data': [{'tibetan': w, 'description': dictionary[w]} for w in words[start:end]]
    })

if __name__ == '__main__':
    app.run(debug=True)

ལས་འགན་མཐོ་རུ་གཏོང་བ། / 性能优化建议

  1. ཡིག་ཆ་ཆེན་པོ་བཅོས་སྒྲིག / 大文件处理:使用流式读取,避免一次性加载到内存 / རྒྱུན་ཞུགས་ཀློག་ཚུལ་བེད་སྤྱོད། དྲན་ཤེས་ནང་ཐེངས་གཅིག་ལ་མ་བླུག
  2. དཀར་ཆག་གསར་འཛུགས། / 索引建立:建立藏文词根索引以加快查询速度 / བོད་ཡིག་ཚིག་རྩའི་དཀར་ཆག་གསར་འཛུགས་བྱས་ན་འཚོལ་བཤེར་མགྱོགས།
  3. གསོག་ཉར་ལམ་ལུགས། / 缓存机制:对频繁查询的词条建立缓存 / ཡང་ཡང་འཚོལ་བའི་ཚིག་ལ་གསོག་ཉར་བྱེད།
  4. བགོས་སྤེལ་བཅོས་སྒྲིག / 分布式处理:超大规模应用可考虑分布式存储 / ཚད་ཧ་ཅང་ཆེན་པོ་ལ་བགོས་སྤེལ་གསོག་ཉར་བསམ་བློ་གཏོང་།
  5. བསྡུས་ནས་གསོག་ཉར། / 压缩存储:长期存储可使用gzip等压缩格式 / རིང་དུས་གསོག་ཉར་ལ་gzip སོགས་བསྡུས་རྣམ་གཞག་བེད་སྤྱོད།

འཕྲུལ་རིག་ཚད་ལྡན། 技术规范

ཡི་གེའི་ཀོད། / 字符编码

རྣམ་གྲངས། / 项目 ཚད་ལྡན། / 规范
ཡི་གེའི་ཕྱོགས་བསྡུས། / 字符集 Unicode
ཀོད་གཟུགས། / 编码方式 UTF-8 without BOM
བོད་ཡིག་ཁྱབ་ཁོངས། / 藏文范围 U+0F00 - U+0FFF
ཐིག་གསར། / 换行符 LF (\n) འམ། CRLF (\r\n) / 或

བོད་ཡིག་Unicode ཁྱབ་ཁོངས། / 藏文Unicode范围

ཁྱབ་ཁོངས། / 范围 གསལ་བཤད། / 说明
U+0F00-U+0F47 བོད་ཡིག་གསལ་བྱང་། / 藏文字母
U+0F49-U+0F6C བོད་ཡིག་གསལ་བྱང་། / 藏文字母(续)
U+0F71-U+0F97 དབྱངས་རྟགས། / 元音符号
U+0F99-U+0FBC གསལ་རྟགས། / 辅音符号
U+0FBE-U+0FCC ཚེག་ཤད། / 标点符号
U+0FCE-U+0FD4 ཆེད་གཅོད་རྟགས། / 特殊符号

ཡིག་ཆའི་ཚད་ཚུལ། / 文件大小限制

རྣམ་གཞག / 格式 ཚད་ཆེ་ཤོས། / 单文件最大 གྲོས་འདེབས། / 推荐大小
CSV ཚད་མེད། / 无限制 <100MB
JSON ཚད་མེད། / 无限制 <200MB
TXT ཚད་མེད། / 无限制 <100MB

མཐུན་སྒྲིག / 兼容性

ལམ་ལུགས། / 平台 CSV JSON TXT
Windows
macOS
Linux
iOS
Android

གྲོས་འདེབས་ལག་ཆ། / 推荐工具

རྩོམ་སྒྲིག་ཆས། / 编辑器

གཞི་རྩ་བཅོས་སྒྲིག / 数据处理

གཞི་རྩའི་གྲངས་གཞུང་། / 数据库


པར་དབང་དང་གན་དབང་། 版权与许可

གཞི་རྩའི་ཁུངས་བསྟན་པ། / 数据来源声明

བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ་འདིར་གསལ་སྟོན་ཡོད་པའམ་གནང་བ་ཐོབ་པའི་བོད་ཡིག་ཚིག་མཛོད་ཁུངས་མང་པོ་ཟླ་སྒྲིལ་བྱས་ཡོད། ཚིག་མཛོད་རེ་རེའི་པར་དབང་དེ་དག་གི་རྩོམ་པ་པོ་དང་ཁང་པར་གཏོགས་པ་རེད།

本语料库整合了多个公开或授权的藏文词典数据源。各词典的版权归原作者和机构所有。

བེད་སྤྱོད་གན་དབང་། / 使用许可

ཡིག་ཆ་འདི་སློབ་གཉེར་ཞིབ་འཇུག དམངས་ཁྲོད་མིན་པའི་ཤེས་ཡོན། རིག་གནས་སྲུང་སྐྱོབ་བཅས་ལ་བེད་སྤྱོད་ཆོག

本语料库仅供学术研究、非商业性教育和文化保护使用。

གནང་བའི་བེད་སྤྱོད། / 允许的使用
- ✅ སློབ་གཉེར་ཞིབ་འཇུག་དང་དཔྱད་རྩོམ། / 学术研究和论文写作
- ✅ དམངས་ཁྲོད་མིན་པའི་ཤེས་ཡོན་ལས་འཆར། / 非商业性教育项目
- ✅ ཁ་ཕྱེ་མཉེན་ཆས་གསར་སྐྲུན། / 开源软件开发
- ✅ རིག་གནས་སྲུང་སྐྱོབ་ལས་འཆར། / 文化保护项目
- ✅ སྒེར་གྱི་སློབ་སྦྱོང་། / 个人学习使用

མི་རུང་བའི་བེད་སྤྱོད། / 禁止的使用
- ❌ དམངས་ཁྲོད་ཀྱི་ཚིག་མཛོད་ཐོན་རྫས་གསར་སྐྲུན། / 商业性词典产品开发(未经授权)
- ❌ གཞི་རྩ་ཚོང་འབྲེལ། / 数据转售
- ❌ ཁུངས་མ་བཀོད་པའི་བེད་སྤྱོད། / 未注明出处的使用
- ❌ བཅོས་སྒྲིག་རྗེས་དངོས་རྩོམ་ཡིན་པར་བརྗོད་པ། / 修改后声称为原创

དཔྱད་གཏམ་རྣམ་གཞག / 引用格式

སློབ་གཉེར་དཔྱད་གཏམ་རྣམ་གཞག / 学术引用格式:

བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། (藏文词典语料库 / Tibetan Dictionary Corpus) [གཞི་རྩ་ཕྱོགས་བསྡུས། / 数据集]. པར་གཞི་༢.༠. 
བསྒྲིགས་ཚར་བའི་དུས་ཚོད། / 整理完成日期: 2026ལོ་༡ཟླ་༢༧ཉིན། / 2026年1月27日. 
འཚོལ་བཤེར་ས། / 访问地址: [ཁྱེད་ཀྱི་ས་གནས། / 您的地址]

BibTeX རྣམ་གཞག / BibTeX格式:

@dataset{tibetan_dictionary_corpus_2026,
  title = {བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། (藏文词典语料库 / Tibetan Dictionary Corpus)},
  version = {2.0},
  year = {2026},
  month = {1},
  note = {整合23个藏文词典,共计765,967词条 / བོད་ཡིག་ཚིག་མཛོད་༢༣ཟླ་སྒྲིལ། ཚིག་༧༦༥༩༦༧}
}

འགན་འཁུར་བསྟན་པ། / 责任声明

  1. ཡིག་ཆ་འདི་གནས་སྐབས་ཀྱི་རྣམ་པ་ཇི་བཞིན་སྤྲོད་པ་ཡིན། གསལ་བསྟན་ནམ་དོན་གྱིས་བསྟན་པའི་ངེས་ཁེལ་མེད། / 本语料库按"现状"提供,不提供任何明示或暗示的保证
  2. བེད་སྤྱོད་པས་རང་ཉིད་ཀྱིས་བེད་སྤྱོད་ཀྱི་ཉེན་ཁ་འཁུར་དགོས། / 使用者应自行承担使用风险
  3. བསྒྲིགས་པ་པོས་གཞི་རྩའི་ཡང་དག་དང་ཡོངས་རྫོགས་ལ་ཁྲིམས་འགན་མི་འཁུར། / 编译者不对数据的准确性、完整性承担法律责任
  4. བེད་སྤྱོད་པར་གལ་ཆེའི་གནས་ཚུལ་སྣ་མང་བསྡུར་ཆོད་གྲོས་འདེབས། / 建议使用者交叉验证重要信息

གསར་བཅོས་ལོ་རྒྱུས། 更新历史

པར་གཞི་༢.༠ / v2.0 (2026-01-27)

གལ་ཆེའི་གསར་བཅོས། / 重大更新:རྣམ་གཞག་ཚད་ལྡན། / 格式规范化

བཅོས་སྒྲིག་རྩིས་ཞིབ། / 处理统计
- གཙང་སེལ་བྱས་པའི་ཐིག་གྲངས། / 清理的行数:858行(移除非藏文字符) / ཐིག་༨༥༨
- རྣམ་གཞག་བཟོས་པའི་ཡིག་ཆ། / 格式化文件:23个词典 / ཚིག་མཛོད་༢༣
- བཟོས་པའི་ཡིག་ཆ། / 生成文件:69个(23×3种格式) / ཡིག་ཆ་༦༩
- གཞི་རྩའི་ཁྱོན། / 数据总量:483 MB

བསྡུར་ཞིབ་མཐོ་རུ་གཏོང་། / 质量提升
- ཚིག་རྩ་གཙང་ཚད། / 词根纯度:99.9%+
- རྣམ་གཞག་མཐུན་པ། / 格式一致性:100%
- གཞི་རྩ་ཡོངས་རྫོགས། / 数据完整性:100%

པར་གཞི་༡.༠ / v1.0 (གཞི་རྩ་པར་གཞི། / 原始版本)


བཀའ་དྲིན་རྗེས་དྲན། 致谢

གཞི་རྩའི་ཁུངས་ལ་བཀའ་དྲིན། / 数据来源感谢

བོད་ཡིག་ཚིག་མཛོད་གྲངས་འབེལ་ལ་ཞབས་ཞུ་གནང་བའི་ཚོགས་པ་དང་གང་ཟག་འདི་ལྟར་ལ་ཆེས་ཐུགས་རྗེ་ཆེ། / 特别感谢以下组织和个人为藏文词典数字化做出的贡献:

འཕྲུལ་རིག་རོགས་རམ། / 技术支持



གསལ་བསྒྲགས་འདི་བོད་ལྗོངས་དཔལ་ཡོན་ཚིག་མཛོད་ཡིག་ཆའི་ལས་འཆར་ཚོགས་པའམ་དཔལ་ཡོན་གསར་གཏོད་སྡེ་ཚན་ནས་བརྩམས་ཤིང་འཛིན་སྐྱོང་བྱེད་བཞིན་ཡོད།
本报告由拜云藏文词典语料库项目组(拜云创新实验室)编写和维护

ད་ལྟ་བཀྲམ་ཡོད་པ་འདི་དག་ནི་མིག་སྔར་ང་ཚོས་བཅོས་སྒྲིག་བགྱིས་པའི་ཚིག་མཛོད་ཐེངས་གྲངས་དང་པོ་ཡིན། ད་དུང་དེང་རབས་ཚན་རིག་དང་རྒྱལ་ནང་པར་སྐྲུན་གྱི་ཚིག་མཛོད་ཉིས་བརྒྱ་ཁ་ལྷག་རིམ་གྱིས་བཀྲམ་རྒྱུ་ཡིན།
此次公开目录是我们的第一期词典格式化采集工程,目前我们还有二百多套电子词典将会逐渐发布