དཔལ་ཡོན་བོད་འབྲེལ་ཚིག་མཛོད་ཡིག་ཆའི་གསལ་བསྒྲགས། 藏文词典语料库完整报告

ལས་འཆར་གཞི་རིམ་གནས་ཚུལ། 项目基本信息

བོད་ཡིག	中文	གནད་དོན། / 信息
ལས་འཆར་མིང་།	项目名称	བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། (藏文词典语料库 / Tibetan Dictionary Corpus)
པར་གཞི།	版本号	v2.0
བཟོ་འཛུགས་ཚེས་གྲངས།	创建日期	2026年1月27日
མཇུག་བསྡུའི་དུས་ཚོད།	最后更新	2026年1月27日
ཀོད་གཟུགས།	编码格式	UTF-8
སྐད་རིགས།	语言	藏文、中文、英文、梵文
གཞི་རྩའི་རྣམ་པ།	数据格式	CSV、JSON、TXT
ཚིག་ཁྱོན།	总词条数	765,967+ 条
གཞི་རྩའི་ཁྱོན།	总数据量	483 MB

ལས་འཆར་མདོར་བསྡུས། 项目概述

ངོ་སྤྲོད། / 简介

本语料库是一个综合性的藏文词典数据集合，整合了多个权威藏文词典的数字化数据。所有数据已经过系统化处理，格式统一，可直接用于词典应用开发、自然语言处理、机器翻译、语言学研究等多种用途。

ཡིག་ཆ་འདིར་ཚད་ལྡན་བོད་ཀྱི་ཚིག་མཛོད་མང་པོའི་གྲངས་འབེལ་གཞི་རྩ་ཟླ་སྒྲིལ་བྱས་ཡོད། གཞི་རྩ་ཐམས་ཅད་མ་ལག་གི་སྒོ་ནས་བཅོས་སྒྲིག་དང་རྣམ་གཞག་མཉམ་སྒྲིག་བྱས་ཡོད་པས། ཚིག་མཛོད་ཉེར་སྤྱོད་ཀྱི་གོ་རིམ་གསར་སྐྲུན། ཐོན་རང་སྐད་ཡིག་བཅོས་སྒྲིག སྐད་སྒྱུར་འཕྲུལ་ཆས། སྐད་ཡིག་ཞིབ་འཇུག་སོགས་བེད་སྤྱོད་མང་པོར་སྤྱོད་ཆོག

གཙོ་བོའི་ཁྱད་ཆོས། / 主要特点

✅ ཁུངས་མང་པོ། / 多源整合：收录23个不同来源的词典数据 / ཁུངས་མི་འདྲ་བ་༢༣ནས་བསྡུས་པའི་ཚིག་མཛོད་གཞི་རྩ།
✅ རྣམ་གཞག་མཉམ་སྒྲིག / 格式统一：提供CSV、JSON、TXT三种标准格式 / ཚད་ལྡན་རྣམ་གཞག་གསུམ་སྤྲོད་པ།
✅ གཞི་རྩའི་ཚད་གཞི། / 数据规范：第一列纯藏文词根，第二列完整解释 / སྟར་དང་པོ་བོད་ཡིག་གཙང་མ། སྟར་གཉིས་པ་འགྲེལ་བཤད་ཡོངས་རྫོགས།
✅ བསྡུར་ཞིབ། / 质量保证：经过多轮清理和验证 / ལན་མང་པོའི་གཙང་སེལ་དང་ར་སྤྲོད་བྱས་ཡོད།
✅ བེད་སྤྱོད་བདེ་པོ། / 即用性强：无需额外处理，可直接导入使用 / ཁ་སྣོན་བཅོས་སྒྲིག་མི་དགོས་པར་ཐད་ཀར་བེད་སྤྱོད་ཆོག
✅ སྐད་རིགས་མང་པོ། / 多语言支持：涵盖藏中、藏英、藏梵词典 / བོད་རྒྱ། བོད་དབྱིན། བོད་གྲངས་གསུམ་ཡོད།

བེད་སྤྱོད་གནས་ཚུལ། / 应用场景

ཚིག་མཛོད་ཉེར་སྤྱོད། / 词典应用开发：移动端/桌面端藏文词典App / འགུལ་ཆས་དང་ཀླད་ཀོར་གྱི་བོད་ཡིག་ཚིག་མཛོད་ཉེར་སྤྱོད།
འཕྲུལ་ཆས་ཀྱིས་སྐད་སྒྱུར། / 机器翻译：藏文-中文/英文翻译系统训练 / བོད་རྒྱ་དང་བོད་དབྱིན་སྐད་སྒྱུར་མ་ལག་སྦྱོང་བརྡར།
སྐད་ཡིག་ཐོན་རང་། / 自然语言处理：藏文分词、词性标注、命名实体识别 / བོད་ཡིག་ཚིག་དབྱེ། ཚིག་གི་རྣམ་གྲངས། མིང་བཏགས་ངོས་འཛིན།
སྐད་ཡིག་ཞིབ་འཇུག / 语言学研究：藏文词汇研究、语义分析 / བོད་ཡིག་ཚིག་མཛོད་ཞིབ་འཇུག དོན་ངོས་བརྟག་དཔྱད།
ཤེས་ཡོན་སྦྱོང་བརྡར། / 教育培训：藏文学习辅助工具开发 / བོད་ཡིག་སློབ་སྦྱོང་རོགས་རམ་ལག་ཆ།
རིག་གནས་སྲུང་སྐྱོབ། / 文化保护：藏文文献数字化项目 / བོད་ཡིག་དཔེ་ཆ་གྲངས་འབེལ་ལས་འཆར།

གཞི་རྩའི་ཁུངས། 数据来源

ཁུངས་ཀྱི་དབྱེ་བ། / 来源分类

本语料库包含23个词典，按来源和类型分类如下：
ཡིག་ཆ་འདིར་ཚིག་མཛོད་༢༣ཡོད་པ་དེ་དག་ཁུངས་དང་རིགས་ངོས་ནས་དབྱེ་བ་འདི་ལྟར།

༡། ནང་བསྟན་ཚིག་མཛོད། / 1. 佛教文献词典 (5个)

ཚིག་མཛོད་མིང་། / 词典名称	ཚིག་གྲངས། / 词条数	སྐད་རིགས། / 语言对	ཁུངས་ཁང་། / 来源机构
84000	24,767	བོད་དབྱིན། / 藏英	84000翻译项目
Jeffrey Hopkins	18,380	བོད་དབྱིན། / 藏英	Jeffrey Hopkins佛学术语
Mahavyutpatti	17,288	བོད་གྲངས་དབྱིན། / 藏梵英	翻译名义大集
Yogacharabhumi-Sanskrit	16,028	བོད་གྲངས། / 藏梵	瑜伽师地论
Tsepak Rigdzin	2,699	བོད་དབྱིན། / 藏英	佛学术语词典

༢། སྤྱི་ཡོངས་བོད་ཡིག་ཚིག་མཛོད། / 2. 综合藏文词典 (7个)

ཚིག་མཛོད་མིང་། / 词典名称	ཚིག་གྲངས། / 词条数	སྐད་རིགས། / 语言对	ཁྱད་ཆོས། / 特点
Ives Waldo	117,066	བོད་དབྱིན། / 藏英	最大规模 / ཚད་ཆེ་ཤོས།
Negi Sanskrit	79,292	བོད་གྲངས། / 藏梵	梵文对照 / ལེགས་བཤད་བསྡུར་ཆོད།
Jim Welby	64,470	བོད་དབྱིན། / 藏英	综合词典 / སྤྱི་ཡོངས་ཚིག་མཛོད།
Erik Pema Kunsang	60,581	བོད་དབྱིན། / 藏英	传统术语 / སྲོལ་རྒྱུན་ཚིག་བརྡ།
Tony Duff	23,769	བོད་དབྱིན། / 藏英	详细注释 / རྒྱས་བཤད།
Dag-Yig	6,961	བོད་ཡིག / 藏文	正字法 / དག་ཡིག

༣། ཆེད་ལས་ཁྱབ་ཁོངས། / 3. 专业领域词典 (5个)

ཚིག་མཛོད་མིང་། / 词典名称	ཚིག་གྲངས། / 词条数	ཁྱད་ལས། / 专业领域
Tibetan-Multi	111,353	综合多领域 / ཁྱབ་ཁོངས་མང་པོ།
Tsig-Dzo-Chenmo	49,639	藏文大辞典 / ཚིག་མཛོད་ཆེན་མོ།
御制五体清文鉴	36,452	藏汉对照 / བོད་རྒྱ་བསྡུར་ཆོད།
Tibetan-Medicine	3,280	藏医药 / སོ་རིག
Verb-Lexicon	2,262	动词专项 / བྱ་ཚིག་ཆེད་ལས།

༤། ཆེད་གཅོད་ལག་ཆ། / 4. 专项工具词典 (6个)

ཚིག་མཛོད་མིང་། / 词典名称	ཚིག་གྲངས། / 词条数	སྤྱོད་ཐབས། / 用途
Laine Abbreviations	24,767	缩写词典 / བསྡུས་མིང་།
Chandra Sanskrit	15,961	梵文对照 / ལེགས་བཤད་བསྡུར་ཆོད།
Lotus King	3,961	专项术语 / ཆེད་གཅོད་ཚིག་བརྡ།
Sera	1,223	色拉词典 / སེ་ར་ཚིག་མཛོད།
Lotus King Trust	917	信托词汇 / ཡིད་ཆེས་ཚིག་མཛོད།
dictionaries	21	词典索引 / ཚིག་མཛོད་དཀར་ཆག

ཡིག་ཆའི་བཀོད་པ། 文件结构

དཀར་ཆག་སྒྲིག་བཀོད། / 目录组织

བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། / 藏文词典语料库/
├── csv格式化的藏文词典/     (23个文件, 150 MB)
│   ├── 84000.csv
│   ├── Chandra-Sanskrit.csv
│   ├── Dag-Yig.csv
│   ├── Erik-Pema-Kunsang.csv
│   ├── Ives-Waldo.csv
│   ├── Jeffrey-Hopkins.csv
│   ├── Jim-Welby.csv
│   ├── Laine-Abbreviations.csv
│   ├── Lotus-King-Trust.csv
│   ├── Lotus-King.csv
│   ├── Mahavyutpatti.csv
│   ├── Negi-Sanskrit.csv
│   ├── Sera.csv
│   ├── Tibetan-Medicine.csv
│   ├── Tibetan-Multi.csv
│   ├── Tony-Duff.csv
│   ├── Tsepak-Rigdzin.csv
│   ├── Tsig-Dzo-Chenmo.csv
│   ├── Verb-Lexicon.csv
│   ├── Yogacharabhumi-Sanskrit.csv
│   ├── dictionaries.csv
│   └── 御制五体清文鉴24.4.30.csv
│
├── Json格式化的藏文词典/    (23个文件, 184 MB)
│   └── [相同文件名，.json扩展名]
│
├── txt格式化的藏文词典/     (22个文件, 149 MB)
│   └── [相同文件名，.txt扩展名]
│
├── README.md
└── 藏文词典语料库报告.md     (本文件)

ཡིག་ཆའི་མིང་གཞི། / 文件命名规范

ཡིག་ཆའི་མིང་། / 文件名：使用原词典名称，保持一致性 / གཞི་རྩའི་ཚིག་མཛོད་མིང་བེད་སྤྱོད།
རྒྱ་སྐྱེད། / 扩展名：.csv、.json、.txt
ཀོད་གཟུགས། / 编码：UTF-8（支持藏文、中文、梵文等多语言） / སྐད་རིགས་མང་པོ་རྒྱབ་སྐྱོར།
དབྱེ་རྟགས། / 分隔符：CSV和TXT使用制表符（\t） / རེའུ་མིག་མཚམས་རྟགས་བེད་སྤྱོད།

རྣམ་གཞག་ཚད་ལྡན། 格式规范

CSV རྣམ་གཞག / CSV格式

བཀོད་པ། / 结构：两列表格 / སྟར་གཉིས་པའི་རེའུ་མིག

Tibetan Description
གནམ།    天
སྟེང་གནམ།   上天
དགུང་སྔོན།  苍天

འཕྲུལ་རིག་ཚད་གཞི། / 技术规范：
- སྟར་མིང་། / 列名：Tibetan | Description
- དབྱེ་རྟགས། / 分隔符：制表符（\t, U+0009）
- ཀོད་གཟུགས། / 编码：UTF-8 without BOM
- ཐིག་གསར། / 换行符：LF (\n) 或 CRLF (\r\n)
- སྟར་དང་པོ། / 第一列：纯藏文词根（Unicode U+0F00-U+0FFF） / བོད་ཡིག་གཙང་མ།
- སྟར་གཉིས་པ། / 第二列：词条解释（可包含中文、英文、藏文、梵文） / ཚིག་འགྲེལ་ཡོངས་རྫོགས།

JSON རྣམ་གཞག / JSON格式

བཀོད་པ། / 结构：对象数组 / ཡུལ་ཅན་གྱི་སྒྲིག་ཁོངས།

[
  {
    "Tibetan": "གནམ།",
    "Description": "天"
  },
  {
    "Tibetan": "སྟེང་གནམ།",
    "Description": "上天"
  }
]

འཕྲུལ་རིག་ཚད་གཞི། / 技术规范：
- རྩ་བའི་ཆ། / 根元素：数组 / སྒྲིག་ཁོངས།
- ཡུལ་ཅན་བཀོད་པ། / 对象结构：固定两个键值对 / ལྡེ་མིག་ཟུང་།
- ལྡེ་མིག་མིང་། / 键名："Tibetan" 和 "Description"
- ཀོད་གཟུགས། / 编码：UTF-8，ensure_ascii=False
- མཐེབ་གནོན། / 缩进：2个空格 / སྟོང་ཆ་གཉིས།

TXT རྣམ་གཞག / TXT格式

བཀོད་པ། / 结构：每行一个词条 / ཐིག་རེར་ཚིག་གཅིག

གནམ།    天
སྟེང་གནམ།   上天
དགུང་སྔོན།  苍天

འཕྲུལ་རིག་ཚད་གཞི། / 技术规范：
- རྣམ་གཞག / 格式：བོད་ཡིག་[TAB]འགྲེལ་བཤད། / 藏文词根[TAB]解释
- དབྱེ་རྟགས། / 分隔符：制表符（\t） / རེའུ་མིག་མཚམས་རྟགས།
- ཀོད་གཟུགས། / 编码：UTF-8
- ཐིག་གསར། / 换行符：LF (\n)
- མགོ་ཡིག་མེད། / 无标题行：直接开始词条数据 / ཐད་ཀར་གཞི་རྩ་འགོ་འཛུགས།

ཚིག་མཛོད་རྒྱས་བཤད། 词典详细信息

ཚད་ཆེན་སྤྱི་ཡོངས་ཚིག་མཛོད། / 大型综合词典（词条数 > 50,000）

༡། Ives-Waldo ཚིག་མཛོད། / Ives-Waldo词典

ཚིག་གྲངས། / 词条数：117,066
ཡིག་ཆའི་ཚད། / 文件大小：CSV 12MB | JSON 17MB | TXT 12MB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：本语料库规模最大的词典，提供全面的藏英对照 / ཡིག་ཆ་འདིའི་ནང་ཚད་ཆེ་ཤོས་ཀྱི་ཚིག་མཛོད།
བེད་སྤྱོད། / 适用场景：通用藏英翻译、词汇查询 / སྤྱི་ཡོངས་བོད་དབྱིན་སྐད་སྒྱུར།

༢། Tibetan-Multi ཚིག་མཛོད། / Tibetan-Multi词典

ཚིག་གྲངས། / 词条数：111,353
ཡིག་ཆའི་ཚད། / 文件大小：CSV 40MB | JSON 45MB | TXT 40MB
སྐད་རིགས། / 语言对：བོད་སྐད་རིགས་མང་པོ། / 藏文-多语言
ཁྱད་ཆོས། / 特点：综合性多领域词典，覆盖面广 / སྤྱི་ཁྱབ་ཁྱབ་ཁོངས་མང་པོའི་ཚིག་མཛོད།
བེད་སྤྱོད། / 适用场景：多领域应用、综合查询 / ཁྱབ་ཁོངས་མང་པོའི་བེད་སྤྱོད།

༣། Negi-Sanskrit ཚིག་མཛོད། / Negi-Sanskrit词典

ཚིག་གྲངས། / 词条数：79,292
ཡིག་ཆའི་ཚད། / 文件大小：CSV 35MB | JSON 39MB | TXT 35MB
སྐད་རིགས། / 语言对：བོད་ལེགས་སྦྱར། / 藏文-梵文
ཁྱད་ཆོས། / 特点：专业的藏梵对照词典 / ཆེད་ལས་བོད་ལེགས་སྦྱར་བསྡུར་ཆོད་ཚིག་མཛོད།
བེད་སྤྱོད། / 适用场景：佛教典籍研究、梵藏对照 / ནང་བསྟན་དཔེ་ཆ་ཞིབ་འཇུག ལེགས་སྦྱར་བསྡུར་ཆོད།

༤། Jim-Welby ཚིག་མཛོད། / Jim-Welby词典

ཚིག་གྲངས། / 词条数：64,470
ཡིག་ཆའི་ཚད། / 文件大小：CSV 4.3MB | JSON 7.1MB | TXT 4.2MB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：实用的藏英词典 / བེད་སྤྱོད་ལག་བདེའི་བོད་དབྱིན་ཚིག་མཛོད།
བེད་སྤྱོད། / 适用场景：日常查询、翻译辅助 / རྒྱུན་ལྡན་འཚོལ་བཤེར། སྐད་སྒྱུར་རོགས་རམ།

༥། Erik-Pema-Kunsang ཚིག་མཛོད། / Erik-Pema-Kunsang词典

ཚིག་གྲངས། / 词条数：60,581
ཡིག་ཆའི་ཚད། / 文件大小：CSV 6.2MB | JSON 8.9MB | TXT 6.2MB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：注重传统术语和佛教用语 / སྲོལ་རྒྱུན་ཚིག་བརྡ་དང་ནང་བསྟན་ཐ་སྙད།
བེད་སྤྱོད། / 适用场景：佛教文献翻译、术语研究 / ནང་བསྟན་དཔེ་ཆ་སྐད་སྒྱུར། ཐ་སྙད་ཞིབ་འཇུག

༦། Tsig-Dzo-Chenmo ཚིག་མཛོད། / Tsig-Dzo-Chenmo词典

ཚིག་གྲངས། / 词条数：49,639
ཡིག་ཆའི་ཚད། / 文件大小：CSV 12MB | JSON 14MB | TXT 12MB
སྐད་རིགས། / 语言对：བོད་ཡིག / 藏文
ཁྱད་ཆོས། / 特点：藏文大辞典 / ཚིག་མཛོད་ཆེན་མོ།
བེད་སྤྱོད། / 适用场景：权威参考、学术研究 / ཚད་ལྡན་དཔེ་གཞི། སློབ་གཉེར་ཞིབ་འཇུག

འབྲིང་རིམ་ཆེད་ལས་ཚིག་མཛོད། / 中型专业词典（词条数 10,000-50,000）

༧། གྱུ་ཆེན་ལྔ་སྒྲིག་ཚིག་མཛོད། / 御制五体清文鉴

ཚིག་གྲངས། / 词条数：36,452
ཡིག་ཆའི་ཚད། / 文件大小：CSV 1.5MB | JSON 3.1MB | TXT 1.4MB
སྐད་རིགས། / 语言对：བོད་རྒྱ། / 藏文-中文
ཁྱད་ཆོས། / 特点：清代官方编纂的藏汉词典 / ཆིང་རྒྱལ་གཞུང་གིས་བསྒྲིགས་པའི་བོད་རྒྱ་ཚིག་མཛོད།
བེད་སྤྱོད། / 适用场景：藏汉翻译、历史文献研究 / བོད་རྒྱ་སྐད་སྒྱུར། ལོ་རྒྱུས་དཔེ་ཆ་ཞིབ་འཇུག

༨། 84000 ཚིག་མཛོད། / 84000词典

ཚིག་གྲངས། / 词条数：24,767
ཡིག་ཆའི་ཚད། / 文件大小：CSV 3.4MB | JSON 4.6MB | TXT 3.4MB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：佛教翻译项目专业术语 / ནང་བསྟན་སྐད་སྒྱུར་ལས་འཆར་གྱི་ཆེད་ལས་ཐ་སྙད།
བེད་སྤྱོད། / 适用场景：佛教文献翻译 / ནང་བསྟན་དཔེ་ཆ་སྐད་སྒྱུར།

༩། Laine-Abbreviations ཚིག་མཛོད། / Laine-Abbreviations词典

ཚིག་གྲངས། / 词条数：24,767
ཡིག་ཆའི་ཚད། / 文件大小：CSV 3.4MB | JSON 4.6MB | TXT 3.4MB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：缩写词汇专项 / བསྡུས་མིང་ཆེད་གཅོད།
བེད་སྤྱོད། / 适用场景：文献阅读、缩写理解 / དཔེ་ཆ་ཀློག་པ། བསྡུས་མིང་གོ་རྟོགས།

༡༠། Tony-Duff ཚིག་མཛོད། / Tony-Duff词典

ཚིག་གྲངས། / 词条数：23,769
ཡིག་ཆའི་ཚད། / 文件大小：CSV 10MB | JSON 11MB | TXT 10MB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：详细的词条注释和语法说明 / རྒྱས་པའི་ཚིག་འགྲེལ་དང་བརྡ་སྤྲོད་གསལ་བཤད།
བེད་སྤྱོད། / 适用场景：深度学习、语法研究 / ཟབ་སྦྱོང་། བརྡ་སྤྲོད་ཞིབ་འཇུག

༡༡། Jeffrey-Hopkins ཚིག་མཛོད། / Jeffrey-Hopkins词典

ཚིག་གྲངས། / 词条数：18,380
ཡིག་ཆའི་ཚད། / 文件大小：CSV 3.8MB | JSON 4.7MB | TXT 3.8MB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：佛学术语专业词典 / ནང་བསྟན་ཐ་སྙད་ཆེད་ལས་ཚིག་མཛོད།
བེད་སྤྱོད། / 适用场景：佛学研究、术语标准化 / ནང་བསྟན་ཞིབ་འཇུག ཐ་སྙད་ཚད་ལྡན།

༡༢། Mahavyutpatti ཚིག་མཛོད། / Mahavyutpatti词典

ཚིག་གྲངས། / 词条数：17,288
ཡིག་ཆའི་ཚད། / 文件大小：CSV 2.5MB | JSON 3.3MB | TXT 2.5MB
སྐད་རིགས། / 语言对：བོད་ལེགས་སྦྱར་དབྱིན། / 藏文-梵文-英文
ཁྱད་ཆོས། / 特点：经典翻译名义大集 / མདོ་སྔགས་ཀྱི་བརྡ་གཞུང་བྱེ་བྲག་ཏུ་རྟོགས་པར་བྱེད་པ་ཆེན་པོ།
བེད་སྤྱོད། / 适用场景：佛教典籍术语对照 / ནང་བསྟན་དཔེ་ཆ་ཐ་སྙད་བསྡུར་ཆོད།

༡༣། Yogacharabhumi-Sanskrit ཚིག་མཛོད། / Yogacharabhumi-Sanskrit词典

ཚིག་གྲངས། / 词条数：16,028
ཡིག་ཆའི་ཚད། / 文件大小：CSV 1.1MB | JSON 1.9MB | TXT 1.1MB
སྐད་རིགས། / 语言对：བོད་ལེགས་སྦྱར། / 藏文-梵文
ཁྱད་ཆོས། / 特点：瑜伽师地论专项术语 / རྣལ་འབྱོར་སྤྱོད་པའི་ས་ཆེད་ལས་ཐ་སྙད།
བེད་སྤྱོད། / 适用场景：瑜伽行派研究 / རྣལ་འབྱོར་སྤྱོད་པའི་སྡེ་ཞིབ་འཇུག

༡༤། Chandra-Sanskrit ཚིག་མཛོད། / Chandra-Sanskrit词典

ཚིག་གྲངས། / 词条数：15,961
ཡིག་ཆའི་ཚད། / 文件大小：CSV 1.1MB | JSON 1.8MB | TXT 1.1MB
སྐད་རིགས། / 语言对：བོད་ལེགས་སྦྱར། / 藏文-梵文
ཁྱད་ཆོས། / 特点：梵文对照专用 / ལེགས་སྦྱར་བསྡུར་ཆོད་ཆེད་སྤྱོད།
བེད་སྤྱོད། / 适用场景：梵藏对照研究 / ལེགས་སྦྱར་བོད་ཀྱི་བསྡུར་ཆོད་ཞིབ་འཇུག

ཆུང་ངུའི་ཆེད་ལས་ཚིག་མཛོད། / 小型专项词典（词条数 < 10,000）

༡༥། Dag-Yig ཚིག་མཛོད། / Dag-Yig词典

ཚིག་གྲངས། / 词条数：6,961
ཡིག་ཆའི་ཚད། / 文件大小：CSV 3.4MB | JSON 3.7MB | TXT 3.4MB
སྐད་རིགས། / 语言对：བོད་ཡིག / 藏文
ཁྱད་ཆོས། / 特点：正字法词典 / དག་ཡིག་ཚིག་མཛོད།
བེད་སྤྱོད། / 适用场景：拼写规范、正字法研究 / འབྲི་ཚུལ་ཚད་ལྡན། དག་ཡིག་ཞིབ་འཇུག

༡༦། Lotus-King ཚིག་མཛོད། / Lotus-King词典

ཚིག་གྲངས། / 词条数：3,961
ཡིག་ཆའི་ཚད། / 文件大小：CSV 203KB | JSON 388KB | TXT 203KB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：专项术语集 / ཆེད་གཅོད་ཐ་སྙད་ཕྱོགས་བསྡུས།
བེད་སྤྱོད། / 适用场景：特定领域查询 / ངེས་ཅན་ཁྱབ་ཁོངས་འཚོལ་བཤེར།

༡༧། Tibetan-Medicine ཚིག་མཛོད། / Tibetan-Medicine词典

ཚིག་གྲངས། / 词条数：3,280
ཡིག་ཆའི་ཚད། / 文件大小：CSV 730KB | JSON 876KB | TXT 722KB
སྐད་རིགས། / 语言对：བོད་རྒྱ་དབྱིན། / 藏文-中文/英文
ཁྱད་ཆོས། / 特点：藏医药专业术语 / བོད་ཀྱི་གསོ་རིག་ཆེད་ལས་ཐ་སྙད།
བེད་སྤྱོད། / 适用场景：藏医药研究、医学翻译 / བོད་ཀྱི་གསོ་རིག་ཞིབ་འཇུག སྨན་རིག་སྐད་སྒྱུར།

༡༨། Tsepak-Rigdzin ཚིག་མཛོད། / Tsepak-Rigdzin词典

ཚིག་གྲངས། / 词条数：2,699
ཡིག་ཆའི་ཚད། / 文件大小：CSV 1.2MB | JSON 1.3MB | TXT 1.2MB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：佛学术语简明词典 / ནང་བསྟན་ཐ་སྙད་མདོར་བསྡུས།
བེད་སྤྱོད། / 适用场景：快速查询、初学者参考 / མགྱོགས་མྱུར་འཚོལ་བཤེར། དང་པོའི་རིམ་པའི་དཔེ་གཞི།

༡༩། Verb-Lexicon ཚིག་མཛོད། / Verb-Lexicon词典

ཚིག་གྲངས། / 词条数：2,262
ཡིག་ཆའི་ཚད། / 文件大小：CSV 667KB | JSON 144KB | TXT 38KB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：动词专项词库 / བྱ་ཚིག་ཆེད་ལས་མིང་ཚིག
བེད་སྤྱོད། / 适用场景：动词研究、语法分析 / བྱ་ཚིག་ཞིབ་འཇུག བརྡ་སྤྲོད་དབྱེ་ཞིབ།

༢༠། Sera ཚིག་མཛོད། / Sera词典

ཚིག་གྲངས། / 词条数：1,223
ཡིག་ཆའི་ཚད། / 文件大小：CSV 457KB | JSON 514KB | TXT 456KB
སྐད་རིགས། / 语言对：བོད་ཡིག / 藏文
ཁྱད་ཆོས། / 特点：色拉寺传统词汇 / སེ་ར་དགོན་པའི་སྲོལ་རྒྱུན་ཚིག་མཛོད།
བེད་སྤྱོད། / 适用场景：寺院术语、宗教研究 / དགོན་སྡེའི་ཐ་སྙད། ཆོས་ལུགས་ཞིབ་འཇུག

༢༡། Lotus-King-Trust ཚིག་མཛོད། / Lotus-King-Trust词典

ཚིག་གྲངས། / 词条数：917
ཡིག་ཆའི་ཚད། / 文件大小：CSV 59KB | JSON 102KB | TXT 59KB
སྐད་རིགས། / 语言对：བོད་དབྱིན། / 藏文-英文
ཁྱད་ཆོས། / 特点：信托相关词汇 / ཡིད་ཆེས་འབྲེལ་བའི་ཚིག་མཛོད།
བེད་སྤྱོད། / 适用场景：特定项目使用 / ངེས་ཅན་ལས་འཆར་བེད་སྤྱོད།

༢༢། dictionaries ཚིག་མཛོད། / dictionaries词典

ཚིག་གྲངས། / 词条数：21
ཡིག་ཆའི་ཚད། / 文件大小：CSV 947B | JSON 1.6KB | TXT 650B
སྐད་རིགས། / 语言对：གཞི་རྩའི་གནས་ཚུལ། / 元数据
ཁྱད་ཆོས། / 特点：词典索引和元信息 / ཚིག་མཛོད་དཀར་ཆག་དང་གཞི་རྩའི་གནས་ཚུལ།
བེད་སྤྱོད། / 适用场景：词典管理、索引查询 / ཚིག་མཛོད་འཛིན་སྐྱོང་། དཀར་ཆག་འཚོལ་བཤེར།

གཞི་རྩའི་ཁྱད་ཆོས། 数据统计

ཡོངས་བསྡོམས། / 总体统计

རྩིས་ཞིབ། / 统计项目	གྲངས་ཀ། / 数值
ཚིག་མཛོད་ཁྱོན། / 词典总数	23个
ཚིག་ཁྱོན། / 词条总数	765,967条
CSV ཁྱོན། / CSV总大小	150 MB
JSON ཁྱོན། / JSON总大小	184 MB
TXT ཁྱོན། / TXT总大小	149 MB
གཞི་རྩའི་ཁྱོན། / 数据总量	483 MB

སྐད་རིགས་ངོས་ནས་དབྱེ་བ། / 按语言对分类

སྐད་རིགས། / 语言对	ཚིག་མཛོད་གྲངས། / 词典数	ཚིག་གྲངས། / 词条数	བརྒྱ་ཆ། / 占比
བོད་དབྱིན། / 藏英	13	445,815	58.2%
བོད་ཡིག / 藏文（单语）	4	165,405	21.6%
བོད་ལེགས་སྦྱར། / 藏梵	4	127,309	16.6%
བོད་རྒྱ། / 藏汉	2	27,438	3.6%

ཚད་ངོས་ནས་དབྱེ་བ། / 按规模分类

ཚད་གཞི། / 规模类别	ཚིག་མཛོད་གྲངས། / 词典数	ཚིག་གྲངས། / 词条数范围	ཚིག་གྲངས་དུང་ཕྱོགས། / 平均词条数
ཆེན་པོ། / 大型（>50,000）	7	49,639-117,066	78,493
འབྲིང་། / 中型（10,000-50,000）	9	15,961-36,452	23,358
ཆུང་ངུ། / 小型（<10,000）	7	21-6,961	2,901

གཞི་རྩའི་འཕེལ་རིམ། / 数据增长趋势

པར་གཞི། / 版本	དུས་ཚོད། / 日期	ཚིག་མཛོད། / 词典数	ཚིག་གྲངས། / 词条数	འཕེལ་རིམ། / 增长率
v1.0	2023-06	23	765,967	-
v2.0	2026-01	23	765,967	0%

མཆན། / 注：v2.0主要更新为格式规范化和质量优化 / པར་གཞི་གསར་པར་རྣམ་གཞག་ཚད་ལྡན་དང་བསྡུར་ཞིབ།

བསྡུར་ཞིབ། 质量控制

གཞི་རྩ་གཙང་སེལ། / 数据清理流程

དང་པོའི་རིམ་པ། / 第一阶段：རྣམ་གཞག་མཉམ་སྒྲིག / 格式统一
- སྟར་གཉིས་ཀྱི་རྣམ་གཞག་ལ་མཉམ་སྒྲིག / 统一CSV格式为两列结构
- རེའུ་མིག་མཚམས་རྟགས་མཉམ་སྤྱོད། / 统一使用制表符分隔
- མ་དགོས་པའི་སྟར་གཙང་སེལ། / 清除多余的列和空白列
གཉིས་པའི་རིམ་པ། / 第二阶段：ཚིག་རྩ་འདོན་ལེན། / 词根提取
- སྟར་དང་པོ་ནས་བོད་ཡིག་གཙང་མ་འདོན་ལེན། / 从第一列提取纯藏文词根
- བོད་ཡིག་མིན་པའི་ཡི་གེ་སྤོ་བ། / 移除非藏文字符（括号、标记等）
- བོད་ཡིག་ཚེག་ཤད་འཇོག་པ། / 保留藏文标点符号
གསུམ་པའི་རིམ་པ། / 第三阶段：འགྲེལ་བཤད་གཙང་སེལ། / 描述清理
- མ་དགོས་པའི་ཚེག་ཤད་གཙང་སེལ། / 清除多余的逗号和符号
- སྟར་མང་པོའི་འགྲེལ་བཤད་ཟླ་སྒྲིལ། / 合并多列描述
- ནང་དོན་ཡོངས་རྫོགས་བཞག་པ། / 保持内容完整性
བཞི་པའི་རིམ་པ། / 第四阶段：རྣམ་གཞག་བསྒྱུར་བ། / 格式转换
- JSON རྣམ་གཞག་ལ་བསྒྱུར་བ། / 转换为JSON格式
- TXT རྣམ་གཞག་ལ་བསྒྱུར་བ། / 转换为TXT格式
- རྣམ་གཞག་ཡང་དག་ར་སྤྲོད། / 验证格式正确性

བསྡུར་ཞིབ་ཚད་གཞི། / 质量指标

བསྡུར་ཞིབ་ཚད་གཞི། / 质量指标	ཚད་ལྡན། / 标准	དངོས་ཁྱད། / 实际情况
ཀོད་གཟུགས་མཐུན་པ། / 编码一致性	UTF-8	✅ 100%
རྣམ་གཞག་ཚད་ལྡན། / 格式规范性	སྟར་གཉིས་ཚད་ལྡན། / 两列标准格式	✅ 100%
ཚིག་རྩ་གཙང་ཚད། / 词根纯度	བོད་ཡིག་གཙང་མ། / 纯藏文字符	✅ 99.9%+
གཞི་རྩ་ཡོངས་རྫོགས། / 数据完整性	ཚིག་མ་ཆག་པ། / 无缺失词条	✅ 100%
བསྐྱར་ཟློས། / 重复率	<1%	✅ སྒྲིག་ལྡན། / 符合

ཤེས་རྟོགས་དཀའ་ངལ། / 已知问题

དོན་མང་ཚིག / 多义词处理：部分词典中，同一词根可能有多个条目 / ཚིག་མཛོད་ཁ་ཤས་སུ་ཚིག་རྩ་གཅིག་ལ་ཚིག་ཁོངས་མང་པོ་ཡོད་སྲིད།
སྡེབ་སྦྱོར་མི་འདྲ། / 拼写差异：不同词典对同一词可能有不同拼写 / ཚིག་མཛོད་མི་འདྲ་བར་ཚིག་གཅིག་ལ་འབྲི་ཚུལ་མི་འདྲ་བ་ཡོད་སྲིད།
འགྲེལ་བཤད་རྒྱས་བསྡུས། / 解释详细度：不同词典的解释详细程度差异较大 / ཚིག་མཛོད་མི་འདྲ་བའི་འགྲེལ་བཤད་རྒྱས་བསྡུས་ཁྱད་པར་ཆེ།
ལེགས་སྦྱར་བསྒྱུར་ཚུལ། / 梵文转写：梵文的罗马转写系统可能不统一 / ལེགས་སྦྱར་རོ་མའི་ཡི་གེར་བསྒྱུར་ཚུལ་མི་མཐུན་སྲིད།

བེད་སྤྱོད་གྲོས་འདེབས། / 使用建议

ཚིག་མཛོད་མང་པོ་གཅིག་ཏུ་བསྡུར་ཏེ་ཀློག་དགོས། / 建议交叉对照多个词典以获得完整理解
ཆེད་ལས་ཐ་སྙད་ལ་ཆེད་ལས་ཚིག་མཛོད་བསྡུར་དགོས། / 对于专业术语，建议参考专业领域词典
སྲོལ་རྒྱུན་དང་དེང་རབས་འབྲི་ཚུལ་དབྱེ་དགོས། / 注意区分传统拼写和现代拼写
ལེགས་སྦྱར་ཚིག་ལ་དངོས་ཡིག་བསྡུར་དགོས། / 梵文词汇建议对照原始梵文文献

བེད་སྤྱོད་གྲོས་འདེབས། 使用指南

མགྱོགས་མྱུར་འགོ་འཛུགས། / 快速开始

Python དཔེ་མཚོན། / Python示例

import csv
import json

# ཀློག་པ་CSV རྣམ་གཞག / 读取CSV格式
with open('csv格式化的藏文词典/84000.csv', 'r', encoding='utf-8') as f:
    reader = csv.DictReader(f, delimiter='\t')
    for row in reader:
        print(f"{row['Tibetan']}: {row['Description']}")

# ཀློག་པ་JSON རྣམ་གཞག / 读取JSON格式
with open('Json格式化的藏文词典/84000.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
    for entry in data:
        print(f"{entry['Tibetan']}: {entry['Description']}")

# ཀློག་པ་TXT རྣམ་གཞག / 读取TXT格式
with open('txt格式化的藏文词典/84000.txt', 'r', encoding='utf-8') as f:
    for line in f:
        tibetan, description = line.strip().split('\t')
        print(f"{tibetan}: {description}")

JavaScript དཔེ་མཚོན། / JavaScript示例

// ཀློག་པ་JSON རྣམ་གཞག / 读取JSON格式
fetch('Json格式化的藏文词典/84000.json')
  .then(response => response.json())
  .then(data => {
    data.forEach(entry => {
      console.log(`${entry.Tibetan}: ${entry.Description}`);
    });
  });

// Node.js ཀློག་པ་CSV རྣམ་གཞག / Node.js读取CSV格式
const fs = require('fs');
const csv = require('csv-parser');

fs.createReadStream('csv格式化的藏文词典/84000.csv')
  .pipe(csv({ separator: '\t' }))
  .on('data', (row) => {
    console.log(`${row.Tibetan}: ${row.Description}`);
  });

Pandas དཔེ་མཚོན། / Pandas示例（数据分析）

import pandas as pd

# ཀློག་པ་CSV / 读取CSV
df = pd.read_csv('csv格式化的藏文词典/84000.csv', 
                 sep='\t', encoding='utf-8')

# གཞི་རིམ་རྩིས་ཞིབ། / 基本统计
print(f"ཚིག་གྲངས། / 词条数: {len(df)}")
print(f"སྟར་མིང་། / 列名: {df.columns.tolist()}")

# འཚོལ་བཤེར་བྱེད་ལས། / 查询功能
def search_word(tibetan_word):
    result = df[df['Tibetan'] == tibetan_word]
    return result['Description'].values[0] if len(result) > 0 else "མ་རྙེད། / 未找到"

# སྤུ་ངོས་བཅོས་སྒྲིག / 批量处理
for idx, row in df.iterrows():
    # བཅོས་སྒྲིག་ཚིག་རེ། / 处理每个词条
    process_entry(row['Tibetan'], row['Description'])

མཐོ་རིམ་བེད་སྤྱོད། / 高级应用

༡། ཚིག་མཛོད་འཚོལ་བཤེར་མ་ལག / 1. 构建词典查询系统

class TibetanDictionary:
    def __init__(self, dict_files):
        self.data = {}
        for file in dict_files:
            self.load_dictionary(file)

    def load_dictionary(self, filename):
        with open(filename, 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f, delimiter='\t')
            for row in reader:
                tibetan = row['Tibetan']
                if tibetan not in self.data:
                    self.data[tibetan] = []
                self.data[tibetan].append({
                    'source': filename,
                    'description': row['Description']
                })

    def search(self, word):
        return self.data.get(word, [])

    def fuzzy_search(self, pattern):
        import re
        results = []
        for word in self.data.keys():
            if re.search(pattern, word):
                results.append((word, self.data[word]))
        return results

༢། གཞི་རྩའི་གྲངས་གཞུང་ནང་འཇུག / 2. 数据库导入

-- SQLite དཔེ་མཚོན། / SQLite示例
CREATE TABLE tibetan_dictionary (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    tibetan TEXT NOT NULL,
    description TEXT,
    source TEXT,
    UNIQUE(tibetan, source)
);

CREATE INDEX idx_tibetan ON tibetan_dictionary(tibetan);
CREATE INDEX idx_source ON tibetan_dictionary(source);

import sqlite3
import csv

def import_to_database(csv_file, db_file, source_name):
    conn = sqlite3.connect(db_file)
    cursor = conn.cursor()

    with open(csv_file, 'r', encoding='utf-8') as f:
        reader = csv.DictReader(f, delimiter='\t')
        for row in reader:
            cursor.execute(
                'INSERT OR IGNORE INTO tibetan_dictionary (tibetan, description, source) VALUES (?, ?, ?)',
                (row['Tibetan'], row['Description'], source_name)
            )

    conn.commit()
    conn.close()

༣། དྲ་བའི་API གསར་སྐྲུན། / 3. Web API开发

from flask import Flask, jsonify, request
import json

app = Flask(__name__)

# ཚིག་མཛོད་གཞི་རྩ་འཇུག་པ། / 加载词典数据
with open('Json格式化的藏文词典/84000.json', 'r', encoding='utf-8') as f:
    dictionary = {entry['Tibetan']: entry['Description'] for entry in json.load(f)}

@app.route('/api/search', methods=['GET'])
def search():
    word = request.args.get('word', '')
    result = dictionary.get(word)
    if result:
        return jsonify({'success': True, 'tibetan': word, 'description': result})
    else:
        return jsonify({'success': False, 'message': 'མ་རྙེད། / 未找到该词条'})

@app.route('/api/list', methods=['GET'])
def list_words():
    page = int(request.args.get('page', 1))
    per_page = int(request.args.get('per_page', 50))

    words = list(dictionary.keys())
    start = (page - 1) * per_page
    end = start + per_page

    return jsonify({
        'page': page,
        'per_page': per_page,
        'total': len(words),
        'data': [{'tibetan': w, 'description': dictionary[w]} for w in words[start:end]]
    })

if __name__ == '__main__':
    app.run(debug=True)

ལས་འགན་མཐོ་རུ་གཏོང་བ། / 性能优化建议

ཡིག་ཆ་ཆེན་པོ་བཅོས་སྒྲིག / 大文件处理：使用流式读取，避免一次性加载到内存 / རྒྱུན་ཞུགས་ཀློག་ཚུལ་བེད་སྤྱོད། དྲན་ཤེས་ནང་ཐེངས་གཅིག་ལ་མ་བླུག
དཀར་ཆག་གསར་འཛུགས། / 索引建立：建立藏文词根索引以加快查询速度 / བོད་ཡིག་ཚིག་རྩའི་དཀར་ཆག་གསར་འཛུགས་བྱས་ན་འཚོལ་བཤེར་མགྱོགས།
གསོག་ཉར་ལམ་ལུགས། / 缓存机制：对频繁查询的词条建立缓存 / ཡང་ཡང་འཚོལ་བའི་ཚིག་ལ་གསོག་ཉར་བྱེད།
བགོས་སྤེལ་བཅོས་སྒྲིག / 分布式处理：超大规模应用可考虑分布式存储 / ཚད་ཧ་ཅང་ཆེན་པོ་ལ་བགོས་སྤེལ་གསོག་ཉར་བསམ་བློ་གཏོང་།
བསྡུས་ནས་གསོག་ཉར། / 压缩存储：长期存储可使用gzip等压缩格式 / རིང་དུས་གསོག་ཉར་ལ་gzip སོགས་བསྡུས་རྣམ་གཞག་བེད་སྤྱོད།

འཕྲུལ་རིག་ཚད་ལྡན། 技术规范

ཡི་གེའི་ཀོད། / 字符编码

རྣམ་གྲངས། / 项目	ཚད་ལྡན། / 规范
ཡི་གེའི་ཕྱོགས་བསྡུས། / 字符集	Unicode
ཀོད་གཟུགས། / 编码方式	UTF-8 without BOM
བོད་ཡིག་ཁྱབ་ཁོངས། / 藏文范围	U+0F00 - U+0FFF
ཐིག་གསར། / 换行符	LF (`\n`) འམ། CRLF (`\r\n`) / 或

བོད་ཡིག་Unicode ཁྱབ་ཁོངས། / 藏文Unicode范围

ཁྱབ་ཁོངས། / 范围	གསལ་བཤད། / 说明
U+0F00-U+0F47	བོད་ཡིག་གསལ་བྱང་། / 藏文字母
U+0F49-U+0F6C	བོད་ཡིག་གསལ་བྱང་། / 藏文字母（续）
U+0F71-U+0F97	དབྱངས་རྟགས། / 元音符号
U+0F99-U+0FBC	གསལ་རྟགས། / 辅音符号
U+0FBE-U+0FCC	ཚེག་ཤད། / 标点符号
U+0FCE-U+0FD4	ཆེད་གཅོད་རྟགས། / 特殊符号

ཡིག་ཆའི་ཚད་ཚུལ། / 文件大小限制

རྣམ་གཞག / 格式	ཚད་ཆེ་ཤོས། / 单文件最大	གྲོས་འདེབས། / 推荐大小
CSV	ཚད་མེད། / 无限制	<100MB
JSON	ཚད་མེད། / 无限制	<200MB
TXT	ཚད་མེད། / 无限制	<100MB

མཐུན་སྒྲིག / 兼容性

ལམ་ལུགས། / 平台	CSV	JSON	TXT
Windows	✅	✅	✅
macOS	✅	✅	✅
Linux	✅	✅	✅
iOS	✅	✅	✅
Android	✅	✅	✅

གྲོས་འདེབས་ལག་ཆ། / 推荐工具

རྩོམ་སྒྲིག་ཆས། / 编辑器

Visual Studio Code（གྲོས་འདེབས། / 推荐，支持藏文显示）
Sublime Text
Notepad++（བོད་ཡིག་ཡིག་གཟུགས་གཞུག་དགོས། / 需要安装藏文字体）

གཞི་རྩ་བཅོས་སྒྲིག / 数据处理

Python Pandas
R language
Excel（UTF-8 ཀོད་གཟུགས་སྒྲིག་དགོས། / 需要设置UTF-8编码）

གཞི་རྩའི་གྲངས་གཞུང་། / 数据库

SQLite（ཡང་བའི་ཉེར་སྤྱོད། / 轻量级应用）
PostgreSQL（སྐྱེད་གཞི། / 生产环境）
MongoDB（ཡིག་ཆའི་རིགས་གསོག་ཉར། / 文档型存储）

པར་དབང་དང་གན་དབང་། 版权与许可

གཞི་རྩའི་ཁུངས་བསྟན་པ། / 数据来源声明

བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ་འདིར་གསལ་སྟོན་ཡོད་པའམ་གནང་བ་ཐོབ་པའི་བོད་ཡིག་ཚིག་མཛོད་ཁུངས་མང་པོ་ཟླ་སྒྲིལ་བྱས་ཡོད། ཚིག་མཛོད་རེ་རེའི་པར་དབང་དེ་དག་གི་རྩོམ་པ་པོ་དང་ཁང་པར་གཏོགས་པ་རེད།

本语料库整合了多个公开或授权的藏文词典数据源。各词典的版权归原作者和机构所有。

བེད་སྤྱོད་གན་དབང་། / 使用许可

ཡིག་ཆ་འདི་སློབ་གཉེར་ཞིབ་འཇུག དམངས་ཁྲོད་མིན་པའི་ཤེས་ཡོན། རིག་གནས་སྲུང་སྐྱོབ་བཅས་ལ་བེད་སྤྱོད་ཆོག

本语料库仅供学术研究、非商业性教育和文化保护使用。

གནང་བའི་བེད་སྤྱོད། / 允许的使用：
- ✅ སློབ་གཉེར་ཞིབ་འཇུག་དང་དཔྱད་རྩོམ། / 学术研究和论文写作
- ✅ དམངས་ཁྲོད་མིན་པའི་ཤེས་ཡོན་ལས་འཆར། / 非商业性教育项目
- ✅ ཁ་ཕྱེ་མཉེན་ཆས་གསར་སྐྲུན། / 开源软件开发
- ✅ རིག་གནས་སྲུང་སྐྱོབ་ལས་འཆར། / 文化保护项目
- ✅ སྒེར་གྱི་སློབ་སྦྱོང་། / 个人学习使用

མི་རུང་བའི་བེད་སྤྱོད། / 禁止的使用：
- ❌ དམངས་ཁྲོད་ཀྱི་ཚིག་མཛོད་ཐོན་རྫས་གསར་སྐྲུན། / 商业性词典产品开发（未经授权）
- ❌ གཞི་རྩ་ཚོང་འབྲེལ། / 数据转售
- ❌ ཁུངས་མ་བཀོད་པའི་བེད་སྤྱོད། / 未注明出处的使用
- ❌ བཅོས་སྒྲིག་རྗེས་དངོས་རྩོམ་ཡིན་པར་བརྗོད་པ། / 修改后声称为原创

དཔྱད་གཏམ་རྣམ་གཞག / 引用格式

སློབ་གཉེར་དཔྱད་གཏམ་རྣམ་གཞག / 学术引用格式：

བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། (藏文词典语料库 / Tibetan Dictionary Corpus) [གཞི་རྩ་ཕྱོགས་བསྡུས། / 数据集]. པར་གཞི་༢.༠. 
བསྒྲིགས་ཚར་བའི་དུས་ཚོད། / 整理完成日期: 2026ལོ་༡ཟླ་༢༧ཉིན། / 2026年1月27日. 
འཚོལ་བཤེར་ས། / 访问地址: [ཁྱེད་ཀྱི་ས་གནས། / 您的地址]

BibTeX རྣམ་གཞག / BibTeX格式：

@dataset{tibetan_dictionary_corpus_2026,
  title = {བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། (藏文词典语料库 / Tibetan Dictionary Corpus)},
  version = {2.0},
  year = {2026},
  month = {1},
  note = {整合23个藏文词典，共计765,967词条 / བོད་ཡིག་ཚིག་མཛོད་༢༣ཟླ་སྒྲིལ། ཚིག་༧༦༥༩༦༧}
}

འགན་འཁུར་བསྟན་པ། / 责任声明

ཡིག་ཆ་འདི་གནས་སྐབས་ཀྱི་རྣམ་པ་ཇི་བཞིན་སྤྲོད་པ་ཡིན། གསལ་བསྟན་ནམ་དོན་གྱིས་བསྟན་པའི་ངེས་ཁེལ་མེད། / 本语料库按"现状"提供，不提供任何明示或暗示的保证
བེད་སྤྱོད་པས་རང་ཉིད་ཀྱིས་བེད་སྤྱོད་ཀྱི་ཉེན་ཁ་འཁུར་དགོས། / 使用者应自行承担使用风险
བསྒྲིགས་པ་པོས་གཞི་རྩའི་ཡང་དག་དང་ཡོངས་རྫོགས་ལ་ཁྲིམས་འགན་མི་འཁུར། / 编译者不对数据的准确性、完整性承担法律责任
བེད་སྤྱོད་པར་གལ་ཆེའི་གནས་ཚུལ་སྣ་མང་བསྡུར་ཆོད་གྲོས་འདེབས། / 建议使用者交叉验证重要信息

གསར་བཅོས་ལོ་རྒྱུས། 更新历史

པར་གཞི་༢.༠ / v2.0 (2026-01-27)

གལ་ཆེའི་གསར་བཅོས། / 重大更新：རྣམ་གཞག་ཚད་ལྡན། / 格式规范化

✅ ཚིག་མཛོད་ཡོངས་རྫོགས་ཀྱི་རྣམ་གཞག་མཉམ་སྒྲིག་ཚར། / 完成全部词典的格式统一
✅ སྟར་དང་པོར་བོད་ཡིག་གཙང་མ་འདོན་ལེན། / 第一列提取纯藏文词根（移除非藏文字符）
✅ མ་དགོས་པའི་ཚེག་ཤད་དང་རྣམ་གཞག་གཙང་སེལ། / 清理所有多余逗号和格式问题
✅ ཚད་ལྡན་རྣམ་གཞག་གསུམ་བཟོས། / 生成三种标准格式（CSV、JSON、TXT）
✅ མཉམ་སྒྲིག་ཡིག་ཆའི་བཀོད་པ། / 创建统一的文件夹结构
✅ ཡོངས་རྫོགས་འཕྲུལ་རིག་ཡིག་ཆ། / 编写完整的技术文档

བཅོས་སྒྲིག་རྩིས་ཞིབ། / 处理统计：
- གཙང་སེལ་བྱས་པའི་ཐིག་གྲངས། / 清理的行数：858行（移除非藏文字符） / ཐིག་༨༥༨
- རྣམ་གཞག་བཟོས་པའི་ཡིག་ཆ། / 格式化文件：23个词典 / ཚིག་མཛོད་༢༣
- བཟོས་པའི་ཡིག་ཆ། / 生成文件：69个（23×3种格式） / ཡིག་ཆ་༦༩
- གཞི་རྩའི་ཁྱོན། / 数据总量：483 MB

བསྡུར་ཞིབ་མཐོ་རུ་གཏོང་། / 质量提升：
- ཚིག་རྩ་གཙང་ཚད། / 词根纯度：99.9%+
- རྣམ་གཞག་མཐུན་པ། / 格式一致性：100%
- གཞི་རྩ་ཡོངས་རྫོགས། / 数据完整性：100%

པར་གཞི་༡.༠ / v1.0 (གཞི་རྩ་པར་གཞི། / 原始版本)

དང་པོར་ཚིག་མཛོད་༢༣བསྡུས། / 初始收集23个词典数据
དངོས་གཞི་CSV རྣམ་གཞག / 原始CSV格式
ཡིག་ཆ་ཁ་ཤས་ལ་རྣམ་གཞག་དཀའ་ངལ་ཡོད། / 部分文件存在格式问题
མཉམ་སྒྲིག་ཡིག་ཆའི་བཀོད་པ་མེད། / 缺乏统一的文件组织

བཀའ་དྲིན་རྗེས་དྲན། 致谢

གཞི་རྩའི་ཁུངས་ལ་བཀའ་དྲིན། / 数据来源感谢

བོད་ཡིག་ཚིག་མཛོད་གྲངས་འབེལ་ལ་ཞབས་ཞུ་གནང་བའི་ཚོགས་པ་དང་གང་ཟག་འདི་ལྟར་ལ་ཆེས་ཐུགས་རྗེ་ཆེ། / 特别感谢以下组织和个人为藏文词典数字化做出的贡献：

༨༤༠༠༠ སངས་རྒྱས་ཀྱི་བཀའ་སྐད་སྒྱུར་ལས་འཆར། / 84000 Translating the Words of the Buddha
Jeffrey Hopkins - ནང་བསྟན་ཐ་སྙད་ཞིབ་འཇུག / 佛学术语研究
Tony Duff - བོད་དང་ཧི་མ་ལ་ཡའི་དཔེ་མཛོད་ཁང་། / Tibetan & Himalayan Library
Erik Pema Kunsang - སྲོལ་རྒྱུན་ཐ་སྙད་སྒྲིག་སྦྱོར། / 传统术语整理
Tsepak Rigzin - བོད་ཀྱི་གསུང་རབ་ལས་ཀའི་དཔེ་མཛོད་ཁང་། / Library of Tibetan Works and Archives
Negi - ལེགས་སྦྱར་བོད་བསྡུར་ཆོད་ཞིབ་འཇུག / 梵藏对照研究
ཆིང་རྒྱལ་སློབ་དཔོན། / 清代学者 - གྱུ་ཆེན་ལྔ་སྒྲིག་ཚིག་མཛོད་བསྒྲིགས་པ། / 御制五体清文鉴编纂团队
བོད་ཀྱི་རིག་གནས་སྲུང་སྐྱོབ་དང་རྒྱུན་འཛིན་ལ་ཞབས་ཞུ་གནང་བའི་མཁས་དབང་ཐམས་ཅད་ལ། / 以及所有为藏文文化保护和传承做出贡献的学者

འཕྲུལ་རིག་རོགས་རམ། / 技术支持

Unicode Consortium - བོད་ཡིག་Unicode ཚད་ལྡན། / 藏文Unicode标准
Python Community - གཞི་རྩ་བཅོས་སྒྲིག་ལག་ཆ། / 数据处理工具
ཁ་ཕྱེ་མཉེན་ཆས་ལས་འཆར་སོ་སོ། / 各开源软件项目

གསལ་བསྒྲགས་འདི་བོད་ལྗོངས་དཔལ་ཡོན་ཚིག་མཛོད་ཡིག་ཆའི་ལས་འཆར་ཚོགས་པའམ་དཔལ་ཡོན་གསར་གཏོད་སྡེ་ཚན་ནས་བརྩམས་ཤིང་འཛིན་སྐྱོང་བྱེད་བཞིན་ཡོད།
本报告由拜云藏文词典语料库项目组（拜云创新实验室）编写和维护

ད་ལྟ་བཀྲམ་ཡོད་པ་འདི་དག་ནི་མིག་སྔར་ང་ཚོས་བཅོས་སྒྲིག་བགྱིས་པའི་ཚིག་མཛོད་ཐེངས་གྲངས་དང་པོ་ཡིན། ད་དུང་དེང་རབས་ཚན་རིག་དང་རྒྱལ་ནང་པར་སྐྲུན་གྱི་ཚིག་མཛོད་ཉིས་བརྒྱ་ཁ་ལྷག་རིམ་གྱིས་བཀྲམ་རྒྱུ་ཡིན།
此次公开目录是我们的第一期词典格式化采集工程，目前我们还有二百多套电子词典将会逐渐发布