| བོད་ཡིག | 中文 | གནད་དོན། / 信息 |
|---|---|---|
| ལས་འཆར་མིང་། | 项目名称 | བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། (藏文词典语料库 / Tibetan Dictionary Corpus) |
| པར་གཞི། | 版本号 | v2.0 |
| བཟོ་འཛུགས་ཚེས་གྲངས། | 创建日期 | 2026年1月27日 |
| མཇུག་བསྡུའི་དུས་ཚོད། | 最后更新 | 2026年1月27日 |
| ཀོད་གཟུགས། | 编码格式 | UTF-8 |
| སྐད་རིགས། | 语言 | 藏文、中文、英文、梵文 |
| གཞི་རྩའི་རྣམ་པ། | 数据格式 | CSV、JSON、TXT |
| ཚིག་ཁྱོན། | 总词条数 | 765,967+ 条 |
| གཞི་རྩའི་ཁྱོན། | 总数据量 | 483 MB |
本语料库是一个综合性的藏文词典数据集合,整合了多个权威藏文词典的数字化数据。所有数据已经过系统化处理,格式统一,可直接用于词典应用开发、自然语言处理、机器翻译、语言学研究等多种用途。
ཡིག་ཆ་འདིར་ཚད་ལྡན་བོད་ཀྱི་ཚིག་མཛོད་མང་པོའི་གྲངས་འབེལ་གཞི་རྩ་ཟླ་སྒྲིལ་བྱས་ཡོད། གཞི་རྩ་ཐམས་ཅད་མ་ལག་གི་སྒོ་ནས་བཅོས་སྒྲིག་དང་རྣམ་གཞག་མཉམ་སྒྲིག་བྱས་ཡོད་པས། ཚིག་མཛོད་ཉེར་སྤྱོད་ཀྱི་གོ་རིམ་གསར་སྐྲུན། ཐོན་རང་སྐད་ཡིག་བཅོས་སྒྲིག སྐད་སྒྱུར་འཕྲུལ་ཆས། སྐད་ཡིག་ཞིབ་འཇུག་སོགས་བེད་སྤྱོད་མང་པོར་སྤྱོད་ཆོག
本语料库包含23个词典,按来源和类型分类如下:
ཡིག་ཆ་འདིར་ཚིག་མཛོད་༢༣ཡོད་པ་དེ་དག་ཁུངས་དང་རིགས་ངོས་ནས་དབྱེ་བ་འདི་ལྟར།
| ཚིག་མཛོད་མིང་། / 词典名称 | ཚིག་གྲངས། / 词条数 | སྐད་རིགས། / 语言对 | ཁུངས་ཁང་། / 来源机构 |
|---|---|---|---|
| 84000 | 24,767 | བོད་དབྱིན། / 藏英 | 84000翻译项目 |
| Jeffrey Hopkins | 18,380 | བོད་དབྱིན། / 藏英 | Jeffrey Hopkins佛学术语 |
| Mahavyutpatti | 17,288 | བོད་གྲངས་དབྱིན། / 藏梵英 | 翻译名义大集 |
| Yogacharabhumi-Sanskrit | 16,028 | བོད་གྲངས། / 藏梵 | 瑜伽师地论 |
| Tsepak Rigdzin | 2,699 | བོད་དབྱིན། / 藏英 | 佛学术语词典 |
| ཚིག་མཛོད་མིང་། / 词典名称 | ཚིག་གྲངས། / 词条数 | སྐད་རིགས། / 语言对 | ཁྱད་ཆོས། / 特点 |
|---|---|---|---|
| Ives Waldo | 117,066 | བོད་དབྱིན། / 藏英 | 最大规模 / ཚད་ཆེ་ཤོས། |
| Negi Sanskrit | 79,292 | བོད་གྲངས། / 藏梵 | 梵文对照 / ལེགས་བཤད་བསྡུར་ཆོད། |
| Jim Welby | 64,470 | བོད་དབྱིན། / 藏英 | 综合词典 / སྤྱི་ཡོངས་ཚིག་མཛོད། |
| Erik Pema Kunsang | 60,581 | བོད་དབྱིན། / 藏英 | 传统术语 / སྲོལ་རྒྱུན་ཚིག་བརྡ། |
| Tony Duff | 23,769 | བོད་དབྱིན། / 藏英 | 详细注释 / རྒྱས་བཤད། |
| Dag-Yig | 6,961 | བོད་ཡིག / 藏文 | 正字法 / དག་ཡིག |
| ཚིག་མཛོད་མིང་། / 词典名称 | ཚིག་གྲངས། / 词条数 | ཁྱད་ལས། / 专业领域 |
|---|---|---|
| Tibetan-Multi | 111,353 | 综合多领域 / ཁྱབ་ཁོངས་མང་པོ། |
| Tsig-Dzo-Chenmo | 49,639 | 藏文大辞典 / ཚིག་མཛོད་ཆེན་མོ། |
| 御制五体清文鉴 | 36,452 | 藏汉对照 / བོད་རྒྱ་བསྡུར་ཆོད། |
| Tibetan-Medicine | 3,280 | 藏医药 / སོ་རིག |
| Verb-Lexicon | 2,262 | 动词专项 / བྱ་ཚིག་ཆེད་ལས། |
| ཚིག་མཛོད་མིང་། / 词典名称 | ཚིག་གྲངས། / 词条数 | སྤྱོད་ཐབས། / 用途 |
|---|---|---|
| Laine Abbreviations | 24,767 | 缩写词典 / བསྡུས་མིང་། |
| Chandra Sanskrit | 15,961 | 梵文对照 / ལེགས་བཤད་བསྡུར་ཆོད། |
| Lotus King | 3,961 | 专项术语 / ཆེད་གཅོད་ཚིག་བརྡ། |
| Sera | 1,223 | 色拉词典 / སེ་ར་ཚིག་མཛོད། |
| Lotus King Trust | 917 | 信托词汇 / ཡིད་ཆེས་ཚིག་མཛོད། |
| dictionaries | 21 | 词典索引 / ཚིག་མཛོད་དཀར་ཆག |
བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། / 藏文词典语料库/
├── csv格式化的藏文词典/ (23个文件, 150 MB)
│ ├── 84000.csv
│ ├── Chandra-Sanskrit.csv
│ ├── Dag-Yig.csv
│ ├── Erik-Pema-Kunsang.csv
│ ├── Ives-Waldo.csv
│ ├── Jeffrey-Hopkins.csv
│ ├── Jim-Welby.csv
│ ├── Laine-Abbreviations.csv
│ ├── Lotus-King-Trust.csv
│ ├── Lotus-King.csv
│ ├── Mahavyutpatti.csv
│ ├── Negi-Sanskrit.csv
│ ├── Sera.csv
│ ├── Tibetan-Medicine.csv
│ ├── Tibetan-Multi.csv
│ ├── Tony-Duff.csv
│ ├── Tsepak-Rigdzin.csv
│ ├── Tsig-Dzo-Chenmo.csv
│ ├── Verb-Lexicon.csv
│ ├── Yogacharabhumi-Sanskrit.csv
│ ├── dictionaries.csv
│ └── 御制五体清文鉴24.4.30.csv
│
├── Json格式化的藏文词典/ (23个文件, 184 MB)
│ └── [相同文件名,.json扩展名]
│
├── txt格式化的藏文词典/ (22个文件, 149 MB)
│ └── [相同文件名,.txt扩展名]
│
├── README.md
└── 藏文词典语料库报告.md (本文件)
.csv、.json、.txt\t) / རེའུ་མིག་མཚམས་རྟགས་བེད་སྤྱོད།བཀོད་པ། / 结构:两列表格 / སྟར་གཉིས་པའི་རེའུ་མིག
Tibetan Description
གནམ། 天
སྟེང་གནམ། 上天
དགུང་སྔོན། 苍天
འཕྲུལ་རིག་ཚད་གཞི། / 技术规范:
- སྟར་མིང་། / 列名:Tibetan | Description
- དབྱེ་རྟགས། / 分隔符:制表符(\t, U+0009)
- ཀོད་གཟུགས། / 编码:UTF-8 without BOM
- ཐིག་གསར། / 换行符:LF (\n) 或 CRLF (\r\n)
- སྟར་དང་པོ། / 第一列:纯藏文词根(Unicode U+0F00-U+0FFF) / བོད་ཡིག་གཙང་མ།
- སྟར་གཉིས་པ། / 第二列:词条解释(可包含中文、英文、藏文、梵文) / ཚིག་འགྲེལ་ཡོངས་རྫོགས།
བཀོད་པ། / 结构:对象数组 / ཡུལ་ཅན་གྱི་སྒྲིག་ཁོངས།
[
{
"Tibetan": "གནམ།",
"Description": "天"
},
{
"Tibetan": "སྟེང་གནམ།",
"Description": "上天"
}
]
འཕྲུལ་རིག་ཚད་གཞི། / 技术规范:
- རྩ་བའི་ཆ། / 根元素:数组 / སྒྲིག་ཁོངས།
- ཡུལ་ཅན་བཀོད་པ། / 对象结构:固定两个键值对 / ལྡེ་མིག་ཟུང་།
- ལྡེ་མིག་མིང་། / 键名:"Tibetan" 和 "Description"
- ཀོད་གཟུགས། / 编码:UTF-8,ensure_ascii=False
- མཐེབ་གནོན། / 缩进:2个空格 / སྟོང་ཆ་གཉིས།
བཀོད་པ། / 结构:每行一个词条 / ཐིག་རེར་ཚིག་གཅིག
གནམ། 天
སྟེང་གནམ། 上天
དགུང་སྔོན། 苍天
འཕྲུལ་རིག་ཚད་གཞི། / 技术规范:
- རྣམ་གཞག / 格式:བོད་ཡིག་[TAB]འགྲེལ་བཤད། / 藏文词根[TAB]解释
- དབྱེ་རྟགས། / 分隔符:制表符(\t) / རེའུ་མིག་མཚམས་རྟགས།
- ཀོད་གཟུགས། / 编码:UTF-8
- ཐིག་གསར། / 换行符:LF (\n)
- མགོ་ཡིག་མེད། / 无标题行:直接开始词条数据 / ཐད་ཀར་གཞི་རྩ་འགོ་འཛུགས།
| རྩིས་ཞིབ། / 统计项目 | གྲངས་ཀ། / 数值 |
|---|---|
| ཚིག་མཛོད་ཁྱོན། / 词典总数 | 23个 |
| ཚིག་ཁྱོན། / 词条总数 | 765,967条 |
| CSV ཁྱོན། / CSV总大小 | 150 MB |
| JSON ཁྱོན། / JSON总大小 | 184 MB |
| TXT ཁྱོན། / TXT总大小 | 149 MB |
| གཞི་རྩའི་ཁྱོན། / 数据总量 | 483 MB |
| སྐད་རིགས། / 语言对 | ཚིག་མཛོད་གྲངས། / 词典数 | ཚིག་གྲངས། / 词条数 | བརྒྱ་ཆ། / 占比 |
|---|---|---|---|
| བོད་དབྱིན། / 藏英 | 13 | 445,815 | 58.2% |
| བོད་ཡིག / 藏文(单语) | 4 | 165,405 | 21.6% |
| བོད་ལེགས་སྦྱར། / 藏梵 | 4 | 127,309 | 16.6% |
| བོད་རྒྱ། / 藏汉 | 2 | 27,438 | 3.6% |
| ཚད་གཞི། / 规模类别 | ཚིག་མཛོད་གྲངས། / 词典数 | ཚིག་གྲངས། / 词条数范围 | ཚིག་གྲངས་དུང་ཕྱོགས། / 平均词条数 |
|---|---|---|---|
| ཆེན་པོ། / 大型(>50,000) | 7 | 49,639-117,066 | 78,493 |
| འབྲིང་། / 中型(10,000-50,000) | 9 | 15,961-36,452 | 23,358 |
| ཆུང་ངུ། / 小型(<10,000) | 7 | 21-6,961 | 2,901 |
| པར་གཞི། / 版本 | དུས་ཚོད། / 日期 | ཚིག་མཛོད། / 词典数 | ཚིག་གྲངས། / 词条数 | འཕེལ་རིམ། / 增长率 |
|---|---|---|---|---|
| v1.0 | 2023-06 | 23 | 765,967 | - |
| v2.0 | 2026-01 | 23 | 765,967 | 0% |
མཆན། / 注:v2.0主要更新为格式规范化和质量优化 / པར་གཞི་གསར་པར་རྣམ་གཞག་ཚད་ལྡན་དང་བསྡུར་ཞིབ།
དང་པོའི་རིམ་པ། / 第一阶段:རྣམ་གཞག་མཉམ་སྒྲིག / 格式统一
- སྟར་གཉིས་ཀྱི་རྣམ་གཞག་ལ་མཉམ་སྒྲིག / 统一CSV格式为两列结构
- རེའུ་མིག་མཚམས་རྟགས་མཉམ་སྤྱོད། / 统一使用制表符分隔
- མ་དགོས་པའི་སྟར་གཙང་སེལ། / 清除多余的列和空白列
གཉིས་པའི་རིམ་པ། / 第二阶段:ཚིག་རྩ་འདོན་ལེན། / 词根提取
- སྟར་དང་པོ་ནས་བོད་ཡིག་གཙང་མ་འདོན་ལེན། / 从第一列提取纯藏文词根
- བོད་ཡིག་མིན་པའི་ཡི་གེ་སྤོ་བ། / 移除非藏文字符(括号、标记等)
- བོད་ཡིག་ཚེག་ཤད་འཇོག་པ། / 保留藏文标点符号
གསུམ་པའི་རིམ་པ། / 第三阶段:འགྲེལ་བཤད་གཙང་སེལ། / 描述清理
- མ་དགོས་པའི་ཚེག་ཤད་གཙང་སེལ། / 清除多余的逗号和符号
- སྟར་མང་པོའི་འགྲེལ་བཤད་ཟླ་སྒྲིལ། / 合并多列描述
- ནང་དོན་ཡོངས་རྫོགས་བཞག་པ། / 保持内容完整性
བཞི་པའི་རིམ་པ། / 第四阶段:རྣམ་གཞག་བསྒྱུར་བ། / 格式转换
- JSON རྣམ་གཞག་ལ་བསྒྱུར་བ། / 转换为JSON格式
- TXT རྣམ་གཞག་ལ་བསྒྱུར་བ། / 转换为TXT格式
- རྣམ་གཞག་ཡང་དག་ར་སྤྲོད། / 验证格式正确性
| བསྡུར་ཞིབ་ཚད་གཞི། / 质量指标 | ཚད་ལྡན། / 标准 | དངོས་ཁྱད། / 实际情况 |
|---|---|---|
| ཀོད་གཟུགས་མཐུན་པ། / 编码一致性 | UTF-8 | ✅ 100% |
| རྣམ་གཞག་ཚད་ལྡན། / 格式规范性 | སྟར་གཉིས་ཚད་ལྡན། / 两列标准格式 | ✅ 100% |
| ཚིག་རྩ་གཙང་ཚད། / 词根纯度 | བོད་ཡིག་གཙང་མ། / 纯藏文字符 | ✅ 99.9%+ |
| གཞི་རྩ་ཡོངས་རྫོགས། / 数据完整性 | ཚིག་མ་ཆག་པ། / 无缺失词条 | ✅ 100% |
| བསྐྱར་ཟློས། / 重复率 | <1% | ✅ སྒྲིག་ལྡན། / 符合 |
import csv
import json
# ཀློག་པ་CSV རྣམ་གཞག / 读取CSV格式
with open('csv格式化的藏文词典/84000.csv', 'r', encoding='utf-8') as f:
reader = csv.DictReader(f, delimiter='\t')
for row in reader:
print(f"{row['Tibetan']}: {row['Description']}")
# ཀློག་པ་JSON རྣམ་གཞག / 读取JSON格式
with open('Json格式化的藏文词典/84000.json', 'r', encoding='utf-8') as f:
data = json.load(f)
for entry in data:
print(f"{entry['Tibetan']}: {entry['Description']}")
# ཀློག་པ་TXT རྣམ་གཞག / 读取TXT格式
with open('txt格式化的藏文词典/84000.txt', 'r', encoding='utf-8') as f:
for line in f:
tibetan, description = line.strip().split('\t')
print(f"{tibetan}: {description}")
// ཀློག་པ་JSON རྣམ་གཞག / 读取JSON格式
fetch('Json格式化的藏文词典/84000.json')
.then(response => response.json())
.then(data => {
data.forEach(entry => {
console.log(`${entry.Tibetan}: ${entry.Description}`);
});
});
// Node.js ཀློག་པ་CSV རྣམ་གཞག / Node.js读取CSV格式
const fs = require('fs');
const csv = require('csv-parser');
fs.createReadStream('csv格式化的藏文词典/84000.csv')
.pipe(csv({ separator: '\t' }))
.on('data', (row) => {
console.log(`${row.Tibetan}: ${row.Description}`);
});
import pandas as pd
# ཀློག་པ་CSV / 读取CSV
df = pd.read_csv('csv格式化的藏文词典/84000.csv',
sep='\t', encoding='utf-8')
# གཞི་རིམ་རྩིས་ཞིབ། / 基本统计
print(f"ཚིག་གྲངས། / 词条数: {len(df)}")
print(f"སྟར་མིང་། / 列名: {df.columns.tolist()}")
# འཚོལ་བཤེར་བྱེད་ལས། / 查询功能
def search_word(tibetan_word):
result = df[df['Tibetan'] == tibetan_word]
return result['Description'].values[0] if len(result) > 0 else "མ་རྙེད། / 未找到"
# སྤུ་ངོས་བཅོས་སྒྲིག / 批量处理
for idx, row in df.iterrows():
# བཅོས་སྒྲིག་ཚིག་རེ། / 处理每个词条
process_entry(row['Tibetan'], row['Description'])
class TibetanDictionary:
def __init__(self, dict_files):
self.data = {}
for file in dict_files:
self.load_dictionary(file)
def load_dictionary(self, filename):
with open(filename, 'r', encoding='utf-8') as f:
reader = csv.DictReader(f, delimiter='\t')
for row in reader:
tibetan = row['Tibetan']
if tibetan not in self.data:
self.data[tibetan] = []
self.data[tibetan].append({
'source': filename,
'description': row['Description']
})
def search(self, word):
return self.data.get(word, [])
def fuzzy_search(self, pattern):
import re
results = []
for word in self.data.keys():
if re.search(pattern, word):
results.append((word, self.data[word]))
return results
-- SQLite དཔེ་མཚོན། / SQLite示例
CREATE TABLE tibetan_dictionary (
id INTEGER PRIMARY KEY AUTOINCREMENT,
tibetan TEXT NOT NULL,
description TEXT,
source TEXT,
UNIQUE(tibetan, source)
);
CREATE INDEX idx_tibetan ON tibetan_dictionary(tibetan);
CREATE INDEX idx_source ON tibetan_dictionary(source);
import sqlite3
import csv
def import_to_database(csv_file, db_file, source_name):
conn = sqlite3.connect(db_file)
cursor = conn.cursor()
with open(csv_file, 'r', encoding='utf-8') as f:
reader = csv.DictReader(f, delimiter='\t')
for row in reader:
cursor.execute(
'INSERT OR IGNORE INTO tibetan_dictionary (tibetan, description, source) VALUES (?, ?, ?)',
(row['Tibetan'], row['Description'], source_name)
)
conn.commit()
conn.close()
from flask import Flask, jsonify, request
import json
app = Flask(__name__)
# ཚིག་མཛོད་གཞི་རྩ་འཇུག་པ། / 加载词典数据
with open('Json格式化的藏文词典/84000.json', 'r', encoding='utf-8') as f:
dictionary = {entry['Tibetan']: entry['Description'] for entry in json.load(f)}
@app.route('/api/search', methods=['GET'])
def search():
word = request.args.get('word', '')
result = dictionary.get(word)
if result:
return jsonify({'success': True, 'tibetan': word, 'description': result})
else:
return jsonify({'success': False, 'message': 'མ་རྙེད། / 未找到该词条'})
@app.route('/api/list', methods=['GET'])
def list_words():
page = int(request.args.get('page', 1))
per_page = int(request.args.get('per_page', 50))
words = list(dictionary.keys())
start = (page - 1) * per_page
end = start + per_page
return jsonify({
'page': page,
'per_page': per_page,
'total': len(words),
'data': [{'tibetan': w, 'description': dictionary[w]} for w in words[start:end]]
})
if __name__ == '__main__':
app.run(debug=True)
| རྣམ་གྲངས། / 项目 | ཚད་ལྡན། / 规范 |
|---|---|
| ཡི་གེའི་ཕྱོགས་བསྡུས། / 字符集 | Unicode |
| ཀོད་གཟུགས། / 编码方式 | UTF-8 without BOM |
| བོད་ཡིག་ཁྱབ་ཁོངས། / 藏文范围 | U+0F00 - U+0FFF |
| ཐིག་གསར། / 换行符 | LF (\n) འམ། CRLF (\r\n) / 或 |
| ཁྱབ་ཁོངས། / 范围 | གསལ་བཤད། / 说明 |
|---|---|
| U+0F00-U+0F47 | བོད་ཡིག་གསལ་བྱང་། / 藏文字母 |
| U+0F49-U+0F6C | བོད་ཡིག་གསལ་བྱང་། / 藏文字母(续) |
| U+0F71-U+0F97 | དབྱངས་རྟགས། / 元音符号 |
| U+0F99-U+0FBC | གསལ་རྟགས། / 辅音符号 |
| U+0FBE-U+0FCC | ཚེག་ཤད། / 标点符号 |
| U+0FCE-U+0FD4 | ཆེད་གཅོད་རྟགས། / 特殊符号 |
| རྣམ་གཞག / 格式 | ཚད་ཆེ་ཤོས། / 单文件最大 | གྲོས་འདེབས། / 推荐大小 |
|---|---|---|
| CSV | ཚད་མེད། / 无限制 | <100MB |
| JSON | ཚད་མེད། / 无限制 | <200MB |
| TXT | ཚད་མེད། / 无限制 | <100MB |
| ལམ་ལུགས། / 平台 | CSV | JSON | TXT |
|---|---|---|---|
| Windows | ✅ | ✅ | ✅ |
| macOS | ✅ | ✅ | ✅ |
| Linux | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | ✅ |
| Android | ✅ | ✅ | ✅ |
བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ་འདིར་གསལ་སྟོན་ཡོད་པའམ་གནང་བ་ཐོབ་པའི་བོད་ཡིག་ཚིག་མཛོད་ཁུངས་མང་པོ་ཟླ་སྒྲིལ་བྱས་ཡོད། ཚིག་མཛོད་རེ་རེའི་པར་དབང་དེ་དག་གི་རྩོམ་པ་པོ་དང་ཁང་པར་གཏོགས་པ་རེད།
本语料库整合了多个公开或授权的藏文词典数据源。各词典的版权归原作者和机构所有。
ཡིག་ཆ་འདི་སློབ་གཉེར་ཞིབ་འཇུག དམངས་ཁྲོད་མིན་པའི་ཤེས་ཡོན། རིག་གནས་སྲུང་སྐྱོབ་བཅས་ལ་བེད་སྤྱོད་ཆོག
本语料库仅供学术研究、非商业性教育和文化保护使用。
གནང་བའི་བེད་སྤྱོད། / 允许的使用:
- ✅ སློབ་གཉེར་ཞིབ་འཇུག་དང་དཔྱད་རྩོམ། / 学术研究和论文写作
- ✅ དམངས་ཁྲོད་མིན་པའི་ཤེས་ཡོན་ལས་འཆར། / 非商业性教育项目
- ✅ ཁ་ཕྱེ་མཉེན་ཆས་གསར་སྐྲུན། / 开源软件开发
- ✅ རིག་གནས་སྲུང་སྐྱོབ་ལས་འཆར། / 文化保护项目
- ✅ སྒེར་གྱི་སློབ་སྦྱོང་། / 个人学习使用
མི་རུང་བའི་བེད་སྤྱོད། / 禁止的使用:
- ❌ དམངས་ཁྲོད་ཀྱི་ཚིག་མཛོད་ཐོན་རྫས་གསར་སྐྲུན། / 商业性词典产品开发(未经授权)
- ❌ གཞི་རྩ་ཚོང་འབྲེལ། / 数据转售
- ❌ ཁུངས་མ་བཀོད་པའི་བེད་སྤྱོད། / 未注明出处的使用
- ❌ བཅོས་སྒྲིག་རྗེས་དངོས་རྩོམ་ཡིན་པར་བརྗོད་པ། / 修改后声称为原创
སློབ་གཉེར་དཔྱད་གཏམ་རྣམ་གཞག / 学术引用格式:
བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། (藏文词典语料库 / Tibetan Dictionary Corpus) [གཞི་རྩ་ཕྱོགས་བསྡུས། / 数据集]. པར་གཞི་༢.༠.
བསྒྲིགས་ཚར་བའི་དུས་ཚོད། / 整理完成日期: 2026ལོ་༡ཟླ་༢༧ཉིན། / 2026年1月27日.
འཚོལ་བཤེར་ས། / 访问地址: [ཁྱེད་ཀྱི་ས་གནས། / 您的地址]
BibTeX རྣམ་གཞག / BibTeX格式:
@dataset{tibetan_dictionary_corpus_2026,
title = {བོད་ཀྱི་ཚིག་མཛོད་ཡིག་ཆ། (藏文词典语料库 / Tibetan Dictionary Corpus)},
version = {2.0},
year = {2026},
month = {1},
note = {整合23个藏文词典,共计765,967词条 / བོད་ཡིག་ཚིག་མཛོད་༢༣ཟླ་སྒྲིལ། ཚིག་༧༦༥༩༦༧}
}
གལ་ཆེའི་གསར་བཅོས། / 重大更新:རྣམ་གཞག་ཚད་ལྡན། / 格式规范化
བཅོས་སྒྲིག་རྩིས་ཞིབ། / 处理统计:
- གཙང་སེལ་བྱས་པའི་ཐིག་གྲངས། / 清理的行数:858行(移除非藏文字符) / ཐིག་༨༥༨
- རྣམ་གཞག་བཟོས་པའི་ཡིག་ཆ། / 格式化文件:23个词典 / ཚིག་མཛོད་༢༣
- བཟོས་པའི་ཡིག་ཆ། / 生成文件:69个(23×3种格式) / ཡིག་ཆ་༦༩
- གཞི་རྩའི་ཁྱོན། / 数据总量:483 MB
བསྡུར་ཞིབ་མཐོ་རུ་གཏོང་། / 质量提升:
- ཚིག་རྩ་གཙང་ཚད། / 词根纯度:99.9%+
- རྣམ་གཞག་མཐུན་པ། / 格式一致性:100%
- གཞི་རྩ་ཡོངས་རྫོགས། / 数据完整性:100%
བོད་ཡིག་ཚིག་མཛོད་གྲངས་འབེལ་ལ་ཞབས་ཞུ་གནང་བའི་ཚོགས་པ་དང་གང་ཟག་འདི་ལྟར་ལ་ཆེས་ཐུགས་རྗེ་ཆེ། / 特别感谢以下组织和个人为藏文词典数字化做出的贡献:
གསལ་བསྒྲགས་འདི་བོད་ལྗོངས་དཔལ་ཡོན་ཚིག་མཛོད་ཡིག་ཆའི་ལས་འཆར་ཚོགས་པའམ་དཔལ་ཡོན་གསར་གཏོད་སྡེ་ཚན་ནས་བརྩམས་ཤིང་འཛིན་སྐྱོང་བྱེད་བཞིན་ཡོད།
本报告由拜云藏文词典语料库项目组(拜云创新实验室)编写和维护
ད་ལྟ་བཀྲམ་ཡོད་པ་འདི་དག་ནི་མིག་སྔར་ང་ཚོས་བཅོས་སྒྲིག་བགྱིས་པའི་ཚིག་མཛོད་ཐེངས་གྲངས་དང་པོ་ཡིན། ད་དུང་དེང་རབས་ཚན་རིག་དང་རྒྱལ་ནང་པར་སྐྲུན་གྱི་ཚིག་མཛོད་ཉིས་བརྒྱ་ཁ་ལྷག་རིམ་གྱིས་བཀྲམ་རྒྱུ་ཡིན།
此次公开目录是我们的第一期词典格式化采集工程,目前我们还有二百多套电子词典将会逐渐发布