Playon Creative Lab Logo

དཔལ་ཡོན་གསར་གཏོད་སྡེ་ཚན་Pythonཅ་ལག་ཀུན་འདུས། དང་པོ། Playon Creative Lab Python Toolkit 1.0

ཚབ་སྒྱུར། 编码转换

རྒྱལ་སྤྱིའི་ཚད་ལྡན་ཚབ་སྒྱུར་ལས་རིམ། convert_UTF_encode.py

ཡིག་ཆའི་ཚབ་བྱང་གྲུབ་ཚུལ་ཕལ་ཆེར་གཞི་ནས་སྒྱུར་བ། UTF-8, UTF-16, UTF-8-SIG སོགས་ལ་རྒྱབ་སྐྱོར་ཐུབ། 批量转换文件编码格式,支持UTF-8、UTF-16、UTF-8-SIG等多种编码格式的相互转换。

རྩ་བའི་རིགས་འབྱེད། 元数据

གཞི་གྲངས་གསར་སྐྲུན་ལས་རིམ། create_meta.py

CSV ཡིག་ཆ་ནས་ YAML གྲུབ་ཚུལ་གྱི་གཞི་གྲངས་ཡིག་ཆ་གསར་སྐྲུན། དེབ་མིང་དང་རྩོམ་པ་པོ། པར་སྐྲུན་ཁང་སོགས་ཀྱི་ཆ་འཕྲིན་འདུས་ཡོད། 从CSV文件创建YAML格式的元数据文件,包含书籍标题、作者、出版商等信息。

ཡིག་འཛིན་ལས་རིམ OCR处理

བོད་ཡིག་ཡིག་འཛིན་ཡིག་རྐྱང་གསར་སྐྲུན། create_text_from_OCR.py

OCR ངོས་འཛིན་འབྲས་བུ་ནས་ཡིག་རྐྱང་ཡིག་ཆ་གསར་སྐྲུན། GitHub མཛོད་ཁང་གསར་སྐྲུན་དང་ཡིག་རྐྱང་གསར་སྒྱུར་ལ་རྒྱབ་སྐྱོར་ཡོད། 从OCR识别结果创建文本文件,支持GitHub仓库创建和文本更新功能。

ཡིག་ཚང་ཕྱོགས་བསྡུ། 数据整合

གཞི་གྲངས་མཉམ་སྡུད་ལས་རིམ། get_consolodated_data.py

JSON ཡིག་ཆ་མང་པོའི་ནང་གི་བོད་ཚིག་ཐ་དད་རྣམས་མཉམ་དུ་སྒྲིལ་ནས་ཐ་སྙད་ཀྱི་རེའུ་མིག་གཅིག་པུར་བསྒྱུར། 合并多个JSON文件中的唯一藏文词汇,生成统一的词汇表。

ཡིག་རྐྱང་འདོན་ལེན། 文本提取

ཡིག་རྐྱང་འདོན་ལེན་ལས་རིམ། get_text.py

Google Vision OCR འབྲས་བུ་ནས་ཡིག་རྐྱང་ནང་དོན་འདོན་ལེན། མཐའ་གྲམ་སྒྲོམ་སྒྲིག་སྦྱོར་དང་ཡིག་རྐྱང་སྒྲིག་རིམ་ལ་རྒྱབ་སྐྱོར་ཡོད། 从Google Vision OCR结果中提取文本内容,支持边界框处理和文本排序。

གཞི་གྲངས་དཔྱད་གཞི། 数据解析

སྐད་རིགས་ལག་ཆ་དབྱེ་སེལ། linguatool_parser.py

Linguatools གཞི་གྲངས་དབྱེ་སེལ། JSON ཡིག་ཆ་ནས་བོད་ཚིག་འདོན་ལེན་དང་ཉར་ཚགས། 解析Linguatools数据,从JSON文件中提取藏文词汇并保存。

ཡིག་འཛིན། OCR识别

དཔེ་ཆའི་ཡིག་ཚོགས་ངོས་འཛིན། OCR_books.py

Google Vision API བེད་སྤྱད་ནས་དཔེ་ཆའི་པར་རིས་ལ་འོ་སི་ཨར་ངོས་འཛིན། PDF, TIFF, JPEG སོགས་གྲུབ་ཚུལ་མང་པོར་རྒྱབ་སྐྱོར་ཡོད། 使用Google Vision API对书籍图像进行OCR识别,支持PDF、TIFF、JPEG等多种格式。

ཐ་སྙད་འདོན་ལེན 词干提取

མིང་ཚིག་རྩ་འདོན་ལས་རིམ། stemmer.py

བོད་ཡིག་ཚིག་གཟུགས་སླར་གསོ་ལག་ཆ། དྲང་གཏན་འབྲེལ་སྦྱོར་བེད་སྤྱད་ནས་ཚིག་རྩ་འདོན་ལེན་དང་ཚིག་གཟུགས་ཚད་ལྡན་དུ་སྒྲིག་སྦྱོར། 藏文词形还原工具,通过正则表达式进行词干提取和词形规范化处理。

ཡིག་རྐྱང་སྒྲིག་བཅོས། 文本处理

ཡིག་རྐྱང་སྒྲིག་བཅོས་ལས་རིམ། TshegRegex.py

བོད་ཡིག་གི་ཡི་གེའི་དབར་གྱི་ཚེག་(Tsheg)སྒྲིག་སྦྱོར། བོད་ཡིག་ཡིག་རྐྱང་གི་གྲུབ་ཚུལ་ཚད་ལྡན་དུ་བསྒྱུར། 处理藏文音节分隔符(Tsheg),规范化藏文文本格式。

TSVདཔྱད་ཞིབ། TSV解析

ཚེག་ཁྱིམ་དབྱེ་ཞིབ་ལས་རིམ། tsikchen_parser.py

TSV ཡིག་ཆ་ནས་ཚིག་མཛོད་ཀྱི་གཞི་གྲངས་འདོན་ལེན། JSON གྲུབ་ཚུལ་དུ་ཕྱིར་འདོན། 从TSV文件中提取Tsikchen词典数据,导出为JSON格式。

ལག་ཆ་ཕྱོགས་བསྡུས། 工具函数

སྤྱི་ཁྱབ་ལག་ཆའི་མཛོད་ཁང་། utils.py

སྤྱི་ཁྱབ་ལག་ཆ་ཕྱོགས་ཁང་། JSON ཡིག་ཆའི་ཀློག་འབྲི་སོགས་གཞི་རྩའི་ནུས་པ་མཁོ་སྤྲོད། 通用工具函数库,提供JSON文件读写等基础功能。

རྣམ་གཞག་བརྗེ་བསྒྱུར། 格式转换

དྲང་འཕྱང་ཡིག་ཆ་གསར་སྐྲུན། Vertical_File_Creator.py

དྲང་འཕྱང་སྒྲིག་བཀོད་ཡིག་ཆ་གསར་སྐྲུན། བོད་ཡིག་ཡིག་རྐྱང་དྲང་འཕྱང་བརྗོད་སྟངས་སུ་སྒྱུར། 创建垂直排版文件,将藏文文本转换为垂直显示格式。