二子從周 作品
第一千零八十九章 求助(第3頁)
“主要是大家和我的分歧。”周至攤開手:“我的意思是磨刀不誤砍柴工,等到第三期字庫推出以後,漢字轉碼入庫十萬以上,自定義漢字申報入庫工作流程和相關規定,軟件都弄好,再進行數字化圖書館項目不晚。”
“那你覺得三期字庫的推出還有多久?”啟老爺子追問道。
“其實現在阻礙並不在技術上,一期的開發工作涵蓋了全部取字、編碼、入庫工作流程,我們開發了很多的工具軟件來提高效率,形成了自動掃描識別技術,自動檢字分類技術,自動轉矢量技術等一系列基於大字庫基礎上的專利技術大包。”
“現在的問題反而在採字上,二期字庫最少必須要突破六萬六千字,用完一個平面,才能為三期字庫的驗證工作做完前瞻性研究。”
在場所有人都面面相覷,完全聽不懂。
不過老一代學問人最大的優點就是不懂就問:“為什麼要突破六萬六千字呢?”
“是這樣的,uniCode的編碼規則,就是給各種字碼編出些‘平面’,這些平面,大家可以理解成印刷廠放鉛碼的鉛碼盤。”
“不過uniCode這個盤子就比印刷廠的大多了,一個平面就有65536個碼位,理論上可以存放六萬五千多個漢字。”
“在一個平面上編碼存碼的工作,我們在一期就已經完成了,現在要驗證轉化的,是跨平面編碼解碼的技術。因為三期字庫投產後,瀚文大字庫是鐵定跨平面的,因此我們想在二期就突破過去,提前完成可行性方案驗證和相關的技術儲備。”
“現在《康熙字典》也就四萬多字,第一版的《漢語大字典》也才五萬六千多字,都達不到打破uniCode一個平面的要求。”
“所以此次來京,還要拜會兩位叔伯老師兄,尋求他們的幫助。”
“誰?”啟老笑道:“說不定我們也能夠幫得上忙。”最近轉碼嚴重,讓我們更有動力,更新更快,麻煩你動動小手退出閱讀模式。謝謝