資料庫特點 Characteristics


《瀚堂典藏》採用四位元組編碼技術,以小學工具類資料和出土文獻類資料為核心,逐步納入大量傳世文獻,並以此為基礎,建設各種專題文獻。 小學工具類資料由於高達5%的生僻字頻率,歷來是各種古籍數位元化工作不得不有意繞開的“雷區”。《瀚堂典藏》的小學工具類資料涵蓋大部分重要小學類典籍和類書類書籍,並以囊括所有小學書籍和大型類書為己任。該部分資料是國學研究的基礎性工具資料。 《瀚堂典藏》的出土文獻類資料涵蓋大量甲骨文、金文、簡帛文、印章、石刻等出土文獻資料。提供拓片、釋文等內容。該部分資料將是史學各領域研究的基礎性資料。


採用B/S模式的“瀚堂典藏”,無需下載任何用戶端,即可在通用流覽器上 進行閱讀和編輯。由於該資料庫採用四位元組編碼技術,徹底解決這些四位元組漢字在電腦平臺上的錄入、 顯示、編輯、檢索、查詢和管理。全庫無造字,所有文字可以自如的在MS-office上進行複製、粘貼和通過互聯網進行廣泛發佈。


相對於目前基於二位元組字元系統的(即UCS-2)的互聯網全文檢索,《瀚堂典藏》是全球第一個支援四位元組字元(即UCS-4)、基於互聯網的自然語言海量文本全文超高速檢索系統。 該引擎可以從海量的含有UCS-4字元的文本中在毫秒量級內進行資訊抽取。

The characteristics of Hytung Ancient Book Database

Patent technological innovations. The patent pool includes one UTF-16 search kernel, several UTF-16 web application software technologies, and an array of data entry and editing tools for handling the huge UTF-16 character set.

Quality control system. A desk database processing system is established with all the materials as a great tool for ancient book critical editing. More over, several works are selected to be printed as books, such as Shuo Wen Jie Zi《說文解字》and Kangxi Dictionary《康熙字典》. The error ratio of the books is controlled within 0.05‰ to 0.1‰.

A universal platform for human knowledge. Because most characters in the UTF-16 character set are Chinese characters, the database should be a foundation to build the a knowledge database on a universal platform.