第一千一百零三章 時來天地同運力

類別:都市言情 作者:二子從周字數:2157更新時間:24/07/01 04:50:44
    “不過對於構建信息化字庫來說,讓程序識別字根,會讓我們的效率得到巨大的提高。”

    “原來如此。”冷玉龍點頭:“那我們再說回《字海》。”

    “漢字有新舊字形之別,因此我們在《字海》,字頭還是採用新字形;而在《印刷通用漢字字形表》以外的字頭,則依該表原則作了整理;”

    “那就是相當於製作了一部新的,概括範圍更大的《印刷通用漢字字形表》?”周至問道。

    “是的。”韋一心點頭:“不過你們的字根法更加科學,不必用回來。”

    冷玉龍也點頭表示認可:“《字海》裏的繁體字字頭後,也附有相應的簡化字,簡化字範圍限於《簡化字總表》之內。”

    “《字海》注音用漢語拼音字母,並在其後加註直音,直音以現代讀音爲據;”

    “多音字讀音按常見音項在前,非常見音項在後的順序排列,無法判斷常見或非常見的字音則按引例時代先後排序。”韋一心補充道:“有異讀的字,則按普通話語音審定委員會審定音來標註。而方言字,則依方言與普通話讀音對應規律或實際讀音來注音。”

    “差不多就這些了吧?”冷玉龍問道:“辭書的釋義部分和字碼沒什麼關係了,還用講嗎?”

    “講,我也學習學習。”周至聽得美滋滋的,這還是他第一次曉得如何編纂一本《字典》,尤其是釋義部分,和字庫編纂沒有什麼關係,因此興趣更加的濃厚。

    冷玉龍對周至的好學精神很滿意,笑道:“釋義的話,我們先解本意,次引申義。”

    “對於異體字、簡化字、二簡字、錯訛字,不單獨釋義,也不注音,但云‘同‘某’’,‘‘某’的簡化字’,‘曾作‘某’的簡化字’,後停用’,‘‘某’的訛字’等,同時,還要以‘見’或‘字見’的方式,指明其出處。”

    “字以楷書隸書作成字卡,共收漢語單字85568個。主要收字依據一共有十一個來源。”韋一心如數家珍:

    “一是歷代辭書,如《說文》、《玉篇》、《廣韻》、《集韻》、《康熙字典》等書中收錄的漢字。”

    “二是歷代辭書未收而見於文獻典籍的漢字。”

    “三是國家語言文字工作委員會頒佈的《簡化字總表》中的全部簡化字。”

    “四是甲骨文、金文和竹簡、帛書中學術界比較公認的隸定字。”

    “五是歷代碑刻中的異體字。當然了,訛字除單體字外,我們一般不收。”

    “六是地方文獻和方言辭典中的方言字。”

    “七是近現代出現的科技新字。”

    “八是當今還在使用的人名和地名用字。”

    “九是當今出版物中出現的超出《簡化字總表》範圍之外的類推簡化字。”

    “十是七七年中國文字改革委員會公佈的那一版《第二次漢字簡化方案草案》中的漢字。”

    “最後就是流行於港、澳、臺地區的漢字。在日本、韓國、新加坡等國使用的漢字,本書也酌量收錄。”

    冷玉龍補充道:“此外,爲了充分反映漢字的實際情況,《中華字海》還酌量收錄了歷代文獻中的新舊筆形與訛字。”

    “這一部分的收字標準,我們採用‘單體字從寬,合體字從嚴’的規則。一般單體儘量收錄,合體字儘量不錄。”

    “還有最後一部分工作,就是整理過程中的清理。”韋一心說道:“《中華字海》在前任字書未及的異體字與錯訛字方面,進行了一些清理與合併工作。在釋義當中,儘量將諸多典籍中的釋義和釋疑儘量找齊,合併到一個字的釋義之下。”

    “如(木舟)字,《漢語大字典·補遺·木部》:‘(木舟),樹名。’《太平御覽》卷七百七十引周處《風土記》:預章(木舟)諸木,皆以多曲理盤結爲堅勁也。’但是並未注音。”

    “而《字海》綜合《漢語大字典》出版後的一些考釋成果釋爲:“(木舟),同‘楠’。見《龍龕》。”

    “類似這樣的後補考證成果,我們也將之補充進《字海》的(木舟)字釋義之下。”

    “加上我們自己未能考訂確實的《補遺》部分,《字海》其實一共收錄了87019個漢字。”

    “太了不起了。”周至不禁感慨:“這可不是把我們要幹的活都幹了啊?”

    “要點臉。”辜開來不禁翻起了白眼:“什麼叫你要幹的活?”

    “兩位師兄的搜字範圍,幾乎已經囊括了我們所能想象的全部啊。”周至樂得都不行了:“還是用楷體建卡,我估計自動程序掃描識別的問題應該不大。”

    “那就走吧,先去庫房看看。”冷玉龍比周至還急:“要是合用那就撿大便宜了,咱們可以把《字海》的出版工作儘快提上日程!”

    “嗯,等到確定了可行性,我們就去找李國傑教授打擂臺!”

    “李國傑教授?”韋一心搜索了一下自己認識的文字學大擘,似乎沒有這麼個人,轉頭問冷玉龍:“冷泉你聽過這人嗎?”

    見韋一心誤會,周至方纔笑道:“李國傑教授是曙光超算中心負責人,之前我們想要一點運算資源,國傑教授那叫一個摳門啊……這次我們找上門去,堵着他打擂臺!”

    北大中文系幾間資料室裏,冷玉龍和韋一心八年多的心血,靜靜地躺在這裏。

    整個資料室分作了兩百多個部分,按照《中華字海》的字頭索引方式,分門別類地歸納在文件櫃裏。

    每一個櫃子裏都有幾個紙箱,箱子裏是一個個的文件袋,裏邊一沓一沓的都是硬紙卡片。

    對於翻習慣了字典的人來說,每一張卡片,其實就是字典上關於一個文字的本字及註解區域。

    卡片左上角是一個標準的大田字格,文字端正的楷書就寫在那裏,接着是拼音注音,釋義,摘引文獻等等“凡例類目”。

    將幾間大屋子的所有資料一頁頁鋪起來,影印縮小,就是一部《中華字海》。

    或者說,將未來的一部《中華字海》放大,裁剪開,就是這幾大屋的資料。

    “應該沒問題。”周至看着一絲不苟的字卡,不由得大感佩服:“這連標點的大小和寫法,都有規範,每個逗號都幾乎一模一樣啊……”

    “這是門裏的老傳統了,逗號需要按照‘日’字格分作上下兩個部分,上部爲圓形,圓周與‘日’字格邊框相切,斜弧線那一筆要頭粗尾細,頭部從圓與日字格右切點開始,寬度佔圓周八分之一,然後收細畫弧,筆尖到日字格左下結束。”韋一心笑道:“當然是有規矩的。”

    “時來天地同運力。”周至都樂壞了:“確認了,一個老師教出來的!瀚文字庫逗號的矢量化規則也是這樣!”