第七百四十二章新方案

類別：都市言情作者：二子從周字數：2062更新時間：24/07/01 04:50:44

    “按照任昉《述異記》陸居曰熊，水居曰能的說法，還可以讓我們聯想到另外一個傳說。”

    “傳說大禹治水，娶塗山氏，在工地豎起一面鼓，讓塗山氏聽到鼓響，就送飯前來。”

    “之後大禹就化作一頭大熊開山，結果有一日工作太投入，飛揚的石頭打到了鼓上，大禹卻沒有注意到。”

    “塗山氏聽到鼓聲送飯過來，發現夫君居然是一頭大熊，受驚過度，化作了石像。”

    “大禹悲痛萬分，對石像說你化作石像可以，把兒子給我留下啊。”

    “說完石像中腹突然打開，一個小孩從石像裏掉了出來，這就是‘啓’這個名字的由來。”

    這一連串的故事和知識，讓對面計算機系的大老們都聽得津津有味，周至這才說道：“這傳說是不是也說明，大禹也繼承了鯀的能力，能夠變化成熊或熊（尼）？”

    “而大禹是不是因爲感受到父親的悽慘命運，最終決定打破禪讓制度，將天下傳給了自己的兒子？”

    “是不是還能算作一個側證，證明大禹治水的傳說，是發生在陶石骨器並用的部落聯盟時代？”

    “所以大家看，熊（尼），（骨系）這兩個生僻字如果真的消失了，是不是就會造成上述華夏文明部分信息資料的缺失？是不是會在將來產生一些無法解答的疑桉？會不會造成我們子孫的困惑？”

    “以前是因爲條件所限，國人受教育程度不高，快速普及文字，掃除文盲是重中之重，所以簡化字的推行勢在必然。gb2312也發揮了巨大的作用。”

    “可如果現在條件明明已經允許了，如果我們已經有機會將所有的文字都採集下來，記錄下來，可我們還是無動於衷，讓這些文字就這樣消失在歷史的長河裏，而不將之留給子孫，會不會是一種將來的遺憾？”

    “如果我們的子孫，因爲我們的原因，今後不再知道熊（尼），（骨系）這兩個字以及這兩個字上說承載的歷史文化信息的話，那我們該不該算是……民族的罪人？！”

    “信息技術最早出來之前，曾經有西方人認爲，漢字必將因爲計算機技術的誕生而消亡。”

    “經過我們的努力之後，有了gb2312漢字編碼，向那些人證明了他們之前就是純粹的胡說八道。”

    “而我認爲，正是因爲信息技術的發展，解決了漢字書寫記憶困難的問題，漢字的推廣應用，甚至完全可能產生革新性的變化。”

    “gb2312，證明了我們能行，gb 13000，證明了我們能夠做得更好，那麼我們爲什麼不趁熱打鐵，乾脆就一次性給它做到極致？”

    “做到極致是什麼意思？”李紅江再不敢輕視眼前這小孩了，他是真不知道漢字中承載的這些東西，或者說壓根沒有重視。

    這也是如今中國學界普遍的一種想象，瘋狂追趕階段，哪裏還敢追求完美？現階段夠用，解決當前問題，就已經是絕大多數理工科學者的最高目標了。

    “做到極致的意思，就是新的字庫編碼，要做到歷史全兼容，當前全收集，未來可拓展。”周至倒是一點不憷：“歷史全兼容的意思，就是新的字庫，可以完全兼容gb2312和gb13000編碼。已經用這兩種編碼錄入的文字信息，用新的編碼同樣能夠完整地讀出來。”

    “當前全收集，則指當前我們已知的漢字符號，包括大陸簡化字，寶島、港澳、新島的繁體字，還有島國，朝韓所用的一些漢字符號，全部採納到新編碼體系中來。”

    “未來可拓展的意思，就是要給字庫留夠充足的冗餘編碼空間，給將來採集更多的文字符號做好準備。”周至侃侃而談：“剛剛旦增大師已經說了，我國是多民族的國家，很多民族都有自己的文字，這些文字，同樣是我們華夏一族大家庭的瑰寶。”

    “因此我們要留足這個字庫的拓展空間，以備將來時機成熟後，將這些少數民族的文字也收納進來。”

    “這就是我的設想，關於華夏標準大字庫的設想。”

    “呃……周至同學。”李紅江倒也是光棍：“我給你道個歉，也給辜老和旦增大師道個歉，之前自己的確沒有意識到這個問題的重要性。”

    “但是我之前已經說了，gb 13000是根據iso/iec 1064來設計的，通用多八位編碼字符集的碼位就只有兩萬多個，就好像一個養殖場，雞籠子就這麼多，實在是裝不下你們說的這麼多雞啊？”

    “所以說這個多八位編碼字符集是有問題的呀，不適合中國的需要呀，那我們爲什麼還要湊合着用呢？”周至反問道。

    “要是不用這個，那又用哪個呢？”李紅江倒是不覺得周至是在無理取鬧，能夠提出問題來不是本事兒，關鍵是問題提出來之後，你還得能夠解決問題才算。

    “爲什麼不用unicode呢？”

    “unicode？”李紅江想了一下：“unicode八字還沒一撇吧？國際標準都還沒有出來，我們哪來的參照？”

    unicode的漢語翻譯，叫做統一碼，也叫萬國碼、單一碼，是由統一碼聯盟開發的一項計算機科學領域裏的業界標準，主要就包括字符集和編碼方案。

    統一碼是爲了解決傳統的字符編碼方案的侷限而產生的，它爲每種語言中的每個字符，設定了統一並且唯一的二進制編碼，以滿足跨語言、跨平臺進行文本轉換、處理的要求。

    統一碼設計之初的目的，就是爲了打造一個能夠容納世界上所有文字和符號的字符編碼方案。

    其設計思路，就是用數字0-0x10ffff來映射所有字符，最多可以容納1114112個字符，或者說有1114112個碼位。

    後世大家所熟悉的utf-8、utf-16、utf-32，其實都是將數字轉換到程序數據的編碼方案。

    當然這些碼位也不是隨便亂用的，而是規定了區間，比如上一世給漢字使用的區間，就是3400-4dbf，4e00-9fff，20000-3ffff三段，稱作：中日韓越統一表意文字區間。

    這就有一百多萬個碼位，裝下所有漢字綽綽有餘。

    因爲不存在上限，utf理論上還可以繼續擴展。

    當然從上一世的經驗來看，也完全沒有這個必要，足夠用了。

第七百四十二章新方案

手機閱讀

設置

第七百四十二章 新方案

手機閱讀

設置

第七百四十二章新方案