小麥注音詞條資料主要來源
- libtabe (BSD Licensed)
- mjhsieh's editorial contribution.
- Contribution from the openvanilla developers.
小麥注音詞頻資料來源
我們將於本章節列出我們計算詞頻的語料來源,首先我們必須採取以下個資保護措施。第一,所有文字都經過篩選,最後計算用資料只留下中文字。其次是所有與個人有關的文字都經過以行文字為單位的隨機排序。這都是必要的措施。
附註: 本輸入程式之詞頻資料來自對我們手上收集的語料的統計。為了保護個人資訊以及智慧財產權,我們不公開語料原始資料。本程式的詞頻資料則將以學術研究成果的形式在 MIT License 之下釋出。
政府出資之公開出版品
- 立法院公報 (隨機選取)
- 台大圖書館藏政府出版電子檔案(隨機選取)
- 中研院提供之 Second International Chinese Word Segmentation Bakeoff 競賽資料。
新聞語料 (文章數目不等)
- 公視新聞 2001 十二月到 2003 三月新聞逐字稿
- 2011 年以後各大新聞網站文字新聞中的內容以及標題(隨機選取)
近代文學
- 徐志摩, "徐志摩全集"
- 格林童話
- 鍾理和, "原鄉人"
古典文學
- 詩經
- 三字經
- 朱自清, "經典常談"
個人創作
- mjhsieh IRC 對話紀錄
- mjhsieh blog 文字
- lukhnos blog 文字
- zonble blog 文字
- 24 個任意選取的 CC 授權 blogs 文字
- ptt 熱門看板 RSS 數天份