小麥注音詞條資料主要來源

  1. libtabe (BSD Licensed)
  2. mjhsieh's editorial contribution.
  3. Contribution from the openvanilla developers.

小麥注音詞頻資料來源

我們將於本章節列出我們計算詞頻的語料來源,首先我們必須採取以下個資保護措施。第一,所有文字都經過篩選,最後計算用資料只留下中文字。其次是所有與個人有關的文字都經過以行文字為單位的隨機排序。這都是必要的措施。

附註: 本輸入程式之詞頻資料來自對我們手上收集的語料的統計。為了保護個人資訊以及智慧財產權,我們不公開語料原始資料。本程式的詞頻資料則將以學術研究成果的形式在 MIT License 之下釋出。

政府出資之公開出版品

  1. 立法院公報 (隨機選取)
  2. 台大圖書館藏政府出版電子檔案(隨機選取)
  3. 中研院提供之 Second International Chinese Word Segmentation Bakeoff 競賽資料。

新聞語料 (文章數目不等)

  1. 公視新聞 2001 十二月到 2003 三月新聞逐字稿
  2. 2011 年以後各大新聞網站文字新聞中的內容以及標題(隨機選取)

近代文學

  1. 徐志摩, "徐志摩全集"
  2. 格林童話
  3. 鍾理和, "原鄉人"

古典文學

  1. 詩經
  2. 三字經
  3. 朱自清, "經典常談"

個人創作

  1. mjhsieh IRC 對話紀錄
  2. mjhsieh blog 文字
  3. lukhnos blog 文字
  4. zonble blog 文字
  5. 24 個任意選取的 CC 授權 blogs 文字
  6. ptt 熱門看板 RSS 數天份