1.13.2009

機率輸入法

這個點子很久以前就有了,不知道為什麼每次都在打下來之前忘掉。

注音類輸入法最大的問題就是同音異型字的區辨,大部分的輸入法使用大量內建詞組來緩和這個問題,例如新注音和新酷音。自然輸入法是我所知唯一使用語法規則來加強篩選的輸入法,它內建了幾百條規則,用來區分哪些動詞後面要接哪些介係詞…之類的(我後來才知道它們是kiki寫的,嚇了一跳)。因為免費的新酷音還不至於太困擾我,所以我一直沒用過自然輸入法,不知道它的效果如何。

我想到一個輸入法的點子︰用網路裡成千上萬的文章段落做母體,藉由比對母體裡的資料來決定要選哪個字。機率上這完全合理,因為在特定句子或詞組裡某一個位置出現機率最高的字,就最有可能是你想要打的字。而那些有特殊需求的人也可以在網路上下載特定社群專用的母體︰

  1. 又白又宅
    宅男專用,源源不絕新屬性
    (母體組成︰鋼彈經典對白5000、神奇寶貝大百科、糟糕島、日本動漫50年、偽基百科
  2. 新聞挖挖挖
    記者專用,隨便打字就能掌握第一手資訊!
    (母體組成︰推特、噗浪、ptt八卦、ptt黑特)
  3. 教育部安全網
    教育官專用,讓您不再說錯話
    (母體組成︰成語字典)
  4. 後現代工廠
    學者救星,用手指頭拯救人類於操弄!
    (母體組成︰900個你看了也不懂的哲學詞兒、社會陰謀論、佛洛伊德
  5. 分析哲學
    ㄋㄚㄋㄚ——本母體尚在建構中,目前資料︰3筆

這個輸入法可能也必須內建基本的語法,因為完全不篩選的完整比對太耗費資源。可以想像的是,內建語法越周延,需要比對的資料量越少,然而完全依賴內建語法的輸入法有1.語法不會完全周延和2.無法掌握流行用詞的缺點,而這可以依賴定期更新母體來解決。

這樣的輸入法成效取決於篩選和比對的方法和電腦效能,我對資訊業不瞭解,不過我猜目前還沒有足夠資源做這種事。

這種輸入法普及之後的一個有趣結果就是,網路新流行語的傳播會變得更快,除了眼手相傳之外,只要一個新語法夠普及,它就有很大的機率在使用者打出特定句型的句子時出現。

6 comments:

  1. 這個概念已經有人做出來了,但是他基礎(yahoo搜尋引擎)太差,也許哪天google會配合強大的搜尋引擎來個一套。

    http://tw.download.yahoo.com/keykey/

    ReplyDelete
  2. 喔喔喔

    這是我畢業專題的概念,沒想到在這裡居然有人提出跟我類似的東西

    ReplyDelete
  3. Nick︰

    嘿嘿,我倒沒想到會出現這方面的專業人士。你的畢業專題是製作到哪個階段?

    ReplyDelete
  4. 我現在還在做要如何將網路上蒐集到的資料,加以篩選。最後要放入新酷音的詞庫中。我的指導教授是作搜尋引擎的。

    至於google輸入法,很久以前就有了,不過只支援漢語拼音

    ReplyDelete
  5. Nick︰

    所以你在做的是使用網路篩選為新酷音補充詞庫囉?

    不打算做那種在使用者打字的時候才即時篩選的系統嗎?

    ReplyDelete