402
1
きまぐれ日記: ajax IME パワーアップ
http://chasen.org/~taku/blog/archives/2006/07/ajax_ime_5.html 本文へ
- みんなのタグ:
(本文から引用)
きまぐれ日記« やっぱり SWIG が好き |メイン| Schwartzian Transform でランダムシャッフル »2006年07月31日ajax IME パワーアップSumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。
まず、CRF ベースの分かち書きツール(BIOモデル)を使い、周辺確率の高い単語候補を全日本語 wikipedia から収集。期待頻度が 0.9以下のものは無視し、あと雑多なフィルタリングの後、約 28万の単語候補を抽出。周辺確率から HMM のユニグラム確率を計算して (単純に negative log * 400) 辞書に登録。品詞の推定は現状では難しいので、すべての単語は「名詞、サ変」だと仮定しています。
単語(未知語)抽出は、それなりにうまくいっているようです。カタカナ語はほぼ網羅的に収集できました。「電車男」のような漢字だけの語もそれなりに取れています。
現在の Ajax ...
この記事をクリップしたユーザー一覧
-
bookeyさん 2006/07/31 13:37
Sumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。
→ 語彙が増えた
みんなのおすすめ商品(Amazon.co.jp)
|
|
|
|
|---|---|---|---|
とある科学の超電磁砲 4―とある魔術の禁書目録外伝 (電撃コミックス)38人がクリックしました
著者:鎌池 和馬 |
きのう何食べた? 3 (モーニングKC)27人がクリックしました
著者:よしなが ふみ |
ブラック・ラグーン 9 (サンデーGXコミックス)71人がクリックしました
著者:広江 礼威 |
他にもこんなクリップがオススメ
-
A library of nice looking DHTML(dynamic HTML) scripts - DHTMLgoodies.com 本文へ
DHTML,Ajaxならココ。 -
GIGAZINE - ドラッグ&ドロップできるAJAXフォルダツリー 本文へ
ブラウザ経由でフォルダを操作する -
Ajaxを勉強しよう 本文へ
お勉強~
同じサイトでクリップされている記事
-
Ajax IME: Ajax を使った 日本語 IME 本文へ -
Ajax IME: Web-based Japanese Input Method 本文へ
これはもう必須でしょう。
リンクリストに登録しておかなきゃ。
便利すぎます。



