403
1
きまぐれ日記: ajax IME パワーアップ
http://chasen.org/~taku/blog/archives/2006/07/ajax_ime_5.html 本文へ
- みんなのタグ:
(本文から引用)
きまぐれ日記« やっぱり SWIG が好き |メイン| Schwartzian Transform でランダムシャッフル »2006年07月31日ajax IME パワーアップSumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。
まず、CRF ベースの分かち書きツール(BIOモデル)を使い、周辺確率の高い単語候補を全日本語 wikipedia から収集。期待頻度が 0.9以下のものは無視し、あと雑多なフィルタリングの後、約 28万の単語候補を抽出。周辺確率から HMM のユニグラム確率を計算して (単純に negative log * 400) 辞書に登録。品詞の推定は現状では難しいので、すべての単語は「名詞、サ変」だと仮定しています。
単語(未知語)抽出は、それなりにうまくいっているようです。カタカナ語はほぼ網羅的に収集できました。「電車男」のような漢字だけの語もそれなりに取れています。
現在の Ajax ...
この記事をクリップしたユーザー一覧
-
bookeyさん 2006/07/31 13:37
Sumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。
→ 語彙が増えた
みんなのおすすめ商品(Amazon.co.jp)
|
|
|
|
|---|---|---|---|
彩雲国物語 暗き黄昏の宮 (角川ビーンズ文庫)8人がクリックしました
著者:雪乃 紗衣 |
ああっ女神さまっ 40 (アフタヌーンKC)26人がクリックしました
著者:藤島 康介 |
のだめカンタービレ #23 (講談社コミックスキス)45人がクリックしました
著者:二ノ宮 知子 |
他にもこんなクリップがオススメ
-
知っておいて損はないAJAXやCSSを駆使したタブインターフェース18種類 - GIGAZINE 本文へ
タブのインターフェース集 -
Ajaxを勉強しよう 本文へ
お勉強~ -
A library of nice looking DHTML(dynamic HTML) scripts - DHTMLgoodies.com 本文へ
DHTML,Ajaxならココ。



