本文へジャンプします。



こんにちは、ゲストさん



現在位置: トップ > きまぐれ日記: ajax IME パワーアップ


閲覧数402 クリップ数1

きまぐれ日記: ajax IME パワーアップ クリップする

http://chasen.org/~taku/blog/archives/2006/07/ajax_ime_5.html 本文へ

みんなのタグ:

(本文から引用)

きまぐれ日記« やっぱり SWIG が好き |メイン| Schwartzian Transform でランダムシャッフル »2006年07月31日ajax IME パワーアップSumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。

まず、CRF ベースの分かち書きツール(BIOモデル)を使い、周辺確率の高い単語候補を全日本語 wikipedia から収集。期待頻度が 0.9以下のものは無視し、あと雑多なフィルタリングの後、約 28万の単語候補を抽出。周辺確率から HMM のユニグラム確率を計算して (単純に negative log * 400) 辞書に登録。品詞の推定は現状では難しいので、すべての単語は「名詞、サ変」だと仮定しています。

単語(未知語)抽出は、それなりにうまくいっているようです。カタカナ語はほぼ網羅的に収集できました。「電車男」のような漢字だけの語もそれなりに取れています。

現在の Ajax ...

続きを読む

この記事をクリップする

この記事をクリップしたユーザー一覧

  • bookeyさん 2006/07/31 13:37

    タグ:

    コメントSumibiが wikipedia を使ってモデル/辞書を更新してるようなので、負けじと Ajax IME でも Wikipedia から自動単語抽出し、辞書にドカッっと単語登録してみました。
    → 語彙が増えた


みんなのおすすめ商品(Amazon.co.jp)

  あなたもアフィリエイトを始めませんか?    

とある科学の超電磁砲 4―とある魔術の禁書目録外伝 (電撃コミックス) きのう何食べた? 3 (モーニングKC) ブラック・ラグーン 9 (サンデーGXコミックス)  

とある科学の超電磁砲 4―とある魔術の禁書目録外伝 (電撃コミックス)

38人がクリックしました

著者:鎌池 和馬
出版社: M.Co.(角川グループパブリッシング)

きのう何食べた? 3 (モーニングKC)

27人がクリックしました

著者:よしなが ふみ
出版社: 講談社

ブラック・ラグーン 9 (サンデーGXコミックス)

71人がクリックしました

著者:広江 礼威
出版社: 小学館

 


他にもこんなクリップがオススメ

  1. 閲覧数823 クリップ数6

    A library of nice looking DHTML(dynamic HTML) scripts - DHTMLgoodies.com 本文へ

    コメントDHTML,Ajaxならココ。

  2. 閲覧数785 クリップ数5

    GIGAZINE - ドラッグ&ドロップできるAJAXフォルダツリー 本文へ

    コメントブラウザ経由でフォルダを操作する

  3. 閲覧数800 クリップ数19

    Ajaxを勉強しよう 本文へ

    コメントお勉強~


同じサイトでクリップされている記事

  1. 閲覧数188 クリップ数1

    Ajax IME: Ajax を使った 日本語 IME 本文へ

  2. 閲覧数418 クリップ数4

    Ajax IME: Web-based Japanese Input Method 本文へ

    コメントこれはもう必須でしょう。
    リンクリストに登録しておかなきゃ。
    便利すぎます。







携帯でアクセス

携帯アクセスバーコード
携帯で左のバーコードを読み取るか
URLを携帯に送信してください。

Powered by モバクシー




推奨画面サイズ
1024×768 以上

クリップBETAトップへ戻る