478
2
秋元@サイボウズラボ・プログラマー・ブログ: GoogleがHTMLフォームの送信先もインデックスすると発表
http://labs.cybozu.co.jp/blog/akky/archives/2008/04/google-goes-to-dee... 本文へ
(本文から引用)
張られているリンクをより多く見つける目的で、GooglebotにHTML Formを送信させて出てきたページもクロールさせる、という発表があった。
JavascriptやFlashの中から他ページへのリンクを抽出するというのは既に実施していて、今回はそれをページ上の入力フォームにも拡大するものだということ。いわゆるディープウェブ、見えないウェブといわれる領域への進出だ。
クロールされるフォームは以下のようなものに限定されるようだ。
GETメソッドであることrobot.txtなどで除外指定されていないことpasswordフィールドを持たないことuser, id, accountなどのフィールドを持たないこと
これらを満たすフォームに対して、クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする、ということ。
この方法で見つかったリンクはこれまでのPageRank計算には加算されず、クロール対象をより広げるために使われる。
この機能強化の影響だが、まずジェネレータ系や検索機能を持つサイトで、サブミットしないと情報が出てこなかったサイトで、よりGoogleの結果が増えそう...
この記事をクリップしたユーザー一覧
-
monmonさん 2008/04/13 00:03
> クロールされるフォームは以下のようなものに限定されるようだ。
>
> * GETメソッドであること
> * robot.txtなどで除外指定されていないこと
> * passwordフィールドを持たないこと
> * user, id, accountなどのフィールドを持たないこと
>
> これらを満たすフォームに対して、クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする、ということ。
googleはこんなところにもくるのか
みんなのおすすめ商品(Amazon.co.jp)
|
|
|
|
|---|---|---|---|
とある科学の超電磁砲 4―とある魔術の禁書目録外伝 (電撃コミックス)69人がクリックしました
著者:鎌池 和馬 |
きのう何食べた? 3 (モーニングKC)37人がクリックしました
著者:よしなが ふみ |
NARUTO (巻ノ48) (ジャンプコミックス)12人がクリックしました
著者:岸本 斉史 |
他にもこんなクリップがオススメ
-
Google.co.jp 本文へ
ぐーぐるさん
同じサイトでクリップされている記事
-
秋元@サイボウズラボ・プログラマー・ブログ: mowser終了。創業者魂の叫び「モバイルなんか流行んねーよ!」 本文へ
> 家族や友人に数十万の借金があり、全部のクレジットカードは限度額いっぱい(しかも全部回収されそう)、もう一枚小切手が不渡りになったらアパートも維持できず、車は2回抵当に入ってて、電気は遮断、携帯電話も切られ、固定電話も止まった。今週末はバターで炒めたマカロニを食いながら過払いのPayPalデポジットが返って来るのを待つことになりそうだ。
この実情酷過ぎるだろう -
秋元@サイボウズラボ・プログラマー・ブログ: 2006年検索ランキングの検証 本文へ -
Kazuho@Cybozu Labs: Ajax な HTML ページのソースコードを表示する 本文へ



