雑記

2000|01|
2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|
2007|01|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|09|11|
2009|02|03|05|06|07|08|10|11|12|
2010|01|03|04|05|06|07|08|09|10|
2011|05|06|09|10|
2012|03|07|09|12|
2013|01|02|04|05|07|08|10|11|
2014|04|05|08|10|12|
2015|01|05|
2016|09|

2003-06-20

いらっしゃ〜い

ログの解析をしていて,アンテナ経由で見に来てくれた人を他のコンテンツに誘導できていない事実に気付き,サイドバーにメニューを追加してみました.あわせて,このまま更新を続けられそうな気がしてきたので,私のページについてはロボットにちゃんと収集されるように設定をいじってみました.

ロボットについては,意識して対策をしていたわけではないのですが,日記をつけることにして本格運用をはじめた頃からのログを解析していると,偶然,googleほか多くのロボットが,うちのサーバや私のページの中身を取れずに退散していることに気付きました.おまけに,たださんという有名人(ちなみに私は45件)に,この雑記にだけリンクしてもらえたという幸運もあり,リンク経由で来るロボットの観察もできました.その結果から,ロボットに収集してもらう方法ついてまとめてみます.

と,ここまでもったいぶって書くような内容でもありませんが,自分のページがうまく検索サイトに登録されないという方には,参考になるかもしれません.

デフォルトページをダミーにしない

ロボットの中には,リンク等に書かれているURLからファイル名を取り除いてアクセスしてくるものがかなりの数あります.この雑記を例に取ると,「http://www.on-sky.net/~hs/diary/index.cgi」というリンクを発見すると,そのURLにではなく「http://www.on-sky.net/~hs/diary/」にアクセスしてきます.後者のURLへのアクセスに対して,ダミーページ(空のページ)を用意したり,エラーを表示するようにしていると,そこで諦めてしまうロボットが結構あります.

対策としては,可能であれば.htaccessを編集してIndexesを登録するのが一番良いでしょう(私はそうしました).ISPの制限などで,それが不可能なら,ダミーファイル内に,読み込んで欲しいファイルへのリンクを書くと良いでしょう.

日記を持っていってもらう

多くのロボットは拡張子をチェックしていて,CGIは開かないようにしているようです(もちろん,そういうことはお構いなしにリンク先を片っ端から開いていくロボットも観察されています.ここのやつとか).Googleの検索結果に出てくる日記系のURLをみると,htmlファイルかディレクトリを示すURLしか登録されていないことに気付くと思います(と書いたとたんに反例発見.最後が特定の拡張子で終わっているURLだけはじいているのかな?…そうか,登録されているのはGETメソッドのオプション付きだけということからして,ディレクトリのURLと区別できずに登録されているんだな).

そういうところには,tDiaryで書かれていて,そこへのリンクが「index.cgi」や「index.rb」で終わるURLになっているような日記は通常登録されませんが,抜け道はあります.もうお気付きですね.そう,ディレクトリに対するアクセスで日記が開くようにすればよいのです.つまり,ここを例にすると「http://www.on-sky.net/~hs/diary/」にアクセスしたときに最新の日記が表示されるようにすればOKということです(やり方は上を参照).あと,括弧内を書いていて気付いたもう一つの方法は,日記へのリンクを「http://www.on-sky.net/~hs/diary/index.cgi?dummy=nil」とかにすること.こうするとおそらく(現時点でのgoogleとかの)ロボットはディレクトリ名と区別がつかずに持っていってくれるんじゃないかと思います.対策もすぐにできそうですけど.

トップページからリンクを張る

ロボットの中には,URL末尾のファイル名だけでなく,その前についているディレクトリ名を削除して,アクセスしてくるものもありました.上の例で言うと,「http://www.on-sky.net/~hs/」とか「http://www.on-sky.net/」とかですね.ここでも,ダミーページ等が表示されればロボットは諦めてしまいますので,上に書いたような対策を施しておけば,めでたくそのドメイン内のすべてのページを持っていってくれるでしょう.

余談

上で書いたことを参考に,ロボット対策(取られないための方法)を試みるのは無駄だと思います.対策ページはたくさんありますので,それらを参考にしてrobots.txtを書くなり,認証をかけるなりするのが良いでしょう.もっとも,サーバに置くのは他人に見て欲しいファイルだけにするというのが一番だと思います.



2005-06-20

F1アメリカGP

なんじゃそりゃ。

F1追記

途中とばしつつ最後まで見ました。一番の見所は表彰式でバリチェロがシュー兄を無視し続けたシーンでしょうか。

バリチェロといえば、最近クリス・ベノワと重なっていかんです。はい。件の表彰台シーンで『そこでシュー兄にトリプルジャーマンだ』とか思ったりはしてませんよ。

無線LAN

ひさしぶりに無線LANをいじっているのですが、、、

  • XPって初期状態でad hocモードの局まで自動で探し出すんですね。なんともはや。
  • FreeBSDのathドライバってインフラストラクチャモード対応なんですね。すばらしい。

というわけで、いま時なかなかやってる人はいないだろうと思われる、FreeBSDで無線基地局構築とかやってました。ELECOMのLD-W54G/PCIで11g(54Mbps)通信ばっちりです。WEPの設定はifconfigのオプション一発で完了。MACアドレスチェックはDHCPサーバで設定。近くの店でも税込み6,000円弱で買えたので、既にFreeBSD/Linux boxを持っている人であれば一考の余地ありかと。

本日のツッコミ(全3件) [ツッコミを入れる]

- mak [生放送でやりきれない気分になるレースって・・・]

- hs [生で見たんすか。ご愁傷様。]

- taru_k [おかげでUS-GPは30分で観戦できました.]


2007-06-20

久々のプレゼン。で大失敗。次からは気をつけよう。