雑記

2000|01|
2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|
2007|01|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|09|11|
2009|02|03|05|06|07|08|10|11|12|
2010|01|03|04|05|06|07|08|09|10|
2011|05|06|09|10|
2012|03|07|09|12|
2013|01|02|04|05|07|08|10|11|
2014|04|05|08|10|12|
2015|01|05|
2016|09|

2007-09-01 [長年日記]

[個人情報保護] GoogleはAnalyticsを使って個人の行動履歴を収集している?

Googleが提供しているGoogle Analyticsサービスは、アカウントを作成して自分のページに簡単なscriptを埋め込むだけで、アクセス分析レポートを作成・表示してくれるサービスです。

ITProの記事によると、「Googleがアクセス解析ソフトの老舗である米Urchinを買収して始めたサービス。」だそうで、Google AnalyticsでもUrchin社のUrchin Tracking Module(UTM)を少し改造した物(以下GAUM)を使っているようです。で、技術的な興味があったのでちょっと解析。

その結果分かったこととして、Google Analyticsを使ってアクセス解析を行っているサイトに訪問すると、個人を識別可能な情報がwww.google-analytics.comに対して画像ファイルのリクエストに対するオプションという形で渡されているようです。

解析過程は長くなるので省略。次の画像はwww.google-analytics.comに送られるリクエストが手元のサーバに行くようにゴニョゴニョしてから試験環境で実際にアクセスを試した時に、サーバに届いたリクエストのログと、アクセス時にブラウザにセットされるcookieを比較したものです。

黄色の下線で示したログと右のcookieの比較から、www.google-analytics.comに対して_utma,_utmb,_utmc,_utmzの値が渡されていることが分かります。また、水色の囲いにあるように、それらの値は一致しています。GAUMではこの4つのうちの_utmaというクッキーにサイト訪問者の識別情報が保存されています(参考情報)。ちなみに、_utmaは6つの数字をピリオドで結んだものになっていますが、それぞれ、サイト(ドメイン)名のハッシュ値、ユーザーの識別用ID、そのサイトへの最初の訪問時刻、前々回の訪問時刻、前回の訪問時刻、トータルの訪問回数、という内容のようです。ユーザーの識別用IDは、初回アクセス時に付けられる乱数で、それ自体は個人を特定できるような情報は含んでいません。しかしながら、www.google-analytics.comにリクエストを送った時点で、上の画像のオレンジの下線にあるように、そのクライアントのIPアドレスは取得可能なため、同じIPアドレスから来たリクエストを集めると、そのクライアントを使用しているユーザーがどのサイトのどのページを閲覧したのか、追跡できてしまいます。

で、これはあくまで技術的に可能だという話であり、実際にGoogleがこうした情報を収集・利用しているかどうかは分かりません。もし収集していたら、「このページを閲覧した人はこんなページも見ています」とかいうサービスを始めるかもしれませんね。

ちなみに、Firefoxではクッキーをキーワードで検索できるんですが、「_utma」で試した結果がこちら。

150以上のユニークサイトで同名のクッキーが登録されていました_| ̄|○

いつも巡回しているサイトはかなり押さえられていて、ちょっといや〜んな感じ。

ともあれ、Google Analyticsを導入しているサイトの管理者は、自分達がこういう可能性を秘めたサービスを利用しているということを自覚しておく必要があると思います。プライバシーポリシーに違反してないかとか。

ソース解説編

を書こうかと思ったんですが、途中で挫折。サードパーティーcookie禁止ポリシーの回避法など、技術的には結構興味深いので、読んでみるのも一興かと。ただし、非常に読みにくいです。


2007-09-03 [長年日記]

[個人情報保護] GoogleはAnalyticsを使って個人の行動履歴を収集している?(補足)

09/04: 不正確な表現等を修正しました

昨日書いたTracking手法は、基本的には同一IPアドレスのコンピュータは同じ人が使っているという前提での話でした。ならば、IPアドレスを変えれば安心かというと、実はそういうわけにもいきません。

昨日のエントリで記述したとおり、_utmaという値はユーザーがあるサイトを始めて訪問したときに、サイト名のハッシュやMath.random()で作った乱数等を使って生成される値で、それ自体にはユーザーと直接結びつくような情報は持ちません。しかしながら、その値は「ファースト・パーティCookie」としてあなたのブラウザに記録され、昨日のエントリの画像内の「有効期限」を見てもらえば分かるとおり、2038年1月18日まで最初の3つの数字については同じ値が使い続けられます。つまり、仮にクライアントのIPアドレスが変わったとしても、この_utmaの最初の3つの数値が同じであれば、それは同じユーザーであるとみなせるわけです。これは、1台のコンピュータを複数のユーザーでアカウントを使い分けている時にも有効で、クッキーはアカウントごとに管理されるので、同一コンピュータを共有していても個人を識別することが可能になります。さらに複数のクライアントがLDAPやNIS、アクティブディレクトリ等を利用した環境できちんとしたアカウント管理下にあれば、コンピュータが変わったとしても個人を同定することが可能です。

つまり、_utmaクッキーを取得済みの場合はこれを使ってユーザーを識別しつつ、異なるサイトに関しては短期間で同一IPアドレスから来るリクエストは同じユーザーであると仮定する、というアルゴリズムにすれば、あるユーザーがGoogle Analyticsで解析を行っているサイト間をどのように渡り歩いたのかといった情報が収集可能になります。また逆に、同一IPのクライアントから異なる_utmaクッキーを受け取った場合、ユーザーが切り替わったという判定に使うこともできます。話がそれてきたので最初のお題に戻ると、このように_utmaの値を比較することにより、仮にクライアントのIPアドレスが変更されたとしてもユーザーを特定することが可能になり、使っているIPアドレスとは無関係に個人を追跡可能になるという非常に強力な仕組みとなっています。

こうした追跡から逃れる方法は、IPアドレスをこまめに変更しつつ「ファースト・パーティCookie」の受け入れを拒否する、あるいはブラウザの起動/終了時に全ての「ファースト・パーティCookie」を削除するといった手間をかけるか、NATの奥に多数のクライアントマシンを設置して常に複数のユーザーが外見上同一IPアドレスでインターネットにアクセスするような環境を利用する、ぐらいでしょうか。

繰り返しになりますが、これは技術的に可能であるという話であり、実際にGoogleがそうしているかどうかは分かりません。

本日のツッコミ(全1件) [ツッコミを入れる]

- 近藤@古代図書館 [Firefox は first party cookie を session only に設定することは可能ですよ。..]


2007-09-06 [長年日記]

[個人情報保護] GoogleはAnalyticsを使って個人の行動履歴を収集している(断定調)

クッキーに気を取られすぎていて、もっと重要な箇所を見逃していました。前々回のエントリで(www.google-analytics.comを想定した)サーバに届いているリクエストには、「ファースト・パーティCookie」以外にもいろいろな情報が送られているようです。その内容がこちら。改行して各オプションの説明をつけています

GET /on-sky.jpg?
utmwv=1&常に"1"(バージョン情報?)
utmn=711629698&毎回生成される乱数
utmcs=Shift_JIS&文字コード
utmsr=1280x1024&画面サイズ
utmsc=32-bit&色数
utmul=ja&言語
utmje=1&Javaアプレットの実行(有効:1, 無効: 0)
utmfl=9.0%20%20r28&Flashのバージョン
utmdt=GAUM%20test&ページタイトル:
utmhn=www.on-sky.net&サイト名
utmr=-&リファラ
utmp=/utm_test.html&ページのパス
utmac=&Google Analyticsのアカウント名
utmcc=(内容省略)ファースト・パーティCookie

画面サイズや色数、Javaの実行可否やFlashのバージョンなど、Google Analyticsとしての必要性が良く分からない情報も送られていますがひとまず置いておいて、utmrという名前でリファラ情報(document.referrer)が送られています。試しに同一サイト上にリンクを張ってたどると、

… utmr=0& …
となり、異なるサイトにリンクを張ってたどると
… utmr=http://www.on-sky.net/xxxx.html& …

のように、直前に訪問していたページのURLが送られました。

これはどういうことかというと、このutmrというオプション変数は他のサイトからGoogle Analyticsを設置しているサイトにリンクをたどって移動してきたときに、直前に見ていたページの情報を収集するという目的専用のオプションということになります。前回のエントリを記述した時点では、『おそらく同一人物であろう』という程度でしか個人の行動は追跡できないだろうと考えていましたが、このオプションの値を組み合わせれば、すくなくともGoogle Analyticsを利用しているサイト間の移動については、正確に個人の行動を追跡可能ということになります。

Google Analytics使ったことないのですが、もしかして「どのサイトから来たのか」という情報も解析結果の一部として表示しているのでしょうか?そういう目的で利用していると考えれば、それの何が悪いの?と思うかもしれません。しかしながら、そうした情報がGoogleという1組織に集中していることが大きな問題で、この情報を利用することにより、皆さんの知らない間にインターネット上で個人の全行動を監視可能なシステムが既に完成しつつある、と言われるとぎょっとしませんか?

たとえGoogleはそういう目的では使っていなかったとしても、政府とかがそういう目的で使おうと考え、提出を求めて来たとしたら渡さざるを得ないでしょうし。

さて、もしあなたが、何がしかの組織が個人の行動を監視できるような社会は嫌だと思っていて、かつGoogle Analyticsを使っているのであれば、Googleが何らかの対処をするまで利用を停止することをお勧めします。

サイトを閲覧する側ができる対策としては、Referrer情報を送らないようにブラウザの設定を変更する。とかですが、tDiaryではCSRF対策にReferrerを使ってたりしますし、他にも影響ありそうで困ったもんです。

UrchinとGoogle Analyticsの違い

Google Analyticsがこういうものだとすると、Urchinもやばいんじゃないの?と思われる方がいるかもしれませんので断っておくと、Urchinではこういう問題は起きません。なぜなら、Urchinのシステムはサイトの運営者が購入して自社で運用するので、ほぼ同じシステムを使っているとはいえ、収集できる情報はあくまで自社サイトへのアクセスに関する情報のみであり、またそうした情報を第3者に渡すようなことは、基本的にはないからです。

さておき、GoogleはGoogle Analyticsで使うファースト・パーティCookieの変数名をUrchinとは別のものにすべきだったんじゃないかなぁ。もし誰かがGoogle Analyticsけしからんとか言って_utm[abcz]という名前のクッキーを拒否するFirefox用の拡張とかを書いたら、GoogleだけでなくUrchinも打撃を受けることになるんですが、そこまで考えてないんだろうなぁ。

本日のツッコミ(全3件) [ツッコミを入れる]

- inoue [firefoxなら、adblockを使ってgoogle-analytics.comのファイルを遮断するのも手だと思い..]

- hs [おぉ。ひそかに誰か作ってくれないかなと思っていたのですが、既にあるんですね。 さっそく試してみようと思います。有用な..]

- os [あくまで個人的な意見ですが、Urchinはバージョンが6.7だけど、google-analyticsはレポート機能だ..]


2007-09-10 [長年日記]

[F1] 祝!鈴鹿復活

と言うわけで、2009年に鈴鹿F1が復活。その後は1年交代で開催するそうです。ホンダファンとしてはうれしい反面、トヨタの「愛の無さ」を見てしまったようでちょっとがっかり。

こういうことを言ってたのにねぇ。


2007-09-22 [長年日記]

固まる

近所の定食屋でお昼を食べていた時の事。そこは学生さんが多く来てにぎわう所で、その時もがやがやといろんな会話が入り乱れていました。その時です。右後方のテーブルからいきなり「コウソクグ」という単語が聞こえてきたのは。私同様ギョッとしたのか、トーンダウンする店内。聞き間違いだろうと流そうとしたのですが、再び「あれは拘束具で、本来の力を抑えるために云々」と若者がやたら熱く語っています。回りの会話は完全にストップ。しかしご本人は気づかず「シトもやばいがエヴァも危険なんだ」とか「あれは聖書から強く影響を受けている」だとか滔々とまくしたてます。

私にはエヴァンゲリオンについての会話だと分かったので興味を失いましたが、その後も会話が止まったままになってしまった人たちの心中を察すると、もうちょっと一般的な用法についての知識も付けようよとか、小言オヤジモードに入ってしまうのでありました。


2007-09-25 [長年日記]

PCT出願

PCT-SAFEというインターネット出願ソフトがあるのですが、PCT出願と日本の特許手続のひずみがもろに出ていてなかなか楽しい。

ユーザーマニュアルの随所に日本の場合の注意事項があって、注意すべき点には気付けるのですが、特に手続き系の説明が非常に不親切で特許庁に電話かけまくり。で、担当者にも当たり外れがあって外れを引くとストレスがたまる一方。そんなことも分からないのかという態度がみえみえなんですけど、そっちのマニュアルが不親切でわけ分からないから聞いてる訳で、このマニュアル書いたのもあなたみたいな人なんでしょうねとか心の中で悪態つきつつ表面上はごく穏便にやり過ごす。

いちばんややこしかったのは手数料の振込み関係と優先権証明願。手数料は予納できるものとできないものがあって、できるものは願書提出前(予納番号を記入しないと願書が提出できない)、できないものは願書提出後30日以内に振込みという面倒くさい手順。優先権証明願はなぜかこれだけオンラインで申請できず、かつPCT願書を提出してから3日以内に特許庁に必着というスリリングな日程。

あとは、手数料の支払選択の方法がバグっているのですが、仕様だと言い張っていたり、手数料が9月1日から変更され、設定方法の説明があるのですが、料金の入力欄の挙動がこれまたバグっていて特殊な操作をしないと修正できなかったりとか、ありがちな罠が随所に盛り込まれていていい具合にストレスゲージを高めてくれました。まあでもPCT-SAFEがなかった頃からすると、ある程度のチェックをやってくれる分だいぶましなんでしょうね。