雑記

2000|01|
2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|
2007|01|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|09|11|
2009|02|03|05|06|07|08|10|11|12|
2010|01|03|04|05|06|07|08|09|10|
2011|05|06|09|10|
2012|03|07|09|12|
2013|01|02|04|05|07|08|10|11|
2014|04|05|08|10|12|
2015|01|05|
2016|09|

2007-09-01 [長年日記]

[個人情報保護] GoogleはAnalyticsを使って個人の行動履歴を収集している?

Googleが提供しているGoogle Analyticsサービスは、アカウントを作成して自分のページに簡単なscriptを埋め込むだけで、アクセス分析レポートを作成・表示してくれるサービスです。

ITProの記事によると、「Googleがアクセス解析ソフトの老舗である米Urchinを買収して始めたサービス。」だそうで、Google AnalyticsでもUrchin社のUrchin Tracking Module(UTM)を少し改造した物(以下GAUM)を使っているようです。で、技術的な興味があったのでちょっと解析。

その結果分かったこととして、Google Analyticsを使ってアクセス解析を行っているサイトに訪問すると、個人を識別可能な情報がwww.google-analytics.comに対して画像ファイルのリクエストに対するオプションという形で渡されているようです。

解析過程は長くなるので省略。次の画像はwww.google-analytics.comに送られるリクエストが手元のサーバに行くようにゴニョゴニョしてから試験環境で実際にアクセスを試した時に、サーバに届いたリクエストのログと、アクセス時にブラウザにセットされるcookieを比較したものです。

黄色の下線で示したログと右のcookieの比較から、www.google-analytics.comに対して_utma,_utmb,_utmc,_utmzの値が渡されていることが分かります。また、水色の囲いにあるように、それらの値は一致しています。GAUMではこの4つのうちの_utmaというクッキーにサイト訪問者の識別情報が保存されています(参考情報)。ちなみに、_utmaは6つの数字をピリオドで結んだものになっていますが、それぞれ、サイト(ドメイン)名のハッシュ値、ユーザーの識別用ID、そのサイトへの最初の訪問時刻、前々回の訪問時刻、前回の訪問時刻、トータルの訪問回数、という内容のようです。ユーザーの識別用IDは、初回アクセス時に付けられる乱数で、それ自体は個人を特定できるような情報は含んでいません。しかしながら、www.google-analytics.comにリクエストを送った時点で、上の画像のオレンジの下線にあるように、そのクライアントのIPアドレスは取得可能なため、同じIPアドレスから来たリクエストを集めると、そのクライアントを使用しているユーザーがどのサイトのどのページを閲覧したのか、追跡できてしまいます。

で、これはあくまで技術的に可能だという話であり、実際にGoogleがこうした情報を収集・利用しているかどうかは分かりません。もし収集していたら、「このページを閲覧した人はこんなページも見ています」とかいうサービスを始めるかもしれませんね。

ちなみに、Firefoxではクッキーをキーワードで検索できるんですが、「_utma」で試した結果がこちら。

150以上のユニークサイトで同名のクッキーが登録されていました_| ̄|○

いつも巡回しているサイトはかなり押さえられていて、ちょっといや〜んな感じ。

ともあれ、Google Analyticsを導入しているサイトの管理者は、自分達がこういう可能性を秘めたサービスを利用しているということを自覚しておく必要があると思います。プライバシーポリシーに違反してないかとか。

ソース解説編

を書こうかと思ったんですが、途中で挫折。サードパーティーcookie禁止ポリシーの回避法など、技術的には結構興味深いので、読んでみるのも一興かと。ただし、非常に読みにくいです。