実際にはユーザー数はカウントしていませんが、クライアントがリレーのリストを更新するために定期的に行うディレクトリへのリクエストをカウントし、そこから間接的にユーザー数を推定しています。
いいえ、しかしそれらを報告したディレクトリの割合を確認し、ネットワーク内の総数を推定することができます。
平均的なクライアントが1日に10件のリクエストを行うと仮定します。
年中無休で接続されているtorクライアントは、1日に約15の要求を行いますが、すべてのクライアントが年中無休で接続されているわけではないため、平均的なクライアントの数として10を選択しました。
ディレクトリ要求を単純に10で割り、その結果をユーザ数とみなします。
別の見方をすると、各リクエストは1日の10分の1、つまり2時間24分オンラインにいるクライアントを表していると仮定します。
1日に収集されたデータから推定される同時ユーザーの平均数です。明確なユーザー数を示すことはできません。
いいえ、これらの統計を報告するリレーはリクエストを発信国別に、24時間にわたって集計しています。
1時間あたりの利用者数の統計は細かすぎ、ユーザーを危険にさらす可能性があります。
そして、それらのユーザーを1つとしてカウントします。私たちは実際にクライアントを数えていますが、ほとんどの人にとってはユーザーを考える方が直感的なので、クライアントではなくユーザーと表現しています。
いいえ、そのユーザーは1日の間にIPアドレスを変更しないユーザーと同じ頻度でリレーのリストを更新するからです。
ディレクトリは、IPアドレスを国コードに解決し、これらの番号を集計形式で報告します。これは、Tor に GeoIP データベースが付属している理由の1つです。
トランスポートや IP バージョンに関するデータを報告しているブリッジはまだほとんどなく、デフォルトではデフォルトの OR プロトコルと IPv4 を使用するリクエストとみなします。
これらのデータを報告するブリッジが増えれば、数値はより正確になるでしょう。
リレーとブリッジは、1日の任意の時間に終了する可能性のある24時間間隔でデータの一部を報告します。
そしてそのような間隔がリレーやブリッジを通過した後、データを報告するためにさらに18時間かかるかもしれません。
グラフの最後のデータポイントが最近の傾向の変化を示し、実際にはアルゴリズムの成果物にすぎないことを避けたいので、グラフから最後の2日間を切り取ります。
その理由は、ユーザー数が大幅に変更されないと確信した時点で、ユーザー数を公表するからです。
しかし、私たちが十分に自信を持っていた数時間後にディレクトリがデータを報告し、それによってグラフが少し変わってしまったという可能性は常にあります。
それ以前の記述子アーカイブはありますが、それらの記述子には、ユーザー数を推定するために使用するすべてのデータが含まれていませんでした。
詳細については、次の tarball をご覧ください。
Tarball
直接のユーザーに対しては、以前の方法では行わなかったすべてのディレクトリを含めます。
また、ディレクトリ要求に応答するために書き込まれたバイトのみを含む履歴も使用します。これは、一般的なバイト履歴を使用するよりも正確です。
それは全く別の話です。私たちは13ページにわたる 技術報告書 を書き、古いアプローチを廃止する理由を説明しました。
tl;dr: 以前のアプローチでは間違ったものを測定していましたが、今では正しいものを測定しています。
私たちは、数日間にわたる推定ユーザー数を見て、次の数日間のユーザー数を予測する異常ベースの検閲検出システムを実行。
もし実際の数字が高かったり低かったりする場合は、検閲の可能性があるか、検閲が解除されたことを示しているのかもしれません。
詳細につきましては、 テクニカルレポート をご覧ください。