シンプルライフできるかな?

ダメ人間だが、人生それなりに楽しい♪ 家の片付けが最大の目標。。。

個人情報は匿名であっても15個集めれば特定できてしまう…リクナビ問題で知る

にゃん吉です。


2019年8月12日のワールドビジネスサテライトで、「リクナビ」問題の件を扱ってました。
サイト利用者のデータを販売していたという件です。

 


就職支援サイト「リクナビ」を手がけている株式会社リクルートキャリアが、38社の企業に向けて「就職内定辞退率」の予測データを販売していたという問題です。
しかも、このデータは個人も特定できるとあって、さらなる炎上をしています。


今回気になったのは、そのリクナビの話から考えられるビッグデータについての話でした。

 

▽目次です▽

 

ビッグデータ時代の課題

WBSではクレディ・スイス証券の市川眞一氏が説明と問題点の指摘を話してました。


市川氏の指摘した問題点は大きく2つ。

  1. 不適切利用の抑制
  2. データそのものの経済的な帰属はどこにあるのか


この説明として、次のように話してました。


フラットフォーマーは無償でサービスを提供している→事業化するためには広告宣伝料などで儲ける必要がある→結果大きなデータが蓄積されていく→データを使ってビジネスを展開していく。

その結果、データの価値が極めて高くなっていく。


ここで大きな問題が出てきます。
利用者の閲覧履歴や購入履歴などのデータの価値を誰が利用することが出来るのか、ということ。


不適切利用の抑制をきちんとしていかないといけない、という話でした。


ここは当然その通りです。
もはや企業のモラルにも繋がるわけです。

 

さらに市川氏はとても気になることを話してくれました。

 

個人情報は匿名であっても15個集めれば特定できてしまう

f:id:nukonyan131:20190522074736j:plain

 

この話をされた時驚きました。
匿名であっても、個人情報が特定されてしまうというのです。怖い。


これは、イギリスのインペリアルカレッジロンドンがネイチャーに出した研究論文なんだそうです。


それによりますと、匿名データでも15個くらい集めて合わせると個人が特定できるという研究結果があるということ。
そうなるとその膨大なデータでもって個人データを特定できてしまうと市川氏は懸念されてました。

 

インペリアルカレッジロンドンの研究論文

とても気になりましたので、ネットで検索してみました。
そこで読んだ記事はこれです。

japan.cnet.com

 


この記事には、確かに明記されてました。

 15の人口統計学的属性を利用することにより、インペリアル・カレッジ・ロンドンやベルギーのルーヴァン・カトリック大学の研究者らは、「あらゆるデータセットで99.98%の米国人を正しく再特定できる」と述べた。

引用元:匿名データからの個人特定は容易?--特定率99.98%との研究結果

 


さらに、その特定がどの程度可能であるかというのを確認できるサイトがありました。


そのサイトがコレです。
cpg.doc.ic.ac.uk

 

個人情報の特定がどの程度なのかテストしてみた

このサイトはアメリカとイギリスをデモにしています。
「XYZ Health」という保険が他よりも安いということで、登録をしたという設定です。


プライバシーポリシーでは、「統計データが含まれる可能性がある」と規定にあり、その情報は「匿名データ」とされるとあります。
またこのデータベースには最大1%の人のみがアクセスできるともあります。


そこで実際個人情報を入れてどういう結果になるのかを見てみましょう。
デモなので適当で大丈夫。

 

 

赤で囲ったところがデモで使えるイギリスとアメリカの郵便番号です。
イギリスで進めてみます。

f:id:nukonyan131:20190814071122p:plain

 

 

デフォルトで郵便番号が「SW7」と出てましたので、そのまま進めます。

f:id:nukonyan131:20190814071150p:plain

 

 

さらに生年月日もデフォルトで、性別もデフォルトのまま「NEXT」を押します。

f:id:nukonyan131:20190814071241p:plain

f:id:nukonyan131:20190814071257p:plain



出た結果がコレ!

f:id:nukonyan131:20190814071312p:plain

 

なんと75%の確率でわかってしまうということです。

 

大事なことは3つの個人情報で特定が可能ということ

このデモで怖いのは、「郵便番号」「生年月日」「性別」だけで75%の確率で個人が特定できてしまうということ!


これを日本に置き換えてみると、「郵便番号」ってかなり細かく設定されてますよね。


たとえば、こうです。

  1. 郵便番号:100-0000
  2. 生年月日:2000年1月1日
  3. 性別:男


これだったら、確かにかなり狭まれてきます。
研究論文どおり、15のデータが集まって合わせるとしたら、そりゃ99.98%になりそうです。
データは多ければ多いほど、信憑性が増しますから当然です。


これは迂闊にサイトを信用出来なくなっちゃいます。

 

むやみやたらと個人情報を登録しないことが大事!

データは増え続ける一方なので、情報量も増え、正確さも増していくでしょう。
ビジネスとして利用するのはアリですけど、その範囲や抑制も必要。


そこが抜けていたからこそ、リクナビ問題になったんだと思います。
内定辞退率だけではなく、どの学生かまでわかったというのがひどすぎました。
それが要因となって決めてはいないと企業が言ったとしても、疑いは晴れるわけがありません。


また、1社でいくつものサイトを管理していると、そのグループ企業で持ち寄ったデータが15個以上あれば、個人が特定できてしまうわけですから。
リクルートなんて全体を網羅したら、15個以上ありそうです。


もちろんこれはリクルートだけに限りません。


我々で出来ることは、本当に必要なサイト以外にはむやみやたらと個人情報を登録しないこと。
今の自衛はそれしかないです。


そうは言っても、最低でも、銀行や証券会社、保険は絶対に個人情報必要なんですよね。怖い怖い。


とにかくネットに繋がっている以上、情報が洩れる可能性があるということだけは、いつも頭に置いておきたいです。

 


▽こちらの記事もどうぞ▽ 

www.simplelifego.com