



Full description not available
ア**ア
ビッグデータの罠
ビッグデータのアルゴリズムがこのように悪用され、人々の生活を脅かしているとは知りませんでした。アメリカの話なので必ずしも日本は良くも悪くもそこまで進んでいませんが、我々はこ脅威を認識し、良く手綱を握らないといけないと思いました。
S**N
いわゆるビックデータ
いわゆるビックデータを利用して何ができるか 出来ないかその危険性みたいな話だとも居ますが、正直何がそこまで面白いのか?
F**T
ビックデータが「データ(による)大量破壊兵器」になるとき
11/11/2016 追記アメリカの選挙を受けて、ドナルド・トランプが大統領に選ばれる見通しになった。実はこの本には、パーソナライズド広告(属性によって広告の種類や内容)が、選挙や各種キャンペーンで用いられているということが指摘されている。トランプ候補はこの辺りの広告戦略をかなりうまく(そして、ある意味こっそりと)やったのではないかと推測できる。つまり、本書が指摘する通り、あなたの隣人の見ているもの(広告)は、あなたの見ているものと全く違うかもしれないのだ。それが他者理解を阻んでいたり、社会の断絶を一層加速させているかもしれない。---著者のCathy O'Neilはもともと数学研究者で、大学でテニュアトラックまで取っていたのだが、産業界へ移りヘッジファンドで働き始めたところ、サブプライムローン問題からの一連の金融危機を経験した。彼女は数学が大好きで、「数学は絶対に裏切らないもの」だと思っていたのだが、サブプライムローン破綻やその後のローンの支払いに困る人々を見て、実は数学や統計モデルによって誤った結論に導かれたり、モデルの誤りを修正することの困難さに思い至るようになる。それでブログを書き始め、今回本を出版するなど、ある種の啓発活動にも務めているようだ。この本は統計モデルというよりも、社会問題やデータサイエンスの倫理学を扱った本だと思ってもらえるといいと思う。本の中では、(良かれと思って)種々の統計モデル*1を使い、人々が誤った結論に導かれたり、不公平性や困難を生じさせた例が紹介されている。ちらっとベイジアンや自然言語処理といった単語はでてくるが、計算の詳しい話は出てこない。またすべての統計モデルについて批判的であるというわけでもなく、危険な統計モデルを条件を挙げて解説している。彼女が指摘しているのは、この種の統計モデル(Weapons of Math Destruction, WMD. 『データ(による)大量破壊兵器』。もちろんmassとmathをかけている)によって困難な状況に追いやられるのは、貧しかったり、すでに問題を抱えた人たちであるということだ。例えば、従業員の候補を評価するようなモデルを作るとする。モデルが使う入力のうち、ローンの支払いの遅延情報を入れたとすると、すでにローンの支払いに困難を生じている人が職を得ることが難しくなり、ますます支払いに困難が生じる、といった具合だ。このように、いわば統計モデルを用いた種々の評価システムが、困難な状況にある人をさらに「罰して」しまう状況に、著者は警鐘を鳴らしている。WMDは不透明で、規模が大きく、害を被る人がいる、という定義である。そしてWMDによる判定は、覆したり、反論するのが難しい。例えば警察による犯罪予想マップは、貧しい人が住む地域を重点的に狙い撃ちしてしまう。その結果、軽微な犯罪が見つかり、予想マップはますますその地域を狙い撃ちにするようになる……という具合だ。データを用いて何かを予測したり、評価システムを作る場合、「効率か倫理か」の間のトレードオフがあるという点に筆者は言及している。例えば、良さそうな従業員候補をスクリーニングするのに、クレジットカードの遅延情報を用いるのは適切だろうか?きっとルーズな候補者は面接に呼ばずに済むだろう。でも、一旦カードの支払いが遅れてしまえば、職を得るチャンスも失い、その人はますます困窮する。また、統計モデルの正しさをどうやって担保するか、モデルの良さを評価するための評価関数を選ぶ時に恣意性が入るのではないか、また実は入力データを作る時の不正を促進してしまう(カンニングなど)、などの問題点も具体例を交えて指摘されている。最近流行り?のディープラーニングは、予測に用いる特徴抽出までやってくれるのだから、「何かを予測する」という目的達成のためなら非常に強力なツールだし、ある意味評価システムとして公平ではないかと思うかもしれない。特徴抽出を自動でやれば、おそらく効率最大化=倫理的配慮の無視、という流れになるだろうというのは、本書を読んでみればすぐ想像できる。現実世界の事象を全て数値化し、より良い予測を目指そうというのは、現実問題として(少なくとも今は)難しいのではないかと思う。特に感性・感情など計測しづらいものはデータ自体が作りづらい。行動データから間接的に測る方法もあるが、ここで問題になるのは、結果の解釈をする人間が持つバイアスだろう。なかなか一筋縄ではいかない。また、彼女の「モデル」の話は、統計モデルにとどまらない。人種差別も、個人の世界の内部モデルのチューニング不足ではないかと指摘する。そして、人種差別的な傾向を持つ人々から取られたデータがモデルに入力され……というように、WMDの原因の一つになったりもするのだ。彼女がここまでこだわるのは、金融危機の一翼を担ってしまった責任感や、数字の裏に人の生活あり、というのを感じたことにあるようだ。もともと曖昧性や不完全さを嫌って数学の世界に飛び込んだ彼女が、数学や統計モデルを現実世界に適用することの難しさを語るのは説得力がある。では、どのような配慮をして、統計・予測モデルを運用するべきなのか?その点は難しい問題であるが、「効率と倫理」は相反するものであり、効率だけを追求するのではなく、倫理的な観点からモデルの良し悪しを検討すること、さらにフィードバックを含めた正しい評価システムを作ったり、問題を抱える人を発見した時に手助けする方向に進むべき、というのが彼女の主張だ。この本はものすごく面白い。比較的短く、平易な文章で書かれている(単語が難しいかもと心配な場合は、Kindleで読むといい。最近は洋書のKindle版もすぐ手に入るようになり、本当に便利になったと思う)。巻末の註や出典情報も充実している(オンラインリンクなどはアーカイブ性が心配だが)。ラリー・サマーズが出てきたり、「優れたコーダーは日本の漫画サイトで時間を使うことが多い」とかいうビックデータ絡みの小噺もいろいろ載っていて面白い。出版社の方には1日も早く翻訳版を出してもらいたい。
Trustpilot
2 months ago
1 month ago