機械学習における公平性①

＠産総研人工知能セミナー

○　機械学習における公平性の概要

神嶌先生（産総研）

PRMLの翻訳もされた方？

http://www.kamishima.net/fadm/

データマイニングの技術

重大な決定に利用される：採用とか借金とか。。

公平性の担保が必要

・社会的な公平性

2010くらいから機械学習の公平性は始まった

最初は少なかったが、2014のワークショップで少し大きくなった

2016-2017ですごく伸びた：EUのGDPR、トランプ大統領の話

数学的に公平性を定義するには？

・どういう原因で不公正はデータマイニングで起きるのか？

- データバイアス：

ラベルに偏りがある場合（人手ではどうしても乗る、差別意識）

ラベルがダメな時、特徴がダメな時がある

特徴、自然言語処理の新聞とかそのまま人の偏りが乗る

#ターゲット広告

検索に関連した広告、名前検索時の結果？

国による名前でよくない候補がでる（逮捕歴とか逆なことも）

→偉い先生が調べたけど、別に作為的なものはなかった

みんなが悪意に満ちた行動を取っていたから、それがデータに乗った

- サンプリングバイアス：

データのサンプリングに偏りある場合

借金だと申し込んだ人のデータしかない

# 標本選択バイアス

貸した人に対して、逃げたかどうか？

貸した人のデータしか得られない。。。

→データの偏りの発生

- 帰納バイアス

仮定で学習、この仮定のせいでバイアス

汎化→少数派の意見を殺しがち

# 帰納バイアス

MLは仮定を置かないと、汎化できない（予測とかに使えない）

これがないと、事実の列挙になる

仮定が事実と合わないと、バイアスが起きる

平滑性とかスパースネスとか。。

オッカムのカミソリ？

物理法則の説明をするとき、より簡単な理論の方が良い？？

→例外パターンが無視されがち？

# 再犯率スコア

データジャーナリズム NPO

事実に基づいて、ジャーナリズムを進めよう！

COMPAS、再犯の危険率、裁判員の客観的判断のため

量刑には使っちゃだめ、保釈の可否の判断

量刑に使ってしまった事件が起きる

→話題になったので、分析してみた

予想で国ごとに差別は起きてない

が、FalsePositiveはアフリカ系が高かった。（データ分析のおかげでわかった）

・Formal Fairness

s)sensitive information：人種間とか性別とかインサイダーとか、,0：よくない、1：良い

↓影響する

y)target/objective：大学の合否とか借金とか,0：よくない、1：良い

x)non-sensitive feature

機械学習の不公正のどれを取り除くか？

- anotation bias

人間のラベルは信用できない？

でも偏見のないデータはない

# 独立性

y^（予測）がSと独立

国ごとに借金できる率が一緒ならおk

→国の特徴を消せば良いのでは？

→Red-Lining Effect

実は影響してる特徴があるかもしれない、目で見てもわからない

銀行：人種で金貸しの判断をするな、青線、赤線でやってた

条件付き独立

YとS独立がgiven X

- 帰納バイアス

元々のデータと予測した値が

Y^独立S given Y：TPRとFPRがSによって一緒になってないとダメ

--- ここまでは統計的な議論

いくつかの性質がある

機会の公平性、結果の公平性

手続きの公平性、分配の公平性？

- グループ/個人公平性

グループで均等ならおk、個人はもう少し厳しい

個人だと、スキルとかが全く一緒の人は中々いないから難しい

女性用の服のモデルに女性を雇うのは良いでしょう

入試の判断、法律的に説明可能な変数を出すと問題なかった

医学部、CS部、男女の応募数、学部の合格率

Y 独立 S | E

-----

ネットにAPIを置いておいて、試してみる

分類法

- by Process

pre:事前に公平なデータにしてから学習

in:予測アルゴに組み込んで公平性

post:あとで頑張って、公平にする

- by Task

タスクごとに分類

Unfari Association Rules

一定以上sensitive fetureが寄与してたらダメだよ

→チェック、直接差別、間接差別

色々なデータを入れてみて、チェックする

サロゲート

○教師あり学習

- 分類問題

pre-process:マッサージング：無理やりラベルを変えて、揃えてしまう

in-process:独立性の項を入れて、一緒に最適化する

post-process:

- 口コミの協調フィルタリング

友達推薦、支持政党の友達の推薦リストになってしまう

自分と同じ人の意見しか聞かなくなる：社会に多様性が無くなりますよ

公平性の補正項があると違うよ

- Bias in Word Embedding

ワードベクトルで演算できる？

職業に偏りが生じる？文章による→後から補正する

- Ranking

どこで区切っても公平になるように、ランキングしよう