○ 機械学習における公平性の概要
神嶌先生(産総研)
PRMLの翻訳もされた方?
http://www.kamishima.net/fadm/
データマイニングの技術
重大な決定に利用される:採用とか借金とか。。
公平性の担保が必要
・社会的な公平性
2010くらいから機械学習の公平性は始まった
最初は少なかったが、2014のワークショップで少し大きくなった
2016-2017ですごく伸びた:EUのGDPR、トランプ大統領の話
数学的に公平性を定義するには?
・どういう原因で不公正はデータマイニングで起きるのか?
- データバイアス:
ラベルに偏りがある場合(人手ではどうしても乗る、差別意識)
ラベルがダメな時、特徴がダメな時がある
特徴、自然言語処理の新聞とかそのまま人の偏りが乗る
#ターゲット広告
検索に関連した広告、名前検索時の結果?
国による名前でよくない候補がでる(逮捕歴とか逆なことも)
→偉い先生が調べたけど、別に作為的なものはなかった
みんなが悪意に満ちた行動を取っていたから、それがデータに乗った
- サンプリングバイアス:
データのサンプリングに偏りある場合
借金だと申し込んだ人のデータしかない
# 標本選択バイアス
貸した人に対して、逃げたかどうか?
貸した人のデータしか得られない。。。
→データの偏りの発生
- 帰納バイアス
仮定で学習、この仮定のせいでバイアス
汎化→少数派の意見を殺しがち
# 帰納バイアス
MLは仮定を置かないと、汎化できない(予測とかに使えない)
これがないと、事実の列挙になる
仮定が事実と合わないと、バイアスが起きる
平滑性とかスパースネスとか。。
オッカムのカミソリ?
物理法則の説明をするとき、より簡単な理論の方が良い??
→例外パターンが無視されがち?
# 再犯率スコア
事実に基づいて、ジャーナリズムを進めよう!
COMPAS、再犯の危険率、裁判員の客観的判断のため
量刑には使っちゃだめ、保釈の可否の判断
量刑に使ってしまった事件が起きる
→話題になったので、分析してみた
予想で国ごとに差別は起きてない
が、FalsePositiveはアフリカ系が高かった。(データ分析のおかげでわかった)
・Formal Fairness
s)sensitive information:人種間とか性別とかインサイダーとか、,0:よくない、1:良い
↓影響する
y)target/objective:大学の合否とか借金とか,0:よくない、1:良い
x)non-sensitive feature
機械学習の不公正のどれを取り除くか?
- anotation bias
人間のラベルは信用できない?
でも偏見のないデータはない
# 独立性
y^(予測)がSと独立
国ごとに借金できる率が一緒ならおk
→国の特徴を消せば良いのでは?
→Red-Lining Effect
実は影響してる特徴があるかもしれない、目で見てもわからない
銀行:人種で金貸しの判断をするな、青線、赤線でやってた
条件付き独立
YとS独立がgiven X
- 帰納バイアス
元々のデータと予測した値が
Y^独立S given Y:TPRとFPRがSによって一緒になってないとダメ
--- ここまでは統計的な議論
いくつかの性質がある
機会の公平性、結果の公平性
手続きの公平性、分配の公平性?
- グループ/個人 公平性
グループで均等ならおk、個人はもう少し厳しい
個人だと、スキルとかが全く一緒の人は中々いないから難しい
-
女性用の服のモデルに女性を雇うのは良いでしょう
入試の判断、法律的に説明可能な変数を出すと問題なかった
医学部、CS部、男女の応募数、学部の合格率
Y 独立 S | E
-----
ネットにAPIを置いておいて、試してみる
分類法
- by Process
pre:事前に公平なデータにしてから学習
in:予測アルゴに組み込んで公平性
post:あとで頑張って、公平にする
- by Task
タスクごとに分類
Unfari Association Rules
一定以上sensitive fetureが寄与してたらダメだよ
→チェック、直接差別、間接差別
色々なデータを入れてみて、チェックする
- 分類問題
pre-process:マッサージング:無理やりラベルを変えて、揃えてしまう
in-process:独立性の項を入れて、一緒に最適化する
post-process:
- 口コミの協調フィルタリング
友達推薦、支持政党の友達の推薦リストになってしまう
自分と同じ人の意見しか聞かなくなる:社会に多様性が無くなりますよ
公平性の補正項があると違うよ
- Bias in Word Embedding
ワードベクトルで演算できる?
職業に偏りが生じる?文章による→後から補正する
- Ranking
どこで区切っても公平になるように、ランキングしよう