機械学習における公平性①

産総研人工知能セミナー

 

○ 機械学習における公平性の概要

神嶌先生(産総研

PRMLの翻訳もされた方?

http://www.kamishima.net/fadm/

 

データマイニングの技術

重大な決定に利用される:採用とか借金とか。。

公平性の担保が必要

・社会的な公平性

2010くらいから機械学習の公平性は始まった

最初は少なかったが、2014のワークショップで少し大きくなった

2016-2017ですごく伸びた:EUGDPRトランプ大統領の話

数学的に公平性を定義するには?

 

・どういう原因で不公正はデータマイニングで起きるのか?

- データバイアス:

ラベルに偏りがある場合(人手ではどうしても乗る、差別意識

ラベルがダメな時、特徴がダメな時がある

特徴、自然言語処理の新聞とかそのまま人の偏りが乗る

#ターゲット広告

検索に関連した広告、名前検索時の結果?

国による名前でよくない候補がでる(逮捕歴とか逆なことも)

→偉い先生が調べたけど、別に作為的なものはなかった

みんなが悪意に満ちた行動を取っていたから、それがデータに乗った

 

- サンプリングバイアス:

データのサンプリングに偏りある場合

借金だと申し込んだ人のデータしかない

# 標本選択バイアス

貸した人に対して、逃げたかどうか?

貸した人のデータしか得られない。。。

→データの偏りの発生

 

- 帰納バイアス

仮定で学習、この仮定のせいでバイアス

汎化→少数派の意見を殺しがち

# 帰納バイアス

MLは仮定を置かないと、汎化できない(予測とかに使えない)

これがないと、事実の列挙になる

仮定が事実と合わないと、バイアスが起きる

平滑性とかスパースネスとか。。

オッカムのカミソリ?

物理法則の説明をするとき、より簡単な理論の方が良い??

→例外パターンが無視されがち?

 

# 再犯率スコア

データジャーナリズムNPO

事実に基づいて、ジャーナリズムを進めよう!

COMPAS、再犯の危険率、裁判員の客観的判断のため

量刑には使っちゃだめ、保釈の可否の判断

量刑に使ってしまった事件が起きる

→話題になったので、分析してみた

予想で国ごとに差別は起きてない

が、FalsePositiveはアフリカ系が高かった。(データ分析のおかげでわかった)

 

・Formal Fairness

s)sensitive information:人種間とか性別とかインサイダーとか、,0:よくない、1:良い

↓影響する

y)target/objective:大学の合否とか借金とか,0:よくない、1:良い

 

x)non-sensitive feature

 

機械学習の不公正のどれを取り除くか?

 

-  anotation bias

人間のラベルは信用できない?

でも偏見のないデータはない

# 独立性

y^(予測)がSと独立

国ごとに借金できる率が一緒ならおk

→国の特徴を消せば良いのでは?

→Red-Lining Effect

 実は影響してる特徴があるかもしれない、目で見てもわからない

銀行:人種で金貸しの判断をするな、青線、赤線でやってた

条件付き独立

YとS独立がgiven X

 

- 帰納バイアス

元々のデータと予測した値が

Y^独立S given Y:TPRとFPRがSによって一緒になってないとダメ

 

--- ここまでは統計的な議論

いくつかの性質がある

機会の公平性、結果の公平性

手続きの公平性、分配の公平性?

 

- グループ/個人 公平性

グループで均等ならおk、個人はもう少し厳しい

個人だと、スキルとかが全く一緒の人は中々いないから難しい

 

女性用の服のモデルに女性を雇うのは良いでしょう

入試の判断、法律的に説明可能な変数を出すと問題なかった

医学部、CS部、男女の応募数、学部の合格率

Y 独立 S | E

 

-----

ネットにAPIを置いておいて、試してみる

 

分類法

- by Process

pre:事前に公平なデータにしてから学習

in:予測アルゴに組み込んで公平性

post:あとで頑張って、公平にする

- by Task

タスクごとに分類

 

Unfari Association Rules

一定以上sensitive fetureが寄与してたらダメだよ

→チェック、直接差別、間接差別

色々なデータを入れてみて、チェックする

サロゲート

 

教師あり学習

- 分類問題

pre-process:マッサージング:無理やりラベルを変えて、揃えてしまう

in-process:独立性の項を入れて、一緒に最適化する

post-process:

 

- 口コミの協調フィルタリング

友達推薦、支持政党の友達の推薦リストになってしまう

自分と同じ人の意見しか聞かなくなる:社会に多様性が無くなりますよ

公平性の補正項があると違うよ

 

- Bias in Word Embedding

ワードベクトルで演算できる?

職業に偏りが生じる?文章による→後から補正する

 

- Ranking

どこで区切っても公平になるように、ランキングしよう