[personal profile] mprotsenko
Я безмежно вдячний усім країнам, які приймають українських біженців. Мені навіть соромно за різницю у ставленні до українців у порівнянні з, наприклад, сирійцями.

Але тут мені в очи кинувся чисто статистичний чинник, чому і українці можуть справляти інше враження, ніж інші біженці. І я навіть не буду лізти в культурні відмінності - тим більш, що середньостатистичний (!) українець (!!) як раз не взірець освіти та культури, на жаль.

Чому я зробив фокус на слові "українець"? Саме на маскулінативі? Тому що Україна заборонила виїзд самої кримінальної, самої проблемної групи (з точки зору статистики) - чоловікам від 18 до 60.

Цікаво, реально це впливає на імідж чи загальний про-український нарратив міг би і цю різницю знівелювати?

(no subject)

Date: 2022-09-20 08:27 am (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
Відповім тут на все.

Фрод ми, бачу, спостерігали різний, в смислі, різні юзкейси. bank payment fraud -- це досить вузька тема, якраз цим я не займався. Говорив з парою людей, які писали і тренували рендом форести для Візи, це дуже езотерична область. (Не люблю їх, один мене на роботу не взяв колись, а другий, досить близький знайомий, хоч і розумний IIT-alumni, але аморальна ватна жаба.) Я говорю про web fraud з точки зору стороннього "поліцейського", який не банк, а просто сидить на мережі і знає лише те, що видно в логах http транзакцій і в браузері мінус чисто персональне інфо типу імені, ссн, номера карточки, таке. Зокрема, у нас була (на відміну від стандартних варіантів з кредиткою) дуже велика кількість доступних змінних, обмежена лише ціною їх збору і імплементації. Кілька сотень -- лише найпростіші, реально було мати тисячу... Але в продакшені використовувати більше сотні було невигідно. Але то таке.


> хороший коп арештовує виключно чорних злочинців, а невинних не чіпає, а поганий коп арештовує виключно чорних (всіх)
Чого б цьому другому не заарештовувати ще і всіх білих: у нас же злочинці ще і білі є, тоді він зловить взагалі всіх і буде нам щастя. Не сприйми це як викручування, я не чекав, що треба уточняти очевидні мені умови, що, порівати методи за одними параметрами можна лише, зафіксувавши інші. Хоча, що у нас небезмежні ресурси я постулював, так що тут все просто: кожен арешт коштує грошей, тому, раз обидва можуть заарештувати всіх злочинців, твій хороший коп виявиться дешевшим, поганого ніхто не буде тримати.

Але якось пізно, пора йти спати, тому спочатку уточню терміни, потім нагадаю тезу:
1. коли ти згадуєш "false positive", уточняй, чи ти про false positive rate (FPR -- частка невинно звинувачених серед невинних), чи про 1 − precision (частка невинно звинувачених серед звинувачених). Бо абсолютне число FP не означає взагалі нічого, якщо не знати решту confusion matrix.
2. ще термін з класифікації: sensitivity, вона ж recall. Мова лише про recall не йде ніколи, бо його, очевидно, можна зробити 100%, як у твоєму прикладі. Тому я і писав, що завжди шукають оптимум на ROC кривій, recall vs FPR. Або на recall vs precision, вибір залежить від відносної ціни помилки першого роду, помилки другого роду і транзакції.
3. Ми говорили про "несправедливість". її можна визначати через FPR або 1 −  precision. Так от, весь мій допис не про помилки як такі, а про неоднорідність FPR чи precision в субдемографіях. Нехай, расових. А власне теза з двох частин: (1) неоднорідність між субдемографіями може стабільно існувати навіть якщо параметр раси виключити з прямого розгляду, тому сам факт такої неоднорідності не може служити доказом зловживання параметром раси при класифікації. (2) Гарантовано усунути цю неоднорідність можна лише включивши її усунення як регулязиційну вимогу, що, в свою чергу зіпсує класифікатор.

> ... профайлінг НЕДОРЕЧНИЙ та НЕЕФЕКТИВНИЙ в ситуації, коли йдеться про групи з дуже малою кількістю true positives.
Не показав. Ти проілюстрував, що використання раси як єдиного предиктора, може бути нерозумним. Дякую, Капітане.
В статистиці, взагалі, важко доказати неіснування, простіше показати існування. Бо такі "докази" легко розбиваються простими конструкціями, але зараз я вже не годен писати. Завтра закінчу, якщо дійдуть руки, можеш взяти паузу

Profile

mykyta_p

February 2026

S M T W T F S
123 4 5 67
89 10111213 14
15161718192021
22232425262728

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags

No cut tags