[personal profile] mprotsenko
Я безмежно вдячний усім країнам, які приймають українських біженців. Мені навіть соромно за різницю у ставленні до українців у порівнянні з, наприклад, сирійцями.

Але тут мені в очи кинувся чисто статистичний чинник, чому і українці можуть справляти інше враження, ніж інші біженці. І я навіть не буду лізти в культурні відмінності - тим більш, що середньостатистичний (!) українець (!!) як раз не взірець освіти та культури, на жаль.

Чому я зробив фокус на слові "українець"? Саме на маскулінативі? Тому що Україна заборонила виїзд самої кримінальної, самої проблемної групи (з точки зору статистики) - чоловікам від 18 до 60.

Цікаво, реально це впливає на імідж чи загальний про-український нарратив міг би і цю різницю знівелювати?

(no subject)

Date: 2022-09-16 06:14 am (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
> multiple of anecdote is not data... і то, що менти так чинили зі такою няшечкою як я, чи так чинили з тим чорним злочинцем
So? Я тут розпинаюся, що мене якраз і бісить, коли люди, чуючи single anecdote, однозначно впевнені, що це расизм. Ну і, додатково бісить, що, ніби, у всіх інших питаннях це раціональні люди, бо сексизма чи, он, ейджизма в тому не бачать.

До твого питання: так, копу щось заважало одночасно опитати нас трьох. Йому доводилося вибирати, до кого з трьох дорослих підійти, обов'язково втрачаючи з поля зору інших двох потенційних крадіїв, бо ми були на різних вуличках, розходилися від одного перехрестя. Якби то були справді крадії, вони би мали шанс втекти: принаймі, одна з них, хто, як і я, був за дорожньою тумбою, на машині не проїдеш. Ось, перехрестя, я там 11 років дітей вигулював :) У випадку, коли треба було зупиняти бігуна, той коп теж мусив вибиртати, куди бігти спочатку. Такий профайлінг в роботі всякого копа стається постійно, робота така. Тому факт пройфалінгу не можна використовувати як доказ або навіть ілюстрацію зловмисної упередженості. Це весь мій месидж, не більше, не менше.
Edited Date: 2022-09-16 06:14 am (UTC)

(no subject)

Date: 2022-09-16 08:28 pm (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
> ... профайліти копів - теж норма..
Звичайно.

> ... профайліти і робити висновки ...
Wrong. Ти жирним шрифтом проілюстрував основну проблему, проти якої я весь цей час протестую. Не можна ці поняття разом розглядати. Профайлити -- одне, робити висновки -- інше. Підозріливіше ставитися до Васі, бо його профіль корелює з профілем типового злодія і наркомана -- ок. Звинувачувати Васю за це ж -- злочин. Підозріливо ставитися до поліції, бо вони схильні до расизму і зловживань -- правильно і потрібно. Називати сам факт профайлинга расизмом -- зло і профанація.

> А навіщо одночасно? що, запитати, будь ласка, ... Sorry, m'a'm, you, and you, and you, sir -
Космічні технології -- фігня, з тутешніми дітьми працювати часом важче, вже мовчу про батьків. Я правильно пам'ятаю, що ти не так щоби регулярно гуляєш з кількарічними дітьми?... Таке можна зробити впритул, за 5 метрів треба буде крикнути, за півблоку розводити алярми. Відповідно, поки у нас не облава, а обережна перевірка, чи все ок, то так, усіх охопити не вийде. Але то таке, вже тему зализали, там нічого особливо вартого уваги не ставалося.

Ще тут додам:
> .. intent vs impact ..
Я не погоджуюся з таким підходом, але це термінологічне, а так, навіть якщо допустити, що імпакт рулить, то мій поінт не міняється. Якщо пам'ятаєш, там ламент такого типу: якщо расовий профайлинг = расизм, то профайлинг за статтю = сексизм. Теж імпакт: через клятих сексистів поліцейських дев'ять з десяти в'язнів - чоловіки.

Edited Date: 2022-09-16 08:29 pm (UTC)

(no subject)

Date: 2022-09-17 12:03 am (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
> ... запрофайлив, спіймав та заарештував - це і є "звинуватив", ..
Вибач, треба було писати англійське слово, українське багатозначніше. "Звинуватив" as in different from "висловив підозру", тобто, Indicted. Тобто, оце все "засудив / убив" , та і, за рідкісними винятками "заарештував", це все уже далеко поза рамками, де профайлинг дозволений.
Якщо чувак не винен, то зупинився і дав поліцейському перевірити, що все ок, якщо той помилився, то поліцейський вибачився і пішов шукати наступного кандидата. Все. Єдина проблема: якщо у тебе є інші причини бути заарештованим, то заарештують, навіть якщо торбинку крав не ти. Абидна, але це не расизм.

Ти там в іншому коменті згадав "false positives". Так в роботі правоохоронних органів, на рівні перевірки, помилки першого роду не проблема. Проблема -- false negatives, неперевірені злочинці, і ще більша проблема -- false positives на рівні звинувачень / покарань. Але друге є результатом проблем з доказами, а не пройфалинга.

> ...поліцейський спочатку придивився ...
Я бачив затримання на бігу двічі, раз тут, раз у Львові. Обидва рази все виглядало так, що фрази "придивився" і "розгледів сумочку" звучать як знущання над слухачем. Правильніше буде: краєм ока побачив фігуру і ломанувся за нею, розгледівши мінімум, усвідомивши ще менше. Дивно, ти, за твоїми ж розповідями, мав у житті набагато більше пригод, але якось твої уявні сценарії ну дуже сильно відрізняються від мого обмеженого досвіду: то копи зусиллям волі на відстані відвертають увагу батьків від шумних тодлерів, то на ще більшій відстані за долі секунди сканують інвентар бігунів... Куди там нашій берклійській поліції до луганської :))

(no subject)

Date: 2022-09-17 02:56 am (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
> Я повторю питання - що ти скажеш про систему, яка має статистично помітну різницю між
> несправедливими арештами-засудженнями-вироками по кольору шкіри-статті-тощо?
Названого недостатньо, щоби щось сказати. Для початку, залежить, як визначати. Природнє визначення, імхо, що справедлива система з однакою імовірністю розпізнає невинного, який попав під підозру. Але навіть у такій системі можна відтворити вищенаведену статистику, за рахунок різної частоти підозріваності.

Реальний приклад: донедавна я цим і займався, не злочинцвв ловив, а визначав цифрових шахраїв. Один наш клієнт, банк, після пілоту відмовився від наших послуг. Сказав, що фродстерів ми ловимо кльово, але в результаті виходить, що людям з historically underbanked minorities частіше відмовляють, ніж багатим білим. Банк пішов працювати з конкурентами, які обіцяли equitable алгоритми... Але через рік вернувся до нас, бо equitable алгоритми пропускали забагато шахраїв, і банк втрачав гроші (або доводилося задирати порогові значення моделі так, що відмов було більше і у minorities, і у majorities.

(no subject)

Date: 2022-09-17 06:48 am (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
> ... ти кажеш "нам окей, .... хоча "багатьох Х несправедливо заарештують, поб'ють, посадять...
Не "нам окей", а "всім окей". Принаймні всім ок, поки Х = "чоловіки", або Х = "молодь". Далі, що я кажу, це що боротьба з дикримінацією Х повинна ставатися не через відміну профайлінга, а за рахунок досягнення максимальної точності і справедливості при встановленні вини підозрюваних. А проста арифметика каже, що навіть за умови досягнення вищезазначеної точності і справедливості, поки вона не асболютна, обов'язково будуть такі групи Х, серед яких виявиться більше несправедливо заарештованих, ніж серед якихось Y ≠ Х, поки основною задачею правоохоронної системи є правоохорона, зокрема розкриття злочинів, a.k.a., максимізація true positives. Навіть без пройфалинга. Звичайно, оскільки невинно засудити -- це теж злочин, то шукають методи щось виправляти, тобто завжди вибирають якусь точку на ROC curve... Але я наполягаю, що у твоєму визначенні через impact єдиною гарантованою расово справедливою системою буде така, де затримувати злочинців будуть за расовими квотами, а якщо місячну квоту на чорних і білих уже вибрали, то хай китайці з латиносами начуваються.

> ... біситися від того, що хтось має визначення, які відрізняються ...
Перепрошую, але конкретно "бісить" я казав виключно про підхід, коли расизм -- так, а сексизм або ейджизм -- ні, що ви

(no subject)

Date: 2022-09-18 07:21 am (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
Якось ми знову скотилися в глибоку крілячу нору і перейшли до bats eat cats, cats eat bats. Спати ночами треба! Ну, максимум, з домом говорити :)

А все тому, що ми говоримо про речі дотичні, але дуже різні.

Справа в тому, що я майже з усім, що ти пишеш, згоден, з точністю до епітетів. Що правоохоронна система повиннамінімізувати злочини (я того і писав, що "зокрема ", але, видно, цього було недостатньо), що в реалі поліція багато чим зловживає, що когось реальна система вражає більше, а когось менше, ще купа всяких несправедливостей.... Але це все не грає ролі для того, що я хочу сказати про профайлинг Моя тема інша і більш компаткна: це тема методологічної доречності/необхідності профайлінга взагалі і математично зумовлених його наслідків. . Але оскільки ти цю тематику сприймаєш близько до серця, то одразу перейшов у режим боротьби з расизмом з боку поліції, і кожен аспект розглядаєш саме з цеї точки зору. Тому, думаю, у парі прикладів, яку я навів, ти першим ділом шукаєш "а чого це коп не міг інакше", хоч там вихідний посил прикладу був, що не міг. For all practical purpoces, можеш вважати, що обидва приклади я придумав як ілюстрації, де дано, що поліцейському доводиться вибирати, кого запідозрити першим -- ситуації достатньо реалістичні, щоби не бути малореальними абстракціями типу проблеми вагонетки. (Насправді, ситуації, справді, реальні, але не бачу, як нам уникнути спроб колупатися в зайвих деталях.) Ну і так з усім іншим... Ти не подумай, я тебе не звинувачую в навмисній нечесності чи спробі спотворити дискусію, а лише діагностую, що у нас стається. Я впевнений, говорячи на теми, настільки ж глибоко важливі для мене, я роблю точно те ж саме. Напевне, просто не треба було зачіпати тему расизму, моя кульпа. Тому я оце і пробував з'їхати на менш гострі приклади, як то web security... не вийшло :) Я якось напишу на цю тему окремий пост, так буде, може, краще. А тут я можу лише ще раз переформулювати свою думку без залучання поліції і расизму:

Всяка ціннісно-заряджена (тобто, карає або нагороджує) бінарна класифікація (а) без прямого доступу до таргет метрики, (б) з обмеженими ресурсами і (в) з неоднорідною за додатковими параметрами популяцією класифікованих об'єктів неодмінно виявиться "несправедливою", тобто, для деяких параметрично-зумовлених підмножин імовірність покарання/нагороди буде вища, ніж для інших. Можна пробувати усунути цей дисбаланс через ускладнення objective function (ukr?) класифікатора, а.к.а. регуляризацію, але такі спроби ведуть до погіршення первинних performance metrics, все одно не позбавляться несправеливості, хай для інших субпопуляцій, а ще зворотній зв'язок такого типу дестабілізує класифікаційну систему в цілому.
Розшифровую: (а) означає, що ми не можемо наперед точно виміряти основну цільову метрику (шахрай/ні в web security, віддасть/ні іпотеку в банкінгу); (б) означає потенційну можливість дискримінації, наприклад кандидатів на покарання/нагороду розглядають по черзі; (в) означає, що між observable параметрами і кінцевою класифікацією є ненульові кореляції (більше шахраїв серед рудих, лисі рідше дефолтають). Результат же означає, що з великою імовірністю рудих будуть частіше несправедливо звинувачувати в шахрайстві, а лисим невиправдано частіше давати позики; а спроби не допустити такого дисбалансу приведуть до збільшення загальної кількості шахраїв, росту іпотечних ставок для всіх, і дискримінації бльондинів і велосипедистів як антишахрайським сервісом, так і банками. А через рік проблеми рудих повернуться, хоча проблеми велосипедистів не зникнуть.
Все. Єдиний висновок, який я пропоную з цього зробити, це що сам факт наявності несправеливого outcome'а не може бути доказом джинджерофобії, пеладофілії, чи злих намірів кого завгодно, тому правити класифікатор, підганяючи його під бажану статистику за другорядними параметрами, не можна.
Edited Date: 2022-09-18 07:22 am (UTC)

(no subject)

Date: 2022-09-18 07:46 pm (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
Про приклади якось хіба наживо поговоримо. Гучномовці, блін... Це не облава на дитячому майданчику, але теж розуміння не зустріне.

> ... неефективність широкого профайлінгу ... за кольором шкіри
Відносна ефективність і потрібна ширина залежать від кожного конкретного випадку профайлингу, але в цілому, звичайно згоден.

> Засудження невинних - це другорядний параметр?
?!? Де ти таке прочитав? Я такого не писав... Другорядний параметр -- це колір або наявність волосся. Всякий класифікатор, звчайно, намагається зменшити false positives, знаходячи оптимальний баланс між FP і FN. Що погано, це вставляти в алгоритм вимогу, щоби класифікатор мав однаковий false positive rate або, там, precision, для різних субпопуляцій за цими другорядними параметрами.

> Краща аналогія - це медицина.
Тrust me, хороша аналогія. Я працював з сайтами, де ціна false positive'а була в рази вища, ніж false negative'а. Наприклад, видача автостраховки онлайн сервісами. Хоча, звичайно, якщо прирівнювати черговість перевірки підозрюваонго до арешту і 10 років тюрми, то так... Та і просто за фактом: наші і аналогічні алгоритми звинувачували в такому ж злобному расовому профайлингу, як і поліцію.

> ... погані наміри Івана Дем'янюка ти НІКОЛИ не зможеш довести, ...
Якраз це ні разу не обов'язково. Я кажу інше: якщо дивитися не на наміри, а лише на статистику результатів, то абсолютно "справедливий" класифікатор можливий лише для виродженого результату: не блокувати або не видавати іпотеку нікому. Ну і чим невиродженіші результати, тим більшу несправедливість там можна знайти.

(no subject)

Date: 2022-09-19 06:52 am (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
> ... аналогія погана ...
Та ні, хороша :) За визначенням: я ж ліпше за інших знаю, до чого саме це аналогія :) А вона про речі, які повністю попадають в область перетину множин ознак полісінга в веб полісінга. Відмінності там теж є, хай я не погоджуся з з нульовосумністю чи аж настільки вищою обмеженістю сигналів останнього, але погоджуся, що різниця цих множин теж дуже ненульова.

Але, в цілому, я не можу позбутися відчуття, що ти сприймаєш всяке моє твердження через внутрішній діалог: "Те, що він каже, допомагає боротьбі з расизмом? - Ні. Значить, щось зі сказаним не так, зараз пошукаємо." (Я не стверджую, що ти так думаєш: це саме відчуття) Тому і намагаюся весь час посунутися в область, де ми менше зациклені на моральних оцінках результату, бо поки людина думає про мораль, вона не може нормально розглядати методологічну частину. Для будь якої моралі, хоч християнської, хоч комуністичної, хоч якатамунасзаразнаймодніша: принципи біології однаково вірні незалежно від того, чи вони конфліктують з Біблією, творами Леніна, чи поглядами лідера тіктоківських інфлюенсерів. Так само і тут.
З максими "всякий класифікатор [blah-blah-blah деталі] буде по відношенню до когось несправеливий, а спроба закодувати усунення несправедливостей в алгоритм класифікатора скорше псує речі, ніж поправляє" випливає дуже мало. І це мало я уже сказав. Все інше -- це хибні екстраполяції або не менш хибні інтерпретації. Зокрема, це не означає, що "нема расизму". Не означає, що всякий класифікатор хороший: ні, все можна покращити, але не всяким способом. Не означає, що весь профайлинг в реалі виправданий: ні, є купа проблем, але сам факт "несправедливого" outcome'у цього не доказує. Не означає, що не можна одночасно зменшити кількість арештів і злочинів: можна, включно з покращенням того, як поліція вирішає, кого запідозрити, але в першу чергу всякими іншими методами.

Взагалі, я думав, ти про останнє сам заговориш: це ж популярна (і вірна) думка в лівих і центристських кругах, що effective crime reduction happens not through the change in policing but by attacking the root cause of crime. В web security: ми в принципі не можемо бачити расу... ан, бач, все одно профайлимо негрів і гіспаніків, аж гай шумить. Адекванта поліція профайлить не за расою, а за сукупністю ознак..., але виявляється, що у них з расою сильна кореляція. Поки таке стається, розрізнити адекватну поліцію і зловмисних копів расистів на підставі лише статистики результатів неможливо. Зате базовий підхід до виправлення такої "ненавмисне несправедливої" статистики досить очевидний: замість понижувати планку класифікатора, руйнувати оті кореляції. Case study: web bank account appliction, де ми "дискрімінували" historically underbanked minority communities. Серед пари сотень сигналів-features в нашому алгоритмі найзначущіші за predictive value були сигнали, зав'язані на історію девайса/мережі. Без цих компонент, наш алгоритм був втричі менш чутливим, але, з іншого боку, саме ці риси були головними драйверами "дискримінації". З очевидних причин: в бідніших родинах частіше багто людей користуються одним компом чи планшетом, засмічуючи історію девайса; частіше не захищають нормально компи поки лазять лівими сайтами, ловлячись на malware botnet'и; ще пару зв'язаних з класом або освітою моментів. Можна боротися з цим, заставляючи банк відключити або бастардизувати шахрай-детектор, але від того гірше всім. А краще стане, якщо давати жителям бідніших кварталів додаткові девайси, напрокат або назавжди, проводити курси з комп'ютерної грамотності, роздавати безкоштовні антивіруси.. Другий підхід ефективніший і, на загал, дешевший, але він -- не про policing класифікатор. Але це вже я відійшов від теми, хоч і обіцяв собі не, тема закінчилася в попередньому абзаці.

> Що важливіше - знайти розуміння, чи знайти дівчину, що може бути вкраденою?
Просто зауважу: цей аргумент прекрасно захистить купу дрібних поліцейських зловживань, які ти так критикуєш. Правильна ж відповідь на задане питання: важливіше прореагувати на ситуацію адекватно до комбінації можливих ризиків.

(no subject)

From: [personal profile] malyj_gorgan - Date: 2022-09-20 06:26 am (UTC) - Expand

(no subject)

From: [personal profile] malyj_gorgan - Date: 2022-09-20 06:28 am (UTC) - Expand

(no subject)

Date: 2022-09-20 08:27 am (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
Відповім тут на все.

Фрод ми, бачу, спостерігали різний, в смислі, різні юзкейси. bank payment fraud -- це досить вузька тема, якраз цим я не займався. Говорив з парою людей, які писали і тренували рендом форести для Візи, це дуже езотерична область. (Не люблю їх, один мене на роботу не взяв колись, а другий, досить близький знайомий, хоч і розумний IIT-alumni, але аморальна ватна жаба.) Я говорю про web fraud з точки зору стороннього "поліцейського", який не банк, а просто сидить на мережі і знає лише те, що видно в логах http транзакцій і в браузері мінус чисто персональне інфо типу імені, ссн, номера карточки, таке. Зокрема, у нас була (на відміну від стандартних варіантів з кредиткою) дуже велика кількість доступних змінних, обмежена лише ціною їх збору і імплементації. Кілька сотень -- лише найпростіші, реально було мати тисячу... Але в продакшені використовувати більше сотні було невигідно. Але то таке.


> хороший коп арештовує виключно чорних злочинців, а невинних не чіпає, а поганий коп арештовує виключно чорних (всіх)
Чого б цьому другому не заарештовувати ще і всіх білих: у нас же злочинці ще і білі є, тоді він зловить взагалі всіх і буде нам щастя. Не сприйми це як викручування, я не чекав, що треба уточняти очевидні мені умови, що, порівати методи за одними параметрами можна лише, зафіксувавши інші. Хоча, що у нас небезмежні ресурси я постулював, так що тут все просто: кожен арешт коштує грошей, тому, раз обидва можуть заарештувати всіх злочинців, твій хороший коп виявиться дешевшим, поганого ніхто не буде тримати.

Але якось пізно, пора йти спати, тому спочатку уточню терміни, потім нагадаю тезу:
1. коли ти згадуєш "false positive", уточняй, чи ти про false positive rate (FPR -- частка невинно звинувачених серед невинних), чи про 1 − precision (частка невинно звинувачених серед звинувачених). Бо абсолютне число FP не означає взагалі нічого, якщо не знати решту confusion matrix.
2. ще термін з класифікації: sensitivity, вона ж recall. Мова лише про recall не йде ніколи, бо його, очевидно, можна зробити 100%, як у твоєму прикладі. Тому я і писав, що завжди шукають оптимум на ROC кривій, recall vs FPR. Або на recall vs precision, вибір залежить від відносної ціни помилки першого роду, помилки другого роду і транзакції.
3. Ми говорили про "несправедливість". її можна визначати через FPR або 1 −  precision. Так от, весь мій допис не про помилки як такі, а про неоднорідність FPR чи precision в субдемографіях. Нехай, расових. А власне теза з двох частин: (1) неоднорідність між субдемографіями може стабільно існувати навіть якщо параметр раси виключити з прямого розгляду, тому сам факт такої неоднорідності не може служити доказом зловживання параметром раси при класифікації. (2) Гарантовано усунути цю неоднорідність можна лише включивши її усунення як регулязиційну вимогу, що, в свою чергу зіпсує класифікатор.

> ... профайлінг НЕДОРЕЧНИЙ та НЕЕФЕКТИВНИЙ в ситуації, коли йдеться про групи з дуже малою кількістю true positives.
Не показав. Ти проілюстрував, що використання раси як єдиного предиктора, може бути нерозумним. Дякую, Капітане.
В статистиці, взагалі, важко доказати неіснування, простіше показати існування. Бо такі "докази" легко розбиваються простими конструкціями, але зараз я вже не годен писати. Завтра закінчу, якщо дійдуть руки, можеш взяти паузу

(no subject)

Date: 2022-09-17 01:52 am (UTC)
malyj_gorgan: (Default)
From: [personal profile] malyj_gorgan
Так, звичайно. Адекватний коп і реагує, в першу чергу, на підозрілу поведінку і підозрілий вигляд: що біжить не як джоггер, що, здається, щось ховає під худі, що вбраний не по-спортивному,..., а ще, чого доброго, як члени локального gang'у. А вже той факт, що така манера рухатися і одягатися характерніша для афроамериканців, одні назвуть расизмом, другі статистикою.

Що коп каже судді, я не знаю, але, крім підозрілого бігу, сподіваюся, міг би і сказати, що "that day, we had two other assault and theft incidents reported with the assailant described as a 6'-tall African American male in his mid-to-late teens wearing black jeans a dark brown hoodie. The suspect fit the profile and as he was attempting to escape the area by foot, I decided to initiate the pursuit"... Але знову ж таки, хочера, у нас макроскопічна частка чорних школярів підійде під такий опис, тому що, знову расизм?
Edited Date: 2022-09-17 01:52 am (UTC)

Profile

mykyta_p

February 2026

S M T W T F S
123 4 5 67
89 10111213 14
15161718192021
22232425262728

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags

No cut tags