Клик, селфи, парите са у вас. Междувременно компютър е взел решение, което преди изискваше кредитен инспектор, принтер и кафеварка. Нека отворим черната кутия, за да разкрием странни променливи и ще обсъдим дали машината е справедлива към хората извън статистиката.
От таблици до градиентни буустери – кратък курс
Първите системи отпреди 20-25 години ползват логистична регресия – 12 показателя, тегла и отпадане. Точност – 56 %.
Днес някои от топ компаниите за кредити на пазара прилагат XGBoost с над 1200 критерия, като обновяват модела на всеки час. Точността е близо 75 %. Само 1 % подобрение спестява милион лева лоши кредити годишно.
Няколко специфични данни, които ще ви изненадат
Критериите за подбор на клиенти при кандидатстване за кредит наистина могат да ви изненадат. Някои от най-пикантните са:
- Грижа за батерията – колко често батерията пада <5 %. Хроничното разреждане корелира със закъснения при връщането на заема.
- Уикенд мобилност – GPS показва, че сте обиколили пет бара след полунощ. Повишава риска с 4 пункта.
- Употреба на емоджита – писмата ви до съпорт с много емоджита сигнализират импулсивен темперамент.
- Време за четене – ако сте на страницата „Общи условия“ под 12 сек, моделът намалява скор.
- API Ping Speed (скорост при работа с приложението/сайта) – бързият отговор на банката подсказва качествен телефон, бърз интернет, често по-високи доходи.
Обучение на данни – откъде идват цифрите
Източниците, които „захранват“ моделите за оценяване на кандидатстващите за пари на заем са основно:
- Извлечения от отворено банкиране (с разрешение);
- телеметрия от приложението – версия на ОС, език, регион;
- публични данни – имотно състояние, фирмена собственост;
- социален граф (окосяване за GDPR): общи телефони в контактите.
Калъпът на несправедливост – география и дискриминация
Ако кварталът има исторически по-ниски доходи, бизнесът ви наказва. Това е статистическа, но не морална логика. В САЩ законът ECOA забранява “proxy variables” като например ZIP код (подсказва на фирмата къде сте регистриран). В България няма такова изискване, само препоръка от БНБ за „недискриминационни данни“.
Прозрачност = обяснима AI?
Напоследък все повече кредитиращи фирми използват в процесите си технологии тип „модел върху модела“ – обяснителен слой, който казва на клиента: „Отказахме ви заради това и това… (например – n просрочия, нередовно плащане на водата/тока и фамилното име)“
Проблемът е, че така се разкрива част от тайната рецепта за оценяване, което може да научи кандидатстващите как да „излъжат“ системата. Имайки предвид обаче, че от едната страна са богати фирми с почти неограничен ресурс, а от другата – хора, имащи нужда от спешни пари до заплата, тази битка е по-скоро предрешена.