Задачки про AUC (ROC)

2015/10/092015/10/09 alexanderdyakonov задачаAUC, F-мера, тест, ROC

Среди читателей блога много тех, кто только учит машинное обучение, и меня часто спрашивают про разные задачи и упражнения, поэтому начинаю рубрику задача.

Для начала два упражнения, которые мы недавно разбирали с магистрами ВМК МГУ.

Задача 1. Рассматривается задача классификации на два класса. На рис. 1 показаны объекты в пространстве ответов двух алгоритмов (ответы вещественные — до бинаризации по порогу). Вычислить AUC (ROC) для алгоритмов.

Задача 2. Какие значения F₁-меры могут быть у классификатора в задаче с двумя непересекающимися классами (положительным и отрицательным) и тремя объектами?

Решение см. под катом… но сначала попробуйте сами, если интересно.

Решение 1.
1.1. Сначала рассмотрим проекции на оси (т.е. ответы первого и второго алгоритма), см. рис. 1.2.

1.2. Построим ROC-кривые, см. рис 1.2 (по осям — False Positive Rate и True Positive Rate).

1.3. Вычислим площади под кривыми: 0.64 и 0.7, см. рис. 1.3.

Решение 2. Можно честно рассмотреть все возможные случаи, см. рис. 2.1 — выписаны все значения полноты (то же, что и True Positive Rate) и точности (то же, что и Positive Predictive Value):

F1-мера – среднее гармоническое точности и полноты, т.е. чисел из пар (1, 1), (1/2, 1), (2/3, 1), (1/3, 1), (1/2, 1/2), (0, 0). Поэтому все возможные значения F1-меры: 1, 0.8, 2/3, 0.5, 0.

Но до ответа можно догадаться и быстрее;)

Замечание 1. ROC = receiver operating characteristic, AUC = area under the curve. Когда имеют в виду «площадь под ROC» пишут AUROC или AUC ROC, я написал AUC (ROC). Иногда говорят «ROC-кривая», что тоже не совсем корректно, т.к. C — это как раз первая буква CURVE, но зато звучит хорошо.

Замечание 2. Как правило, студенты очень плохо понимают, что такое AUC, как вычислять это значение, как оно может меняться при изменении параметров алгоритмов. Поэтому я и составлял подобные задачки…

Да, кстати, вот интересная интерактивная визуализация (чтобы лучше понять AUC).

Задачки про AUC (ROC): 19 комментариев

AUC ROC (площадь под кривой ошибок) | Анализ малых данных:

2017/07/28 в 17:29

[…] Задачки про AUC (ROC) […]

Ответить
Степан:

2017/12/26 в 05:25

А если догадаться быстрее не вышло? =)

Ответить
- alexanderdyakonov:
  
  2017/12/26 в 12:28
  
  Ну, тогда решайте описанным выше способом…
  
  Ответить
Логистическая функция ошибки | Анализ малых данных:

2018/03/12 в 10:30

[…] Задачки про AUC (ROC) […]

Ответить
vfdev:

2018/03/16 в 02:38

Александр, подскажите, пожалуйста, решая первую задачу возникли такие вопросы:
1) не совсем понятно каким образом были выбраны точки TPR=4/5 FPR=2/5 и TPR=4/5 FPR=3/5 ?
2) есть ли метод посчитать порог для бинаризации значений алгоритма при выборе точки на ROC кривой ?
Спасибо

Ответить
- alexanderdyakonov:
  
  2018/03/16 в 11:57
  
  Здравствуйте!
  
  1) Да, собственно, они не выбраны… они никак не влияют на решение и ответ. Это просто иллюстрация, что при каком-то одном взятом пороге ROC-кривая проходит через нужную точку.
  Подробнее, как строить кривую —
  https://alexanderdyakonov.wordpress.com/2017/07/28/auc-roc-%d0%bf%d0%bb%d0%be%d1%89%d0%b0%d0%b4%d1%8c-%d0%bf%d0%be%d0%b4-%d0%ba%d1%80%d0%b8%d0%b2%d0%be%d0%b9-%d0%be%d1%88%d0%b8%d0%b1%d0%be%d0%ba/
  
  2) Если отвечать на вопрос, как Вы его поставили…
  при построении ROC-кривой Вы знаете, какая точка, какому порогу соответсвует.
  
  Если Вам просто дали ROC-кривую (кем-то построенную) — то определить порог в общем случае невозможно.
  Вы даже не знаете, в каких пределах варьируются ответы алгоритма (из кривой это никак не выводится).
  
  2б) Если отвечать на вопрос: «как по кривой выбрать бинаризацию?…»
  Зависит от того, какая бинаризация Вам нужна.
  Построив ROC-кривую, Вы получили зависимость TPR от FPR — теперь можно выбрать пару этих значений, которая Вас устроит.
  Как вариант, можно выбрать порог, который соответствует точке на ROC-кривой, которая максимально близка к точке (0, 1).
  
  Ответить
Вова:

2018/06/09 в 08:48

Добрый день, я правильно понял, что мы зафиксировали количество объектов равны 5 с конца (всего объектов 7) и далее строим roc кривую по алгоритму.

Ответить
- alexanderdyakonov:
  
  2018/06/09 в 13:06
  
  Здравствуйте, не понял, к чему относится вопрос. В первой задаче 10 объектов, 7 уникальных значений на одном из признаков. ROC-кривая строится стандартным способом… https://alexanderdyakonov.wordpress.com/2017/07/28/auc-roc-площадь-под-кривой-ошибок/
  
  Ответить
  - Вова:
    
    2018/06/10 в 13:29
    
    Извините не уточнил, вопрос действительно к первой задаче: на рисунке 1.2 по два объекта слева вроде как отсечены вертикальной чертой, это меня и смутило. Получается, что можно выбрать и другие FPR ,TPR
  - alexanderdyakonov:
    
    2018/06/10 в 14:13
    
    Прочитайте предыдущий вопрос и ответ на него;)
Vlad:

2018/09/08 в 15:00

1. «ROC = receiver operating characteristic»

2. «Иногда говорят «ROC-кривая», что тоже не совсем корректно, т.к. C — это как раз первая буква CURVE»

Не понятно, почему это не совсем корректно (C stands for characteristic).

Ответить
- alexanderdyakonov:
  
  2018/09/21 в 16:41
  
  Да, Вы правы. Вполне корректно говорить ROC-кривая.
  
  Ответить
Функции ошибок в задачах регрессии | Анализ малых данных:

2018/10/23 в 16:49

[…] Задачки про AUC (ROC) […]

Ответить
Сергей:

2019/03/27 в 00:17

Критерий F1 можна преобразовать к виду: F1=TP/(TP+0.5*(FP+FN)). Получается отношение истинно_положительных к сумме истинно_положительных и усредненого числа ошибок первого и второго родов. Выходит какая-то страноватая свертка с неясной содержательной интерпретацией. Возможно ли для несбалансированой выбоки данных оценивать качество классификации не через F1, а по средней частоте безошибочной классификации каждого класса: 0.5*(TP/(TP+FP) + TN/(TN+FN)) ? В чем недостатки такого критерия, по сравнению с F1?

Ответить
- Сергей:
  
  2019/03/27 в 11:40
  
  Коррекция комментария: «по средней частоте безошибочной классификации для каждого класса: 0.5*(TP/(TP+FN) + TN/(TN+FP))».
  
  Ответить
  - alexanderdyakonov:
    
    2019/03/27 в 17:43
    
    Совсем не понимаю, как вопрос связан с темой поста — тут лишь пару задач на AUC и F1, но раз Вам больше негде спросить… то что Вы предложили называется «Сбалансированной точностью»: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html
    
    В недалёком будущем у меня будет пост про это.
Сергей:

2019/03/27 в 18:12

Спасибо за термин. Жду Вашу новую статью о метриках качества классификации.

Ответить
Alexander:

2019/11/04 в 17:12

Александр, спасибо за труд. Хороший у вас блог. Ниже код для проверки второй задачки, может быть кому-то будет интересно)

def precision(tp,fp):
return tp/(tp+fp) if (tp+fp) != 0 else None

def recall(tp, fn):
return tp/(tp + fn) if (tp + fn) != 0 else None

def F(p, r, b = 1.0):
if p == None or r == None:
return None
if (b**2)*p + r == 0:
return 0
return (b**2 + 1)*p*r/((b**2)*p + r)

def uniq_f1_values(count):
varicanceF = set()
for i in range(count + 1):#все вариации фактического распределения гипотез
factH0 = i
factH1 = count — i
for k in range(factH0 + 1):#результаты применения критерия по фактическим H0
tn = k
fp = factH0 — k
for z in range(factH1 + 1):#результаты применения критерия по фактическим H1
fn = z
tp = factH1 — fn
curP = precision(tp, fp)
curR = recall(tp, fn)
curF = F(curP, curR)
if curF!=None:
varicanceF.add(curF)
return varicanceF

c = 3
uf1v = uniq_f1_values(c)
print(sorted(uf1v))

Ответить
- alexanderdyakonov:
  
  2019/11/04 в 23:31
  
  Спасибо!
  
  Ответить

	alexanderdyakonov к записи Случайный лес (Random For…
	alexanderdyakonov к записи Логистическая функция ошибки
	alexanderdyakonov к записи AUC ROC (площадь под кривой…
	alexanderdyakonov к записи Случайный лес (Random For…
	Ульяна к записи Случайный лес (Random For…
	Ilias Tuktarov к записи AUC ROC (площадь под кривой…
	lapkin25 к записи Логистическая функция ошибки

Анализ малых данных

КвазиНаучный блог Александра Дьяконова

Задачки про AUC (ROC)

Задачки про AUC (ROC): 19 комментариев

Оставьте комментарий Отменить ответ

Октябрь 2015
Пн	Вт	Ср	Чт	Пт	Сб	Вс
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Поделиться ссылкой:

Похожее

Задачки про AUC (ROC): 19 комментариев

Оставьте комментарий Отменить ответ