Анализ выживаемости часто упускается из виду при реализации наиболее популярных систем машинного обучения и статистического анализа. Проще говоря, анализ выживаемости - это время, необходимое для того, чтобы произошло интересующее событие. Хотя это кажется довольно простым, на самом деле все немного сложнее. В этой статье мы рассмотрим некоторые из концепций высокого уровня, которые необходимо понять при проведении анализа выживаемости или принятии решения о том, является ли это подходящим инструментом для вашей проблемы.

Какие проблемы решает анализ выживаемости?

Как вы, возможно, догадались по названию, анализ выживаемости исторически использовался медицинским исследовательским сообществом для измерения выживаемости при приеме определенных лекарств или методов лечения различных состояний. Это далеко не единственное его применение, так как он также широко используется в бизнесе. Вы можете использовать анализ выживаемости, чтобы предсказать, когда один из ваших текущих клиентов перестанет пользоваться вашим сервисом (отток) или когда выйдет из строя машина, которую вы сделали (анализ времени отказов). Социологи используют анализ выживаемости для прогнозирования наступления и времени событий (анализ истории событий).

Вы можете спросить себя: «А нет ли других инструментов, таких как регрессия или классификация, которые могут решить эту проблему?». Ответ - нет. Причина? Цензура.

Цензура

Цензура - это те, кто не испытал интересующего события в окне наблюдения. Представим, что мы - исследователи, посланные на острова Огасавара для изучения выживания местных популяций улиток против корабельных крыс (Rattus rattus), которые наводняют острова. Исследования показывают, что увеличение популяций корабельных крыс на островах привело к сокращению численности видов наземных улиток (в частности, улиток с более крупными раковинами, которые живут над землей / на деревьях). Мы прибываем на остров с достаточным финансированием и припасами, чтобы в течение месяца наблюдать за более крупными наземными улитками.

В нашем примере представим, что мы можем наблюдать 500 из вышеупомянутых наземных улиток, когда они входят в нашу зону наблюдения, которая представляет собой участок земли в лесу площадью 1 акр. Когда улитки входят в эту зону, мы можем наблюдать за ними. У нас также волшебным образом есть много данных об улитках, таких как: диаметр раковины, вес, время, проведенное на деревьях, время, проведенное на земле. Теперь мы будем сидеть и ждать, чтобы запечатлеть наших друзей-улиток, которых съели крысы, или выживут, чтобы рассказать историю.

По прошествии одного месяца мы записали все случаи, когда улиток были съедены крысами, но наше финансирование закончилось, и мы должны уходить. Все улитки, которых мы наблюдали в течение месяца и которые имеют статус B: еще живы или C: покинули зону наблюдения, считаются подвергнутыми цензуре справа. Интересующее событие (их смерть) не произошло в период наблюдения.

Правильная цензура является наиболее распространенным типом цензуры, а также единственным, который имеет смысл в нашем примере с улиткой. При использовании традиционных моделей классификации и регрессии все наблюдения, попадающие в категории B и C, должны быть отброшены. С помощью анализа выживаемости мы можем использовать все наблюдения, чтобы предсказать вероятность того, что событие произойдет в конкретное время.

Функции выживания и опасности.

Функции выживаемости S (t), обычно представлены временем на оси x и вероятностью события, происходящего на оси y. Если бы синяя линия на приведенном выше графике была плоской, оставаясь близкой к 100% в течение нескольких дней, это было бы хорошей новостью для улиток - это означает, что многие выживают в течение всего периода наблюдения. Однако в приведенном выше примере (для графика использовались вымышленные данные) мы видим постепенное снижение выживаемости с последующим резким снижением на 20-й день. Это говорит о плохой выживаемости улиток.

Опасность h (t) - это вероятность того, что улитка, находящаяся под наблюдением в момент времени t, в это время имеет «событие» (убита крысами). Единственное различие между функцией выживания и функцией риска состоит в том, что первая сосредоточена на отсутствии события, а вторая - на происходящем событии.

Заключение

Когда все сказано и сделано, перспективы для бедных улиток на островах Огасавара в лучшем случае мрачны. Но с помощью анализа выживаемости мы можем предсказать время гибели улиток с большей эффективностью, чем другие методы. Это всего лишь поверхностная часть очень сложного предмета, но полезно иметь представление об этих основополагающих концепциях, прежде чем переходить к более сложным. В будущем я планирую копнуть немного глубже и реализовать некоторые модели анализа выживаемости с pysurvival.

А пока желаю удачного кодирования!

💻 Не стесняйтесь заглядывать на мой сайт.

Источники: