Наука о данных может оказать спасительное (и экономящее средства) воздействие в здравоохранении. США тратят почти 12 000 долларов на человека в год на здравоохранение и однако занимают последнее место среди сопоставимых стран по показателю доступности и качества здравоохранения (по данным Фонда семьи Кайзер). Одним из источников данных, обычно используемых в Healthcare Data Science, является электронная медицинская карта (EMR). В этой статье я хочу рассмотреть общие элементы данных ЭМИ, коснувшись потенциальной полезности и проблем каждого из них.
Во-первых, данные EMR отражают информацию, которую имеет клиницист при лечении пациента в медицинском учреждении (например, в больнице). Наиболее распространенные компоненты данных ЭМИ:
· Демография
· жизненно важные органы
· Лекарства
· Диагностика
· Процедуры
· Лабораторные тесты
Для каждого элемента EMR ниже я приведу пример того, как могут отображаться данные. Однако имейте в виду, что в идеале могут выглядеть данные. Как и другие виды данных наблюдений, данные ЭМИ страдают отсутствием, нестандартными полями, ошибками ввода данных, значениями вне допустимого диапазона и т. д.
Демография
Таблица «Демографические данные» часто содержит информацию, которую можно использовать для обобщения когорты пациентов. Часто первым шагом в любом анализе является оценка демографических характеристик вашей когорты, которая может дать представление о потенциальной обобщаемости ваших результатов. Поле идентификатора (первый столбец) часто используется в качестве первичного ключа для связи информации о пациенте с другими таблицами. Информация о страховании не всегда доступна, но она может служить показателем социально-экономического статуса пациента.
Жизненно важные
Таблица Vitals содержит информацию, обычно собираемую во время планового осмотра пациента или стационарного наблюдения. Тесты жизненно важных функций обычно идентифицируются в текстовой форме, что может потребовать очистки, особенно когда данные собираются нестандартным образом из нескольких больничных сетей. В идеале тесты Vitals будут включать Имена и коды логических идентификаторов наблюдения (LOINC) для стандартизации терминологии тестов по всему спектру медицинских услуг. Значения и единицы измерения можно использовать для определения исходных измерений пациента относительно даты индексного события, или можно выполнить анализ тенденций, если один и тот же показатель жизненно важных функций измеряется с течением времени. Если значения и единицы недоступны или ненадежны, можно использовать поле Флажок, чтобы отметить, когда пациент пересекает пороговое значение в отношении жизненно важных показателей (например, сатурация O2 упала ниже 90 % = Низкая).
Лекарства
Таблица «Лекарства» может представлять множество возможностей и проблем. Лекарства идентифицируются с использованием произвольного текста и/или стандартизированной системы кодирования. Некоторые распространенные системы кодирования лекарств включают:
- RxNorm из Единой медицинской языковой системы (UMLS)
- Национальный кодекс лекарственных средств (NDC) от FDA
- Универсальный идентификатор продукта (GPI) от Wolters Kluwer
Структура этих кодов может предоставить дополнительную информацию, такую как производитель или класс препарата. Кроме того, стандартизированные коды лекарств можно использовать для стандартизации текстов лекарств. Данные о лекарствах имеют множество вариантов использования: количественная оценка использования лекарств, выявление состояний с помощью схем лечения и создание синтетических контрольных когорт, и это лишь некоторые из них. Однако обычно сначала требуется много очистки и стандартизации данных. Например, структура кода NDC менялась несколько раз, и наркотики часто имеют несколько (или несколько десятков) кодов NDC каждый.
Диагностика
В таблице Диагностика указана история болезни пациента и текущее состояние с использованием кодов Международной классификации болезней (МКБ). Эти коды используются для стандартизации диагнозов в системе здравоохранения. До октября 2015 года использовались коды МКБ 9, после чего коды МКБ 10 стали стандартом. Таким образом, диагностические данные, охватывающие период до и после 2015 года, будут включать коды МКБ 9 и 10. Министерство здравоохранения и социальных служб США предоставляет карту от МКБ 9 до 10 (Общие сопоставления эквивалентности), хотя не всегда есть четкая карта один к одному. Часто таблица диагнозов используется для определения когорты пациентов или выявления факторов риска прогрессирования заболевания. Наконец, если вам не нравится МКБ 9 или 10, достаньте МКБ 11!
Процедуры
Данные процедур очень похожи на данные диагностики. Тем не менее, диагнозы используются для выявления заболеваний, в то время как процедуры описывают, что было сделано с пациентом. Наиболее распространенными системами кодирования, используемыми для процедур, являются ICD-10 PCS, ICD-9 CM и Current Procedural Terminology (CPT), которая является собственной системой, разработанной Американской медицинской ассоциацией. Процедуры могут быть использованы для выявления прогрессирования заболевания (например, диализ при заболеваниях почек) и проведения сравнительного анализа хирургического и медикаментозного лечения.
Лабораторные тесты
Хотя лабораторные данные не всегда доступны в EMR, они могут дать представление о тяжести заболевания, помимо использования лекарств или диагнозов. Лабораторные тесты, как и тесты Vitals, обычно используют Имена и коды логических идентификаторов наблюдения (LOINC) для стандартизации тестовой терминологии по всему спектру медицинских услуг. Результаты лабораторных анализов также можно использовать для подтверждения диагноза или выявления пациентов с заболеваниями независимо от того, был ли у них диагностирован диагноз. Как и в таблице Лекарства, для получения максимальной отдачи от лабораторных данных требуется много очистки и проверки данных. Лабораторные тесты могут использовать несколько кодов LOINC, единицы измерения (если они доступны) могут варьироваться от разных поставщиков лабораторий, а некоторые значения могут выходить за допустимый диапазон либо из-за ошибки ввода данных, либо из-за неправильных единиц измерения. В то время как значения и единицы измерения могут вызвать головную боль, информация может быть очищена от частоты заказов на лабораторные испытания или отметок аномальные/нормальные.
Бонус
Чтобы продемонстрировать потенциал данных ЭМИ, я рекомендую вам ознакомиться с такими проектами, как этот: Прогнозирование диабета 2 типа на основе данных ЭМИ с использованием машинного обучения. Однако, чтобы предупредить вас о последствиях, если это будет сделано без учета входных данных, я призываю вас прочитать: Анализ расовых предубеждений в алгоритме, используемом для управления здоровьем населения.
Наконец, проверьте ресурс MIT MIMIC data, который можно использовать для дальнейших экспериментов с данными EMR, и ознакомьтесь с этим замечательным (бесплатным!) курсом Машинное обучение в здравоохранении, также от MIT.