Наука о данных может оказать спасительное (и экономящее средства) воздействие в здравоохранении. США тратят почти 12 000 долларов на человека в год на здравоохранение и однако занимают последнее место среди сопоставимых стран по показателю доступности и качества здравоохранения (по данным Фонда семьи Кайзер). Одним из источников данных, обычно используемых в Healthcare Data Science, является электронная медицинская карта (EMR). В этой статье я хочу рассмотреть общие элементы данных ЭМИ, коснувшись потенциальной полезности и проблем каждого из них.

Во-первых, данные EMR отражают информацию, которую имеет клиницист при лечении пациента в медицинском учреждении (например, в больнице). Наиболее распространенные компоненты данных ЭМИ:

· Демография

· жизненно важные органы

· Лекарства

· Диагностика

· Процедуры

· Лабораторные тесты

Для каждого элемента EMR ниже я приведу пример того, как могут отображаться данные. Однако имейте в виду, что в идеале могут выглядеть данные. Как и другие виды данных наблюдений, данные ЭМИ страдают отсутствием, нестандартными полями, ошибками ввода данных, значениями вне допустимого диапазона и т. д.

Демография

Таблица «Демографические данные» часто содержит информацию, которую можно использовать для обобщения когорты пациентов. Часто первым шагом в любом анализе является оценка демографических характеристик вашей когорты, которая может дать представление о потенциальной обобщаемости ваших результатов. Поле идентификатора (первый столбец) часто используется в качестве первичного ключа для связи информации о пациенте с другими таблицами. Информация о страховании не всегда доступна, но она может служить показателем социально-экономического статуса пациента.

Жизненно важные

Таблица Vitals содержит информацию, обычно собираемую во время планового осмотра пациента или стационарного наблюдения. Тесты жизненно важных функций обычно идентифицируются в текстовой форме, что может потребовать очистки, особенно когда данные собираются нестандартным образом из нескольких больничных сетей. В идеале тесты Vitals будут включать Имена и коды логических идентификаторов наблюдения (LOINC) для стандартизации терминологии тестов по всему спектру медицинских услуг. Значения и единицы измерения можно использовать для определения исходных измерений пациента относительно даты индексного события, или можно выполнить анализ тенденций, если один и тот же показатель жизненно важных функций измеряется с течением времени. Если значения и единицы недоступны или ненадежны, можно использовать поле Флажок, чтобы отметить, когда пациент пересекает пороговое значение в отношении жизненно важных показателей (например, сатурация O2 упала ниже 90 % = Низкая).

Лекарства

Таблица «Лекарства» может представлять множество возможностей и проблем. Лекарства идентифицируются с использованием произвольного текста и/или стандартизированной системы кодирования. Некоторые распространенные системы кодирования лекарств включают:

- RxNorm из Единой медицинской языковой системы (UMLS)

- Национальный кодекс лекарственных средств (NDC) от FDA

- Универсальный идентификатор продукта (GPI) от Wolters Kluwer

Структура этих кодов может предоставить дополнительную информацию, такую ​​как производитель или класс препарата. Кроме того, стандартизированные коды лекарств можно использовать для стандартизации текстов лекарств. Данные о лекарствах имеют множество вариантов использования: количественная оценка использования лекарств, выявление состояний с помощью схем лечения и создание синтетических контрольных когорт, и это лишь некоторые из них. Однако обычно сначала требуется много очистки и стандартизации данных. Например, структура кода NDC менялась несколько раз, и наркотики часто имеют несколько (или несколько десятков) кодов NDC каждый.

Диагностика

В таблице Диагностика указана история болезни пациента и текущее состояние с использованием кодов Международной классификации болезней (МКБ). Эти коды используются для стандартизации диагнозов в системе здравоохранения. До октября 2015 года использовались коды МКБ 9, после чего коды МКБ 10 стали стандартом. Таким образом, диагностические данные, охватывающие период до и после 2015 года, будут включать коды МКБ 9 и 10. Министерство здравоохранения и социальных служб США предоставляет карту от МКБ 9 до 10 (Общие сопоставления эквивалентности), хотя не всегда есть четкая карта один к одному. Часто таблица диагнозов используется для определения когорты пациентов или выявления факторов риска прогрессирования заболевания. Наконец, если вам не нравится МКБ 9 или 10, достаньте МКБ 11!

Процедуры

Данные процедур очень похожи на данные диагностики. Тем не менее, диагнозы используются для выявления заболеваний, в то время как процедуры описывают, что было сделано с пациентом. Наиболее распространенными системами кодирования, используемыми для процедур, являются ICD-10 PCS, ICD-9 CM и Current Procedural Terminology (CPT), которая является собственной системой, разработанной Американской медицинской ассоциацией. Процедуры могут быть использованы для выявления прогрессирования заболевания (например, диализ при заболеваниях почек) и проведения сравнительного анализа хирургического и медикаментозного лечения.

Лабораторные тесты

Хотя лабораторные данные не всегда доступны в EMR, они могут дать представление о тяжести заболевания, помимо использования лекарств или диагнозов. Лабораторные тесты, как и тесты Vitals, обычно используют Имена и коды логических идентификаторов наблюдения (LOINC) для стандартизации тестовой терминологии по всему спектру медицинских услуг. Результаты лабораторных анализов также можно использовать для подтверждения диагноза или выявления пациентов с заболеваниями независимо от того, был ли у них диагностирован диагноз. Как и в таблице Лекарства, для получения максимальной отдачи от лабораторных данных требуется много очистки и проверки данных. Лабораторные тесты могут использовать несколько кодов LOINC, единицы измерения (если они доступны) могут варьироваться от разных поставщиков лабораторий, а некоторые значения могут выходить за допустимый диапазон либо из-за ошибки ввода данных, либо из-за неправильных единиц измерения. В то время как значения и единицы измерения могут вызвать головную боль, информация может быть очищена от частоты заказов на лабораторные испытания или отметок аномальные/нормальные.

Бонус

Чтобы продемонстрировать потенциал данных ЭМИ, я рекомендую вам ознакомиться с такими проектами, как этот: Прогнозирование диабета 2 типа на основе данных ЭМИ с использованием машинного обучения. Однако, чтобы предупредить вас о последствиях, если это будет сделано без учета входных данных, я призываю вас прочитать: Анализ расовых предубеждений в алгоритме, используемом для управления здоровьем населения.

Наконец, проверьте ресурс MIT MIMIC data, который можно использовать для дальнейших экспериментов с данными EMR, и ознакомьтесь с этим замечательным (бесплатным!) курсом Машинное обучение в здравоохранении, также от MIT.