С непрерывным развитием технологий день за днем ​​интернет стал неотъемлемой частью нашей жизни. Мы взаимодействуем с Интернетом каждый день, каждый час и почти каждую минуту. Количество устройств с доступом в Интернет, которые мы используем, увеличивается. И эти устройства записывают огромное количество данных о нас. Форма этих данных, которая анализируется, становится осмысленной и пригодной для обработки, называется большие данные. Это могут быть электронные письма, базы данных, сообщения в социальных сетях, изображения, видео, аудио, тексты, транзакции электронной коммерции, сигналы GPS и любые данные, о которых мы только можем подумать.

Из-за огромного размера и сложности большие данные не могут эффективно храниться и обрабатываться традиционными инструментами управления данными.

Компания Ernst and Young (EY) определяет большие данные следующим образом: «Динамичные, большие и разрозненные объемы данных, создаваемые людьми, инструментами и машинами. Требуются новые, инновационные и масштабируемые технологии для сбора, размещения и аналитической обработки огромного количества собранных данных для получения в режиме реального времени бизнес-идеи, касающейся потребителей, рисков, прибыли, производительности, управления производительностью и повышения акционерной стоимости.

История больших данных

Большие данные — это не что-то совершенно новое или что-то, что существовало только в последние два десятилетия. Первый след больших данных можно проследить до 1663 года, когда Джон Граунт имел дело с огромными объемами информации при расследовании бубонной чумы, свирепствовавшей в то время в Европе. Он был первым статистиком, который использовал статистический анализ данных.

После этого проблема агрегации огромных данных впервые возникла в мире в 1880 году. Бюро переписи населения США объявило, что, по их оценкам, на обработку данных, собранных в ходе программы переписи того года, уйдет восемь лет. В 1881 году Герман Холлерит, сотрудник Бюро, изобрел табулирующую машину Холлерита, которая сократила вычислительную работу.

Термин «большие данные» используется с начала 1990-х гг. Начиная с 20-го века, параллельно с развитием технологий, данные стали развиваться с невероятной скоростью. Начиная с 1980-х годов объем хранения технологической информации на душу населения в мире почти удваивался каждые 40 месяцев; по состоянию на 2012 год ежедневно генерируется 2,5 эксабайта (2,5 × 260 байт) данных. Международная корпорация данных (IDC) прогнозирует, что к 2025 году глобальный объем данных составит 163 зеттабайта.

Области использования

Большие данные используются почти во всех отраслях, особенно в тех, где поведение клиентов очень важно и требует отслеживания. Он используется для развития бизнеса, понимания поведения клиентов, ответов на вопросы, поиска решений сложных проблем и т. д.

С другой стороны, большие данные не только полезны в деловом мире, но и помогают изменить наш мир к лучшему. Вот некоторые области, в которых используются большие данные.

  • Финансы. Финансовые отрасли используют большие данные с прогнозной аналитикой для анализа финансового положения клиентов и разработки соответствующих стратегий для принятия финансовых решений, оценки рисков и кредитного рейтинга.
  • Здравоохранение. Использование больших данных в значительной степени способствует улучшению и развитию здравоохранения для больниц, исследователей, фармацевтических компаний и т. д. Доступ к большому количеству записей пациентов и медицинских изображений и их анализ могут улучшить лечение заболеваний, сделать возможными более эффективные исследования и раннее выявление заболеваний, а также разработать новые лекарства.
  • Медиа и развлечения. Медиа-компании, такие как Netflix, Hulu и т. д., используют большие данные для прогнозирования предпочтений клиентов. Для этого они анализируют прошлые привычки, предпочтения клиентов в чтении, просмотре и прослушивании, а также продукты и услуги компании, которыми они пользовались.
  • Больше областей применения:социальные сети, сельское хозяйство, реклама и маркетинг, электронная коммерция, образование, стихийные бедствия и техногенные катастрофы и т. д.

Типы больших данных

Структурированные данные

Любые данные, которые можно хранить, получать к ним доступ и обрабатывать в фиксированном формате, называются «структурированными» данными. Данные хранятся в виде строк и столбцов. Структурированные данные могут включать имена, даты, адреса, номера кредитных карт, информацию об акциях и т. д.

Структурированные данные хорошо организованы и легко понимаются машинным языком. Наиболее распространенным источником структурированных данных являются системы управления реляционными базами данных (RDBMS). Вот несколько примеров источника структурированных данных:

  • Базы данных SQL
  • Таблицы
  • Онлайн-формы
  • Датчики, такие как GPS или RFID
  • Журналы сети и веб-сервера

Неструктурированные данные

Неструктурированные данные — это информация, которая не организована в соответствии с заранее определенной моделью данных или схемой. Поэтому его формат и структура неизвестны. Поэтому его нельзя хранить в традиционной реляционной базе данных или РСУБД.

80% генерируемых данных — это неструктурированные данные. Сегодня организации и компании получают множество данных в необработанном или неструктурированном формате, но не знают, как извлечь из них ценность или к какой информации получить доступ. Примеры неструктурированных данных:

  • веб-страница
  • Ленты социальных сетей
  • Изображения в различных форматах файлов
  • Видео и аудио файлы
  • Документы, такие как PDF
  • Презентации, такие как Microsoft PowerPoint
  • Журналы мультимедиа
  • Опросы

Полуструктурированные данные

Полуструктурированные данные содержат как структурированные, так и неструктурированные данные. Мы можем рассматривать полуструктурированные данные как формально структурированные, но их нельзя определить с помощью определения таблицы в СУБД.

Полуструктурированные данные обладают некоторыми организационными качествами, что облегчает их разбор и анализ. Он имеет внутренние теги и маркировку, которые позволяют группировать и создавать иерархии. Примеры полуструктурированных данных:

  • Электронная почта
  • Заархивированные файлы
  • Языки разметки, такие как XML

V больших данных

Извлечение информации и принятие решений на основе больших данных характеризуются пятью V: скорость, объем, разнообразие, достоверность и ценность.

Скорость

Скорость относится к скорости, с которой данные генерируются и накапливаются. Данные генерируются очень быстро для удовлетворения потребностей в непрерывном процессе.

Скорость больших данных относится к скорости, с которой данные поступают из таких источников, как бизнес-процессы, журналы приложений, сети и сайты социальных сетей, датчики, мобильные устройства. Поток данных огромен и непрерывен.

В больших данных все быстро, от скорости их создания до времени, необходимого для их анализа.

Объем

Объем — это масштаб данных или увеличение объема хранимых данных. Известно, что большие данные — это огромные размеры. Размер данных играет решающую роль в определении ценности, полученной из них.

Кроме того, от объема данных зависит, действительно ли те или иные данные могут считаться большими данными. Следовательно, объем — это атрибут, который следует учитывать при работе с решениями для больших данных.

В то время как традиционные данные измеряются в известных размерах, таких как мегабайты, гигабайты и терабайты, большие данные хранятся в петабайтах (=1000 терабайтов) и зеттабайтах (=1000000 петабайтов). Население мира составляет около семи миллиардов человек, и большинство из них в настоящее время пользуются цифровыми устройствами; сотовые телефоны, настольные и портативные компьютеры, носимые устройства и т. д. Все эти устройства генерируют, собирают и хранят данные — около 2,5 квинтиллионов байт каждый день. Это эквивалентно 10 миллионам дисков Blu-ray DVD.

Разнообразие

Разнообразие — это разнообразие данных, относящихся к разнородным источникам и характеру как структурированных, так и неструктурированных данных. Традиционные типы данных были структурированы таким образом, чтобы они точно соответствовали строкам и столбцам реляционных баз данных.

С появлением больших данных данные не обязательно структурированы. Неструктурированные и частично структурированные данные не организованы заранее определенным образом, например, тексты, числа, изображения, видео и аудио.

Разнообразие также отражает тот факт, что данные поступают из разных источников, машин, людей и процессов как внутри, так и за пределами организаций и компаний.

Правдивость

Достоверность представляет собой качество данных и соответствие их источника фактам и точности. Атрибуты включают согласованность, полноту, целостность и неопределенность.

В наш цифровой век, когда доступны огромные объемы данных, данные должны содержать надежную и точную информацию. Неточные и бессмысленные записи в данных должны быть очищены, чтобы получить здоровые результаты. Неточные данные не могут быть преобразованы в содержательную информацию. Например, при оценке скорости транспортных средств, движущихся в пробке, если средняя скорость некоторых транспортных средств оказывается отрицательной, следует отключить датчики скорости транспортных средств, учитывая неисправность датчиков скорости транспортных средств.

Ценить

Наиболее важным компонентом больших данных является ценность. Ценность — это способность и потребность преобразовывать данные в ценность. Ценность включает удовлетворение клиентов, сотрудников или личное удовлетворение, а также медицинские или социальные льготы.

Основная причина тратить время на изучение больших данных — извлечь из них ценность. Полученные и обработанные данные имеют смысл, если они добавляют ценности организации. Таким образом, правильный анализ и моделирование больших данных и обеспечение того, чтобы они приносили пользу организации, должны быть приоритетными.

Экосистема больших данных

Термин экосистема определяется в научной литературе как сложная сеть или взаимосвязанная система. Архитектура больших данных состоит из четырех основных уровней: прием и сбор, хранение и интеграция, обработка и анализ и пользовательский интерфейс.

1. Уровень приема и сбора

Уровень приема — это первый шаг в извлечении необработанных данных, которые необходимо сначала принять и собрать из источников.

С увеличением количества источников данных, таких как данные смартфонов, сетевые данные, данные датчиков, данные социальных сетей и т. д., требуется уровень сбора для интеграции структурированных, полуструктурированных и неструктурированных данных из нескольких источников для дальнейшего управления. Это все о сборе информации из нескольких источников и размещении ее там, где к ней можно получить доступ.

Данные могут передаваться в режиме реального времени или приниматься пакетами.

  • Пакетная обработка. Пакетная обработка включает сбор больших групп данных и их последующую доставку вместе. Сбор данных может быть вызван обстоятельствами, инициирован по расписанию или может быть временным. После этого процесса мы накопили исторические данные, которые будут храниться на уровне хранилища для дальнейшего анализа на уровне анализа.
  • Потоковая передача. Это означает непрерывный поток данных. На этом этапе, необходимом для анализа данных в реальном времени, происходит поиск и извлечение данных по мере их создания. Затем потоковые данные передаются на уровень обработки.

2. Уровень хранения и интеграции

Этот уровень содержит хранение, преобразование и объединение извлеченных данных. Он обеспечивает хранение исторических данных. Технологии хранения больших данных должны обладать следующими характеристиками: надежностью, масштабируемостью, высокой производительностью и экономичностью.

3. Уровень обработки

Уровень обработки данных является ядром архитектуры больших данных. Как правило, он включает в себя проверку данных и преобразования данных, такие как структурирование, нормализация, денормализация, очистка данных и т. д.

4. Уровень анализа и пользовательского интерфейса

Для архитектуры больших данных требуются некоторые инструменты анализа данных для запросов и программирования на основе требований пользователя. После этого системы больших данных могут создавать различные интерфейсы для разных пользователей. Например, интерфейсы бизнес-аналитики, биржевого анализа и прогнозирования. Результаты этих приложений помогают пользователям быстро принимать решения.

Технологии обработки больших данных

Технологии обработки больших данных предоставляют способы анализа, обработки и извлечения информации из больших наборов структурированных, частично структурированных и неструктурированных данных, чтобы из больших данных можно было извлечь ценность. К ним относятся базы данных NoSQL, озера данных и технологии с открытым исходным кодом, такие как Apache Hadoop, Apache Hive и Apache Spark.

1. Базы данных NoSQL

В мире больших данных реляционные базы данных, использующие SQL, больше не подходят. Для обработки огромных объемов данных, их хранения и анализа крайне важно полагаться на новые решения. Вот тут-то и появляется NoSQL. NoSQL, что означает «Не только SQL», — это нереляционная база данных, не имеющая фиксированной схемы.

Системы NoSQL совместимы с широким спектром технологий, позволяющих хранить и анализировать структурированные, неструктурированные и частично структурированные данные. Поэтому они легко масштабируются и больше всего подходят для экосистемы больших данных. Они упрощают анализ больших данных.

Существует четыре типа баз данных NoSQL:

  • Хранилище "ключ-значение": здесь большие данные хранятся в виде пар "ключ-атрибут". Это позволяет поддерживать большие объемы данных и большие нагрузки. Данные хранятся в массиве «хэшей», в котором каждый ключ уникален. Это позволяет легче хранить данные без схемы.
  • На основе документов. Они также хранят и извлекают данные в виде пары ключ-атрибут. Однако значение атрибута хранится в виде документа в формате JSON или XML и может быть найдено с помощью запроса.
  • На основе столбцов. Этот тип базы данных NoSQL основан на модели BigTable от Google. Каждый столбец обрабатывается отдельно, а значения сохраняются рядом.
  • На основе графа: они хранят сущности и отношения между этими сущностями. Сущность хранится как узел, а отношения — как границы. Это позволяет легко визуализировать отношения между узлами. Каждый узел и каждое ребро имеют уникальный идентификатор.

2. Озера данных

Озеро данных — это метод хранения массивных данных, используемых большими данными. Эти данные сохраняются в исходном формате или подвергаются минимальной трансформации. Озеро данных отдает приоритет быстрому и большому хранилищу разнородных данных.

Озера данных обычно строятся на недорогом массовом оборудовании, что делает экономически выгодным хранение терабайтов и даже петабайтов данных. Озера данных могут принимать объем, разнообразие и скорость данных и этапов и централизованно каталогизировать их.

3. Технологии с открытым исходным кодом

Apache Hadoop

Hadoop — это набор инструментов, позволяющих хранить и обрабатывать большие объемы данных. Это среда Java с открытым исходным кодом. Hadoop представляет собой надежное, масштабируемое и экономичное решение для хранения данных без форматирования требований пользователя.

В распределенной системе Hadoop узел — это отдельный компьютер, а набор узлов образует кластер. Hadoop масштабируется от одного узла до любого количества узлов, каждый из которых обеспечивает локальное хранилище и вычисления.

Одним из основных компонентов Hadoop является распределенная файловая система Hadoop, или HDFS, система хранения больших данных, которая обеспечивает масштабируемое и надежное хранилище за счет распределения файлов по нескольким узлам. Он распределяет большие файлы по нескольким компьютерам и предоставляет им параллельный доступ. Следовательно, вычисления могут выполняться параллельно каждому узлу хранения данных. Он также реплицирует блоки файлов на несколько узлов, чтобы избежать потери данных. HDFS позволяет кластеру Hadoop делить работу на более мелкие фрагменты и выполнять эти задания на всех серверах в кластере для лучшей масштабируемости.

Apache Hive

Hive — это хранилище данных для запросов и анализа данных, основанное на Hadoop. Это программное обеспечение хранилища данных с открытым исходным кодом для чтения, записи и управления большими наборами данных, которые хранятся непосредственно либо в HDFS, либо в других системах хранения данных, таких как Apache HBase.

Hadoop предназначен для длительных последовательных сканирований, поэтому он менее подходит для приложений, которым требуется очень быстрое время отклика. С другой стороны, Hive основан на чтении и, следовательно, не подходит для обработки транзакций, которая обычно включает в себя большой процент операций записи. Hive лучше подходит для задач хранения данных, таких как ETL, отчетность и анализ данных, и включает инструменты, обеспечивающие легкий доступ к данным через SQL.

Apache Spark

Spark — это механизм обработки данных общего назначения, предназначенный для извлечения и обработки больших данных для широкого круга приложений, включая интерактивную аналитику, потоковую обработку, машинное обучение, интеграцию данных и ETL.

Он использует обработку в памяти, чтобы значительно увеличить скорость вычислений, и переносит их на диск только тогда, когда память ограничена. Spark имеет интерфейсы для основных языков программирования, включая Java, Scala, Python, R и SQL.

Он может работать на своей автономной технологии кластеризации, а также поверх другой инфраструктуры, такой как Hadoop. Он также может получать доступ к данным из нескольких источников данных, включая HDFS и Hive, что делает его очень универсальным.

Возможность быстрой обработки потоковых данных и выполнения сложной аналитики в режиме реального времени является важным вариантом использования Apache Spark.

Влияние больших данных на инженерию данных

Большие данные оказали огромное влияние на инженерию данных, сделав ее гораздо более разнообразной и богатой областью. Со всеми данными, которые компании и организации собирают в наши дни, становится все более и более важным понимать данные и получать из них представление.

Сегодня специалисты по данным извлекают информацию из больших данных и решают проблемы, связанные с этими большими наборами данных. Из-за большого количества собранных данных невозможно использовать традиционные инструменты анализа данных. Однако альтернативные инструменты, использующие распределенную вычислительную мощность, могут решить эту проблему. Такие инструменты, как Apache Spark, Hadoop и их экосистема, предоставляют способы извлечения, загрузки, анализа и обработки данных в распределенных вычислительных ресурсах, предоставляя новые идеи. Это дает компаниям больше возможностей для связи со своими клиентами и расширения предлагаемых ими услуг.

Ограничения больших данных

Аналитика больших данных — мощный инструмент, помогающий компаниям принимать бизнес-решения и находить решения проблем; однако существуют ограничения на использование больших данных.

1. Незначительные корреляции

При работе с большими данными важным и деликатным вопросом является извлечение из них выводов и поиск взаимосвязей, таких как корреляции, между переменными данных. Огромный объем анализируемых данных иногда может затруднить выявление значимых корреляций. Может быть много корреляций между различными переменными в данных, но не все из них могут быть значимыми или значимыми. Важно найти те корреляции, которые имеют причинно-следственную связь.

2. Неправильные вопросы

Анализ больших данных проводится для поиска решений многих бизнес-проблем. Из данных можно найти множество идей и ответов, но важно то, что они должны соответствовать бизнес-целям и действительно решать проблему. Поэтому правильные вопросы следует задавать в рамках бизнес-целей.

Неправильный ответ на правильный вопрос или правильный ответ на неправильный вопрос может привести к проблемам между компаниями и их клиентами.

3. Безопасность данных

Как и любые данные, большие данные подвержены риску утечки данных. Важная информация и выводы из данных могут быть переданы клиентам и конкурентам. Поэтому данные должны иметь дополнительные уровни безопасности, и все, кто с ними работает, должны их соблюдать.

4. Возможность передачи

Большие данные необходимо защищать с помощью брандмауэров или частных облаков, чтобы только специалисты могли получить к ним доступ и использовать их. Поэтому передача данных между группами может быть затруднена для точной передачи. Передача данных должна быть последовательной.

5. Непоследовательность в сборе данных

Инструменты, используемые для сбора больших данных, могут быть не совсем эффективными и действенными. Сегодня так много данных и так много разных способов их собрать. Инструменты сбора данных имеют множество настроек, изменяющих процесс поиска данных. Таким образом, существует тенденция каждый раз получать разные результаты поиска. Это может привести к тому, что каждый раз будут разные наборы данных, что может привести к разному анализу данных и различным корреляциям.

Чтобы идти дальше…

Вот несколько ссылок, если вы хотите исследовать мир больших данных и работать с ними.

Надеюсь, вам понравилось!