Types of Data (Structured and Unstructured)

Data exists in different forms and shapes. In order to efficiently work with it we have to understand data content.

Structured Data

Структурированные данные - это высокоорганизованная информация, которая аккуратно загружается в реляционную базу данных, живет в фиксированных полях и легко обнаруживается с помощью операций поиска.

Структурированные данные относительно просто вводить, хранить, запрашивать и анализировать, но они должны быть строго определены в терминах имени и типа поля и, как результат, часто ограничиваются символьными числами или специальной терминологией.

Аналитики обычно используют SQL для выполнения запросов к структурированным данным в реляционных базах данных.

Examples: csv,tsv, data-base tables

Semi-structured data

Полуструктурированные данные поддерживают внутренние теги и маркировки, которые идентифицируют отдельные элементы данных, что обеспечивает группирование информации и иерархию.

И документы, и базы данных могут быть полуструктурированными.

Эта категория данных представляет около 5-10% от остальных категорий, но имеет важные use-cases для бизнеса.

Examples: log-files, xml, json

Unstructured Data

Неструктурированные данные могут иметь собственную внутреннюю структуру, но не соответствовать той, которую ожидает база данных.

Несмотря на свою непослушную природу, такие данные тоже невероятно ценны и все чаще доступны в виде источников данных, таких как

  • веб-журналы,

  • изображения,

  • видео,

  • электронная почта,

  • взаимодействие со службой поддержки клиентов,

  • автоматизация продаж,

  • данные социальных сетей.

Большинство деловых взаимодействий, по сути, носят неструктурированный характер.

Основная проблема неструктурированных источников данных заключается в том, что для нетехнических бизнес-пользователей такие данные сложно распаковать, понять и подготовиться к аналитическому использованию.

Из-за этого современные методы извлечения данных часто пропускают ценную информацию и делают анализ неструктурированных данных трудоемким и дорогостоящим.

Examples: images, video, text, binary, etc

Last updated