Types of Data (Structured and Unstructured)
Data exists in different forms and shapes. In order to efficiently work with it we have to understand data content.
Structured Data
Структурированные данные - это высокоорганизованная информация, которая аккуратно загружается в реляционную базу данных, живет в фиксированных полях и легко обнаруживается с помощью операций поиска.
Структурированные данные относительно просто вводить, хранить, запрашивать и анализировать, но они должны быть строго определены в терминах имени и типа поля и, как результат, часто ограничиваются символьными числами или специальной терминологией.
Аналитики обычно используют SQL для выполнения запросов к структурированным данным в реляционных базах данных.
Examples: csv,tsv, data-base tables
Semi-structured data
Полуструктурированные данные поддерживают внутренние теги и маркировки, которые идентифицируют отдельные элементы данных, что обеспечивает группирование информации и иерархию.
И документы, и базы данных могут быть полуструктурированными.
Эта категория данных представляет около 5-10% от остальных категорий, но имеет важные use-cases для бизнеса.
Examples: log-files, xml, json
Unstructured Data
Неструктурированные данные могут иметь собственную внутреннюю структуру, но не соответствовать той, которую ожидает база данных.
Несмотря на свою непослушную природу, такие данные тоже невероятно ценны и все чаще доступны в виде источников данных, таких как
веб-журналы,
изображения,
видео,
электронная почта,
взаимодействие со службой поддержки клиентов,
автоматизация продаж,
данные социальных сетей.
Большинство деловых взаимодействий, по сути, носят неструктурированный характер.
Основная проблема неструктурированных источников данных заключается в том, что для нетехнических бизнес-пользователей такие данные сложно распаковать, понять и подготовиться к аналитическому использованию.
Из-за этого современные методы извлечения данных часто пропускают ценную информацию и делают анализ неструктурированных данных трудоемким и дорогостоящим.
Examples: images, video, text, binary, etc
Last updated
Was this helpful?