# Types of Data (Structured and Unstructured)

*Data exists in different forms and shapes. In order to efficiently work with it we have to understand data content.*

## Structured Data

Структурированные данные - это высокоорганизованная информация, которая аккуратно загружается в реляционную базу данных, живет в фиксированных полях и легко обнаруживается с помощью операций поиска.

Структурированные данные относительно просто вводить, хранить, запрашивать и анализировать, но они должны быть строго определены в терминах имени и типа поля и, как результат, часто ограничиваются символьными числами или специальной терминологией.

> Аналитики обычно используют SQL для выполнения запросов к структурированным данным в реляционных базах данных.

**Examples: csv,tsv, data-base tables**

## Semi-structured data

Полуструктурированные данные поддерживают внутренние теги и маркировки, которые идентифицируют отдельные элементы данных, что обеспечивает группирование информации и иерархию.

**И документы, и базы данных могут быть полуструктурированными.**

Эта категория данных представляет около 5-10% от остальных категорий, но имеет важные use-cases для бизнеса.

**Examples: log-files, xml, json**

## Unstructured Data

Неструктурированные данные могут иметь собственную внутреннюю структуру, но не соответствовать той, которую ожидает база данных.

Несмотря на свою непослушную природу, такие данные тоже невероятно ценны и все чаще доступны в виде источников данных, таких как

* веб-журналы,
* изображения,
* видео,
* электронная почта,
* взаимодействие со службой поддержки клиентов,
* автоматизация продаж,
* данные социальных сетей.

Большинство деловых взаимодействий, по сути, носят неструктурированный характер.

Основная проблема неструктурированных источников данных заключается в том, что для нетехнических бизнес-пользователей такие данные сложно распаковать, понять и подготовиться к аналитическому использованию.

Из-за этого современные методы извлечения данных часто пропускают ценную информацию и делают анализ неструктурированных данных трудоемким и дорогостоящим.

**Examples: images, video, text, binary, etc**
