Назад к портфолио
data processing / business registry

Companies

Проект для обработки и структурирования данных по компаниям, полезный для enrichment, справочников и интеграционных задач.

Companies

Краткое назначение

Pipeline для обогащения списка компаний по названию.

Бизнес-задача

Для продаж, research и due diligence часто нужен быстрый сбор БИН, города, руководителя, адреса, контактов, сайта и профиля компании. Проект автоматизирует эту работу через несколько источников данных.

Техническое решение

Pipeline принимает CSV input, обращается к нескольким provider'ам, кэширует HTTP-запросы и формирует расширенный CSV output с найденными полями и источниками.

Архитектура

  • CSV input/output;
  • provider architecture;
  • HTTP request layer;
  • caching;
  • field normalization;
  • source tracking;
  • enrichment workflow.

Стек

Python, HTTP requests, data providers, caching, CSV input/output, SerpAPI, Bing Search.

Интеграции

  • search providers;
  • external business data sources;
  • CSV workflows.

Ограничения и риски

Обогащение данных из открытых источников может быть неполным или ошибочным. Для production-использования нужен confidence scoring и ручная проверка критичных полей.

Что показывает в портфолио

Data enrichment, research automation, provider-based architecture и practical B2B data workflows.