reestr.curs.kz
Краткое назначение
Модульный парсер реестра предприятий Казахстана.
Бизнес-задача
Для B2B research и data enrichment нужны структурированные данные о предприятиях. Проект автоматизирует сбор, нормализацию, валидацию, дедупликацию и экспорт таких данных.
Техническое решение
Парсер обходит листинг, читает карточки предприятий, нормализует данные, валидирует поля, дедуплицирует записи по БИН и экспортирует результат в несколько форматов.
Архитектура
- configuration layer;
- HTTP client;
- listing parser;
- company card parser;
- models;
- processors;
- exporters;
- storage layer;
- retry/rate limiting.
Стек
Python, HTTP client, JSON/CSV, SQLite, PostgreSQL, retry logic, rate limiting.
Экспорт
- JSON;
- JSONL;
- CSV;
- SQLite;
- PostgreSQL.
Ограничения и риски
Парсинг зависит от структуры сайта и ограничений источника. Для устойчивости нужны rate limiting, retry logic и регулярная проверка селекторов.
Что показывает в портфолио
ETL design, scraping architecture, качество данных, дедупликацию и export-ready data pipelines.