Parsowanie danych
Parsowanie danych polega na przetwarzaniu informacji, ich porządkowaniu i dostarczaniu gotowych danych.
Doświadczenie
<
Od kilkunastu lat zajmuję się pobieraniem i przetwarzaniem danych. Wśród moich klientów znajdują się małe firmy jak i największe międzynarodowe koncerny. Stawiam na pełny profesjonalizm współpracy na każdym etapie jej trwania.
Zawsze realizuje przewidziane terminy przy zachowaniu odpowiedniej jakości dostarczanych danych.
Parsuję dane ze stron internetowych, systemów webowych wymagających logowania, sklepów internetowych, serwisów informacyjnych itp.
Format sparsowanych danych
Sparsowane dane dostarczam w dowolnym wymaganym formacie - tutaj w pełni dostosowuję się do wymagań klienta. Mogą to być proste pliki tekstowe czy CSV. Mogę wymieniać dane z klientem na podstawie API za pomocą JSONa czy też XMLa. Mogę też dostarczać dane do wskazanej bazy danych u klienta - może to być Oracle, MySQL, PostgreSQL itp.
Infrastruktura
Co miesiąc przetwarzam terabajty danych w poszukiwaniu informacji dla moich klientów. Na potrzeby parsowania danych zbudowałem własną infrastrukturę, w której łączę autorskie rozwiązania do wymiany informacji między serwerami z najpopularniejszymi rozwiązaniami open source.
W celu obsłużenia najbardziej wymagających zleceń korzystam z kilkudziesięciu serwerów.
Przykładowa konfiguracja serwera do przetwarzania danych:
Intel Xeon E3-1245 V3
32GB RAM
120GB SSD
Przykładowa konfiguracja serwera do pobierania danych:
Intel Xeon W3520 V3
16GB RAM
12TB HDD
Przykładowa konfiguracja serwera do wystawiania sparsowanych danych przez API (JSON, XML albo bezpośredni dostęp do bazy danych):
Intel(R) Xeon(R) CPU E3-1245 V2
64GB RAM
480GB SSD
Dedykowana infrastruktura
W przypadku bardziej wymagających klientów mogę przygotować dedykowaną infrastrukturę. Najczęstsze sytuacje przygotowania dedykowanej infrastruktury, to nietypowy model rozliczeniowy (np. naliczanie wg zajmowanej przestrzeni dyskowej danych), chęć odseparowania projektu od innych moich projektów lub szczególnie wymagający klienci.
Przykładowa konfiguracja wirtualnej maszyny dla klienta z nietypowym modelem rozliczeniowym (naliczanie wg zajmowanej przestrzeni dyskowej):
2 rdzenie około 2.5GHz
4GB RAM
4TB HDD
Przykładowa konfiguracja wirtualnej maszyny dla klienta, który chce mieć do dyspozycji odseparowane środowisko:
2 rdzenie około 2.5GHz
4GB RAM
50GB SSD
Przykładowa konfiguracja wirtualnej maszyny dla klienta, który chce mieć do dyspozycji odseparowane środowisko z większą mocą obliczeniową:
7 rdzeni około 2.5GHz
32GB RAM
250GB SSD
Pierwszy krok...
Zainteresowany? Skontaktuj się ze mną: przemek@krajniak.org.