Costruirò agenti AI, bot di web scraping e pipeline di estrazione dati in python


Informazioni su questo servizio
Traduzione automatica.
A chi è rivolto
- Fondatori e responsabili operativi che necessitano di dati ricorrenti (monitoraggio prezzi, arricchimento lead, ricerca di mercato)
- Ricercatori e analisti che estraggono dati strutturati da siti web pubblici o PDF
- team di ML e AI che raccolgono dati di addestramento
- Agenzie i cui clienti chiedono "scrap this for us" e hanno bisogno di un subappaltatore affidabile
Cosa costruisco
- Web scraper in Python (Scrapy, BeautifulSoup, Playwright) o Node (Playwright, Puppeteer)
- Parsing alimentato da AI con OpenAI o Claude, così le pagine non strutturate diventano JSON tipizzato, non spaghetti di regex
- pipeline di dati ricorrenti con pianificazione, deduplicazione, rilevamento delle modifiche e avvisi
- Estrazione di PDF, documenti e OCR quando i dati non sono sulla pagina web
Stack
Python, JavaScript, TypeScript, Scrapy, BeautifulSoup, Playwright, Puppeteer, Selenium, requests, httpx, Pandas, OpenAI
API, API di Anthropic Claude, chiamate di funzione e output strutturati, PostgreSQL, MongoDB, Supabase, Airtable, Google
Sheets
Scopri di più su Hamza Khan
Experienced Full Stack AI Developer
- DaPakistan
- Membro dafeb 2020
- Tempo di risposta medio6 ore
- Ultima consegna1 anno
Lingue
Inglese, Hindi, Italiano, Francese
Traduzione automatica.
Il mio portfolio
Altri servizi della categoria Sviluppo di software offerti da me
FAQ
Traduzione automatica.
Qual è la differenza tra scraping normale e "estrazione alimentata da AI"?
Lo scraping normale utilizza selettori CSS/XPath che si rompono quando un sito cambia layout. L'estrazione alimentata da AI utilizza Claude o GPT per leggere la pagina come farebbe un umano e restituire JSON strutturato secondo il tuo schema. È più resistente, gestisce layout disordinati e ti permette di estrarre campi semantici.
Lo scraper funzionerà ancora dopo l'aggiornamento del sito web?
Le estrazioni alimentate da AI sono resilienti alla maggior parte dei cambiamenti di layout. Gli scraper basati su selettori no — se il sito riscrive il suo HTML, lo scraper necessita di manutenzione. Il livello Premium include 14 giorni di correzioni gratuite; dopo, offro un servizio di manutenzione retainer.
Quali siti puoi scrape?
Siti web pubblici i cui Termini di servizio consentono l'accesso automatizzato, o dove i dati sono esplicitamente pubblici (cataloghi di prodotti, annunci immobiliari, dati governativi, notizie, profili pubblici su siti professionali con politiche di scraping chiare, ecc.). Durante la chiamata di scope, rivedrò il tuo target.
