Revisionerò e pulirò l'output dell'estrazione PDF in json e markdown

Alcune informazioni sono state tradotte automaticamente.

Germania

Parlo Tedesco, Inglese

Revisione output PDF in JSON e Markdown

Lavoro sulla pulizia del parsing di PDF e documenti con Python. Trasformo l'output esistente di strumenti come Docling o PyMuPDF in blocchi JSON revisionabili, Markdown pulito, record in JSONL e brevi...
Informazioni su questo servizio

Il risultato dell'estrazione del tuo PDF sembra utilizzabile, ma ha bisogno di essere pulito e verificato prima di revisione, pulizia, mappatura dello schema o preparazione all'ingestione RAG?


Revisiono l'output dei parser esistenti da Docling, PyMuPDF, Unstructured o strumenti simili e creo:


  • blocchi JSON normalizzati con file di origine, numero di pagina, bounding box, ID del blocco e provenienza
  • - un rapporto di qualità conciso che segnala strutture mancanti, rumorose o rischiose
  • - Markdown pulito con commenti di riferimento alla fonte
  • - record opzionali in JSONL per pacchetti Standard o Premium

Il lavoro parte dal tuo obiettivo: quali campi sono importanti, quali ID o riferimenti di origine devono essere preservati e come utilizzerai l'output a valle.


Ciò di cui ho bisogno:

  • JSON del parser esistente o 3-5 pagine di esempio per una verifica rapida
  • - output desiderato: JSON, Markdown, chunk JSONL o uno schema specifico
  • - campi, metadati di pagina, riferimenti di origine o ID che devono rimanere tracciabili

Ciò che non coprirò:

  • garanzie di accuratezza OCR
  • - costruzioni complete di chatbot RAG
  • - proprietà legali, mediche o di conformità
  • - deployment SaaS in produzione
  • - pulizia di documenti scannerizzati o ricostruzione di tabelle complesse
  • - estrazione perfetta da documenti arbitrari

Tecnologia:

Python

Expertise:

Estrazione dati

Manipolazione dati

Convalida dati