Project Summary – OCR Data Integrity Research

Purpose: Automate error detection and correction for OCR-extracted receipts in Australian accounting.
Problem: Existing tools (Abbyy, Dext) lack multi-stage verification and integration with ABN rules.
Approach: Develop a hybrid system combining OCR, rule-based logic, ABN API checks, and ML correction.

Experiment 0 – Baseline OCR Analysis
Benchmark existing OCR outputs on Australian receipts.
Experiment 1 – Error Detection
Identify common OCR misreads (blur, font, rotation).
Experiment 2 – ABN Validation
Check extracted supplier numbers against official APIs.
Experiment 3 – Arithmetic Consistency
Validate totals, GST splits, and line-item calculations.
Experiment 4 – Hybrid Corrections
Apply rule-based + ML corrections to repair data.
Experiment 5 – Results Comparison
Compare baseline vs corrected data for accuracy, precision, and recall.