Mark Swaringen mswaringen

5 followers · 8 following

Remote
04:02 (UTC)

View GitHub Profile

Recently created

Least recently created

Recently updated

Least recently updated

mswaringen / gist:87e8455d1a256e4658fdac14183fad1e

Created January 20, 2026 22:07

SSRN scraper

	from pathlib import Path
	import re
	from urllib.parse import urljoin, urlparse

	from scrapling.fetchers import Fetcher, StealthyFetcher
	from scrapling.parser import Selector


	paper_url = "https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2041429"

mswaringen / pdf_ocr.py

Last active February 25, 2025 14:12

	# need to have Tesseract installed
	# pip install pymupdf
	# get_textpage will attempt hybrid OCR first, if it enounters a non-digital block it will OCR only that block
	# if text is unreadable, will revert to full page OCR

	def get_textpage(page):
	tp = page.get_textpage_ocr(flags=0,language="eng+por", dpi=300, full=False)
	page_text = page.get_text(textpage=tp, sort=True)
	readable = is_readable_text(page_text)
	if not readable: