lauhub · June 8, 2021 22:19
diff --git a/Font_statistics_from_PDF_document.md b/Font_statistics_from_PDF_document.md
diff --git a/pdfminer_font_size_statistics.py b/pdfminer_font_size_statistics.py
 #!/usr/bin/env python3
 # -*- coding: utf8 -*-

 from pdfminer.layout import LTTextContainer,LTChar,LTLine,LAParams,LTAnno
 from pdfminer.high_level import extract_pages
 import os
 from sys import argv

 def extract_from_file(path):
    extracted_data = []
    for page_layout in extract_pages(path):
        for element in page_layout:
            if isinstance(element, LTTextContainer):
                for item in element:
                    if isinstance(item,LTChar):
                        extracted_data.append([round(item.size, 1), item.get_text(), len(item.get_text())])
                    elif isinstance(item,LTAnno):
                        pass
                    else:
                        for character in item:
                            if isinstance(character, LTChar):
                                extracted_data.append([round(character.size, 1), item.get_text(), len(item.get_text())])
                                break
    font_size_stats = dict()
    font_size_count = 0
    for info in extracted_data:
        font_size = info[0]
        txt_length = info[2]
        font_size_count += txt_length
        if font_size in font_size_stats:
            font_size_stats[font_size] += txt_length
        else:
            font_size_stats[font_size] = txt_length
    for size in font_size_stats :
        print("{prefix}Percentage for {s} font size: {p:.2f}% ({s}pt: {c} chars for total of {t} chars)"\
              .format(s=size, p=100 * font_size_stats[size] / font_size_count, \
                      c=font_size_stats[size], t=font_size_count, prefix=">>> " if size==12 else ""))


 if __name__ == '__main__':
    extract_from_file(argv[1])
	#!/usr/bin/env python3
	# -- coding: utf8 --

	from pdfminer.layout import LTTextContainer,LTChar,LTLine,LAParams,LTAnno
	from pdfminer.high_level import extract_pages
	import os
	from sys import argv

	def extract_from_file(path):
	extracted_data = []
	for page_layout in extract_pages(path):
	for element in page_layout:
	if isinstance(element, LTTextContainer):
	for item in element:
	if isinstance(item,LTChar):
	extracted_data.append([round(item.size, 1), item.get_text(), len(item.get_text())])
	elif isinstance(item,LTAnno):
	pass
	else:
	for character in item:
	if isinstance(character, LTChar):
	extracted_data.append([round(character.size, 1), item.get_text(), len(item.get_text())])
	break
	font_size_stats = dict()
	font_size_count = 0
	for info in extracted_data:
	font_size = info[0]
	txt_length = info[2]
	font_size_count += txt_length
	if font_size in font_size_stats:
	font_size_stats[font_size] += txt_length
	else:
	font_size_stats[font_size] = txt_length
	for size in font_size_stats :
	print("{prefix}Percentage for {s} font size: {p:.2f}% ({s}pt: {c} chars for total of {t} chars)"\
	.format(s=size, p=100 * font_size_stats[size] / font_size_count, \
	c=font_size_stats[size], t=font_size_count, prefix=">>> " if size==12 else ""))


	if __name__ == '__main__':
	extract_from_file(argv[1])
No results found