anilkeshwani · March 18, 2025 09:20
diff --git a/compare_defaultdict_regular_dict_benchmark_tokenization.py b/compare_defaultdict_regular_dict_benchmark_tokenization.py
 import random
 import string
 import timeit
 from collections import defaultdict


 # Generate a random list of words (simulating a corpus)
 random.seed(42)
 words = ["".join(random.choices(string.ascii_lowercase, k=5)) for _ in range(100000)]


 # Benchmark defaultdict(int)
 def using_defaultdict():
    word_freqs = defaultdict(int)
    for word in words:
        word_freqs[word] += 1


 # Benchmark regular dict with explicit check
 def using_regular_dict():
    word_freqs = {}
    for word in words:
        if word in word_freqs:
            word_freqs[word] += 1
        else:
            word_freqs[word] = 1


 # Measure execution times
 defaultdict_time = timeit.timeit(using_defaultdict, number=1_000)
 regular_dict_time = timeit.timeit(using_regular_dict, number=1_000)

 print(f"{defaultdict_time = }")
 print(f"{regular_dict_time = }")
	import random
	import string
	import timeit
	from collections import defaultdict


	# Generate a random list of words (simulating a corpus)
	random.seed(42)
	words = ["".join(random.choices(string.ascii_lowercase, k=5)) for _ in range(100000)]


	# Benchmark defaultdict(int)
	def using_defaultdict():
	word_freqs = defaultdict(int)
	for word in words:
	word_freqs[word] += 1


	# Benchmark regular dict with explicit check
	def using_regular_dict():
	word_freqs = {}
	for word in words:
	if word in word_freqs:
	word_freqs[word] += 1
	else:
	word_freqs[word] = 1


	# Measure execution times
	defaultdict_time = timeit.timeit(using_defaultdict, number=1_000)
	regular_dict_time = timeit.timeit(using_regular_dict, number=1_000)

	print(f"{defaultdict_time = }")
	print(f"{regular_dict_time = }")
No results found