roedoejet · September 16, 2024 20:11
diff --git a/str_tokenizer.py b/str_tokenizer.py
 import re
 from unicodedata import normalize

 from nltk.tokenize import RegexpTokenizer


 class Tokenizer:
    def __init__(self, symbols: list[str]):
        # NFC normalize and reverse sort by length
        self.symbols = sorted(
            [normalize("NFC", x) for x in symbols],
            key=lambda symbol: (-len(symbol), symbol),
        )
        self.tokenizer = self.create_tokenizer(self.symbols)

    def create_tokenizer(self, symbols: list[str]) -> RegexpTokenizer:
        return RegexpTokenizer("|".join(re.escape(x) for x in symbols))

    def tokenize(self, text: str) -> list[str]:
        text = normalize("NFC", text)
        return self.tokenizer.tokenize(text)


 if __name__ == "__main__":
    STR_CHARACTERS = [
        "A",
        "B",
        "C",
        "D",
        "E",
        "H",
        "I",
        "J",
        "K",
        "L",
        "M",
        "N",
        "O",
        "P",
        "Q",
        "S",
        "T",
        "U",
        "W",
        "W̱",
        "X",
        "X̱",
        "Y",
        "¸",
        "Á",
        "Í",
        "Ć",
        "Ś",
        "Ŧ",
        "Ⱥ",
        "Ȼ",
        "Ƚ",
        "Ⱦ",
        "Ḱ",
        "Ḵ",
        "Ṉ",
        "Ṯ",
        "₭",
    ]
    STR_TOKENIZER = Tokenizer(STR_CHARACTERS)
    print(STR_TOKENIZER.tokenize("ÍY SȻÁĆEL"))
	import re
	from unicodedata import normalize

	from nltk.tokenize import RegexpTokenizer


	class Tokenizer:
	def __init__(self, symbols: list[str]):
	# NFC normalize and reverse sort by length
	self.symbols = sorted(
	[normalize("NFC", x) for x in symbols],
	key=lambda symbol: (-len(symbol), symbol),
	)
	self.tokenizer = self.create_tokenizer(self.symbols)

	def create_tokenizer(self, symbols: list[str]) -> RegexpTokenizer:
	return RegexpTokenizer("\|".join(re.escape(x) for x in symbols))

	def tokenize(self, text: str) -> list[str]:
	text = normalize("NFC", text)
	return self.tokenizer.tokenize(text)


	if __name__ == "__main__":
	STR_CHARACTERS = [
	"A",
	"B",
	"C",
	"D",
	"E",
	"H",
	"I",
	"J",
	"K",
	"L",
	"M",
	"N",
	"O",
	"P",
	"Q",
	"S",
	"T",
	"U",
	"W",
	"W̱",
	"X",
	"X̱",
	"Y",
	"¸",
	"Á",
	"Í",
	"Ć",
	"Ś",
	"Ŧ",
	"Ⱥ",
	"Ȼ",
	"Ƚ",
	"Ⱦ",
	"Ḱ",
	"Ḵ",
	"Ṉ",
	"Ṯ",
	"₭",
	]
	STR_TOKENIZER = Tokenizer(STR_CHARACTERS)
	print(STR_TOKENIZER.tokenize("ÍY SȻÁĆEL"))
No results found