import tiktoken import langdetect #https://github.com/openai/tiktoken/blob/c0ba74c238d18b4824c25f3c27fc8698055b9a76/tiktoken/model.py#L9 T = tiktoken.get_encoding("o200k_base") length_dict = {} for i in range(T.n_vocab): try: length_dict[i] = len(T.decode([i])) except: pass # Sort by length length_dict = dict(sorted(length_dict.items(), key=lambda item: -item[1])) # Print the top 100 japanese words tot = 0 for item in length_dict: try: if langdetect.detect(T.decode([item])) == "ja": print(item, T.decode([item])) tot += 1 except: pass if tot == 100: break """ Output: 106378                  113862 ありがとうございました 93926 ありがとうございます 147058 VIPがお送りします 33552          108576 風吹けば名無し 170050       171403 スーパーコピー 196368 】【。】【”】【 77298 @お腹いっぱい 87123 風吹けば名無し 118712 トラックバック 123086 がお送りします 139807         177976 ご了承ください 44948 名無しさん 106409 ございました 109574 レディース 109585 ラックバック 119029        136526 お問い合わせ 137015 お願いします 146906 の名無しさん 148746 してください 169195 中央値との差 192583 しております 194528 ・・・。 195002 プロフィール 195972 】【。】 196993 されています 26139 名無しさん 44832 】【。】【 55300 ありがとう 59809 ございます 76286 ・・・ 90602 @恐縮です 92559 ランキング 94092       95839 こんにちは 105097 問い合わせ 105931 続きを読む 111060 】【、】【 120362 送りします 121986 スーパー 123622 スポンサー 124871 しています 143814 名無しの 144531 ありません 154079 転載は禁止 159656 ブラック 164454 があります 168396 平均との差 173276 になります 178655 オンライン 178757 こんばんは 180276 ブランド 185024 カテゴリー 190841 っています 191902 コメント 197513 @おーぷん 12754      41460 コメント 44900 ください 45955    69920 いっぱい 72905     75206 ・・・・ 77798 いました 79854 しました 86165 風吹けば 89941 ディース 90288 恐縮です 92994 ポイント 94408 について 95113   95197 ケース 98560 ・・・ 101560 あります 104099 コピー 110484 レビュー 111674 ブランド 115557 メンズ 116908 はこちら 117391 この記事 117789 おすすめ 120447 。しかし 122223 ています 124256 サービス 125442 アクセス 127204 おります 127850 フォーム 128237 ニュース 131888 よろしく 132285 カテゴリ 143402 サイズ 146281 クリック 146381 ッション 146703 りました 147131 」という 147589 ーション """