otori334 otori334

PDF に謎の漢字が含まれるとき

PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある

例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf
- 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている
例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/
- 大量にある、どうしてこうなった
- PDF ではないので何かからコピーして書いた？

MacBook Air (Early 2015) のSSDを960 EVOに換装しました。 MBAをNVMeのSSDに換装したという情報は日本語では少なかったのでメモ書き。他のMacでも、High Sierra以上かつ対応するアダプタを使用すればこのgistは参考になると思います。

また、さすがにこの環境でWindowsやLinuxを動かしているという人は検索した範囲ではまだ見つかりませんでしたね。

結論を言うと、macOSはじめWindows 10やArch Linuxでも動いていますが、注意する点がありました:

Automator のシェルスクリプトアクションで使えるサンプル集です。「アプリケーション」や「サービス」を作成するときにどうぞ。

	from inaSpeechSegmenter import Segmenter
	from pydub import AudioSegment

	# 入力のwavファイルのパスを指定
	input_file = './input/test.wav'

	# 出力のwavファイルのフォルダとプレフィックスまで指定
	# → ./output/segment0.wav, ./output/segment1.wav, のような出力を想定
	output_file = './output/segment'

	#/usr/bin/python
	#coding:utf8

	"""
	このソフトは、日本分光(JASCO)のスペクトルを記録したファイル(.jws)から波長とintensityをcsv(波長, intensity)にエクスポートすることを目的としています。
	thanks to https://sites.google.com/site/victorhr02/jwsprocessor
	構造体の構造について、上記ソフトウエアにお世話になりました。
	構造体の解析が完全ではありません。下のintensityデータを取得するの部分のアドレスを変更するか、もしくはバイナリエディタでintensityデータが格納されている部分の開始アドレスを探してください。恐らく最後の一つながりのデータ群が始まっているアドレスです。
	このソフトの実行にはpython標準ライブラリがあれば可能なはずです。つまりpython(>=2.5)を入れただけで実行可能なはずです。
	jwsが溜まっているフォルダにこのファイルをぶち込み、おもむろにこのスクリプトを実行してください。フォルダ内のjwsファイルをから(波長, intensity)という形式でdataというフォルダの中に同名のcsvファイルを作ります。