PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある
- 例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf
- 「長野」と「長崎」の「長」が、
U+9577ではなく「⾧ (U+2FA7)」になっている
- 「長野」と「長崎」の「長」が、
- 例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/
PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある
U+9577 ではなく「⾧ (U+2FA7)」になっている| from inaSpeechSegmenter import Segmenter | |
| from pydub import AudioSegment | |
| # 入力のwavファイルのパスを指定 | |
| input_file = './input/test.wav' | |
| # 出力のwavファイルのフォルダとプレフィックスまで指定 | |
| # → ./output/segment0.wav, ./output/segment1.wav, のような出力を想定 | |
| output_file = './output/segment' |
MacBook Air (Early 2015) のSSDを960 EVOに換装しました。 MBAをNVMeのSSDに換装したという情報は日本語では少なかったのでメモ書き。 他のMacでも、High Sierra以上かつ対応するアダプタを使用すればこのgistは参考になると思います。
また、さすがにこの環境でWindowsやLinuxを動かしているという人は 検索した範囲ではまだ見つかりませんでしたね。
結論を言うと、macOSはじめWindows 10やArch Linuxでも動いていますが、注意する点がありました:
| #/usr/bin/python | |
| #coding:utf8 | |
| """ | |
| このソフトは、日本分光(JASCO)のスペクトルを記録したファイル(.jws)から波長とintensityをcsv(波長, intensity)にエクスポートすることを目的としています。 | |
| thanks to https://sites.google.com/site/victorhr02/jwsprocessor | |
| 構造体の構造について、上記ソフトウエアにお世話になりました。 | |
| 構造体の解析が完全ではありません。下のintensityデータを取得するの部分のアドレスを変更するか、もしくはバイナリエディタでintensityデータが格納されている部分の開始アドレスを探してください。恐らく最後の一つながりのデータ群が始まっているアドレスです。 | |
| このソフトの実行にはpython標準ライブラリがあれば可能なはずです。つまりpython(>=2.5)を入れただけで実行可能なはずです。 | |
| jwsが溜まっているフォルダにこのファイルをぶち込み、おもむろにこのスクリプトを実行してください。フォルダ内のjwsファイルをから(波長, intensity)という形式でdataというフォルダの中に同名のcsvファイルを作ります。 |
Automator のシェルスクリプトアクションで使えるサンプル集です。「アプリケーション」や「サービス」を作成するときにどうぞ。