文章校正用の正規表現一覧(自分用)

自分用メモ。「#」から先はコメントなので正規表現ではない。


▼文を小分けにしたほうがいいもの

[^。「」『{}()?]{100,}。 #100文字以上の長いセンテンスにマッチ。
[^。「」『{}()?、]{50,} #読点や句点がないまま50文字以上の文章が続いているものを検出。適宜、読点「、」で区切ったほうがよい。
[ぁ-ん]{15,} #ひらがなが15文字以上連続する。適宜、読点「、」で区切ったほうがよい。


▼接続(詞)を変更したほうがよい

[^。「」『{}()?]{50,}が、#50文字以上のセンテンスが続いたあとに「が、」でセンテンスを繋いでいる。たぶん、センテンスを分けて接続詞を変更したほうがいい。
(しかし|が、|ところが|だが|ものの|けれども|かかわらず|それでいて|のに|それどころか|とはいっても).+(しかし|が、|ところが|だが|ものの|けれども|かかわらず|それでいて|のに|それどころか|とはいっても) #一段落の間に、逆説表現が複数回登場。段落を分けるか、論理構造を見直したほうがいい。
(、[^。]{0,10}){5,}。 #読点が頻出しすぎているきらいのある文を検出。

▼曖昧表現を見直したほうが良さそうなもの

(その|あの|この|それ|あれ[^ば]|これ)[^。]+(その|あの|この|それ|あれ[^ば]|これ) #指示代名詞が一文の中で連続するものを検出。
ような[^。「『{}(?]{0,20}ような #同一センテンス内で20文字以上離れていないところに「ような」が連続するものを検出。
(だろう|おそらく|ともいえる|かもしれない|思われる).+(だろう|おそらく|ともいえる|かもしれない|思われる) #曖昧な文末表現が同一段落内で連続している。
[的性][ぁ-ん][^。]+[的性][ぁ-ん] #「〜的な」「〜性が」といった曖昧表現がセンテンス内で連続して登場するものを検出。※論文とかだと「性」が連続することは多いので、このルールはなくてもいいかも。

▼体言止めの検出

[ァ-ヶ亜-熙]。 #文末の体言止めを検出

▼である調と、ですます調の混在の検出

(である|だ)。\n?.+(ます|です)。|(です|ます)。\n?.+(である|だ)。 #同一段落内のですます調の混在を検出

▼助詞を点検したほうがいいもの

助詞を正確に検出するのは正規表現だと少しむずかしい。MeCabとか茶筅とかの形態素解析エンジンを使ったら、だいぶきちんとできるだろう。下記は、やや強引に「たぶん、助詞が連続してるかも?」ぐらいのものと捉えてほしい。textlintとかに頼ったほうがいいかも。

表現1
(は[^。「」『{}()?]{0,5}){4,} #「は」が頻発するセンテンス。
(が[^。「」『{}()?]{0,5}){4,} #「が」が頻発するセンテンス。
(を[^。「」『{}()?]{0,5}){4,} #「を」が頻発するセンテンス。
(に[^。「」『{}()?]{0,5}){4,} #「に」が頻発するセンテンス。
(の[^。「」『{}()?]{0,5}){4,} #「の」が頻発するセンテンス。

表現2
([ァ-ヶ亜-熙]+は[^ぁ-ん。「」『{}()?]+は) #「は」が連続しているかも?
([ァ-ヶ亜-熙]+が[^ぁ-ん。「」『{}()?]+が) #「が」が連続しているかも?
([ァ-ヶ亜-熙]+を[^ぁ-ん。「」『{}()?]+を) #「を」が連続しているかも?
([ァ-ヶ亜-熙]+に[^ぁ-ん。「」『{}()?]+に) #「に」が連続しているかも?
([ァ-ヶ亜-熙]+の[^ぁ-ん。「」『{}()?]+の) #「の」が連続しているかも?

はが|がが|をが|にが|はを|がを|をを|にを|はに|がに|をに|にに #助詞の修正忘れ

■下記は必要に応じて

▼文中の数字の検出

[\d,0−9]{5,} #5桁以上のアラビア数字を検出。適宜、漢数字などに修正。
[ぁ-んァ-ヶ亜-熙]\d+[ぁ-んァ-ヶ亜-熙] #文中の半角数字を検出

▼表現の選定

([ァ-ヶ・]+[ぁ-ん亜-熙]+){3} #カタカナが頻発している箇所
[亜-熙]{5,} #5文字以上の漢字の連続
[ァ-ヶ・]{10,} #10文字以上のカタカナ
(なく|ない)[^。「『{}(?]{1,10}(なく|ない) #二重否定の検出
(?<=(\n|。))[ぁ-ん]+(?=[ァ-ヶ亜-熙\da-z、]) #文頭の接続詞を検出


▼関連:用語統一(置換処理)

これは、特に正規表現でなくてもいい。

置換前 置換後 備考
今年度 本年度 統一されていればどちらでも
例えば たとえば 文を柔らかくするかどうか
あそび 遊び どちらでも

■HELP:これらの正規表現の活用方法

  • (1)書きながら悪文を把握する
    • テキストエディタの強調表現登録をしておくと非常に便利。(#から後はコメントなので正規表現ではない。)
    • Emeditorであれば設定のプロパティの「強調(1)」から。秀丸であれば、ファイルタイプ別の設定の「デザイン」の項目から設定できる。
  • (2)書いた後に文を修正する
    • すでに書いた文を修正するために正規表現を使う。ただ、全体の構成を練り終わってから手を入れたほうがいいかもしれない。
  • (*)ワードプロセッサ正規表現を使う方法

■以上の校正でできていないこと

  • 校正的な部分
    • 手癖
      • 口語的表現(ちょっと、まずい、すごく)と、文語的表現の混合具合
      • 疑問文の連続:「●●とはどういうことだろうか?」が連続する
    • 論理展開が雑
      • 「ところで」「また」「さて」などの話題転換が、数パラグラフごとに連続
    • 書いた本人にわかりにくい部分
      • 主語を省略しすぎて不明瞭になっている箇所
      • 指示代名詞がわかりにくい箇所
  • 文章構成全体の問題:ほぼ何もできない。要約して論理構造を把握しなおしたり、削ったり、パワポ作ったりしながらやるしかない

■参考

備忘録:e-taxの罠回避のための攻略メモ@2017年度末

e-taxをはじめてやり遂げるのは、DQ2でいえば、ロンダルキアの洞窟をクリアする程度には難しい。とりあえず、今年もe-taxをどうにか攻略して、データ送信できたので、攻略メモを備忘録として書き留めておく。
一番、詰んだらヤバいのは、パスワード間違えてロックがかかってしまうこと。3月15日ぎりぎりにパスワード類の再設定とかするとマジで死ねるので、e-taxするなら、2月中にパスワード類の確認だけでもやっておくこと。

(1)必要なツール類。

  • Windows PC(Macでも可)
  • Internet Explorerの最新版(MacならSafari
  • Adobe Acrobat Reader DC
  • 事前に「電子証明書」が組み込まれているマイナンバーカード(もしくは住基カード)の発行が必要。電子証明書の発行手続きを申し込んでいないと、そもそもe-taxができない
  • 電子証明書の登録。※転居や再発行などの理由で、再登録が必要になることがある。
  • なお、有効期限が設定されており、発行から3年〜5年ぐらいで期限切れになるので、期限切れの前に再発行が必要。
  • JPKI利用者クライアントソフト https://www.jpki.go.jp
  • ICカードリーダー(カードリーダーのドライバーのインストールも、もちろん必要)
  • 事前準備セットアップファイルのダウンロードとインストールが必要
  • e-taxそのものを、ウェブでやるか、e-taxソフトでやるかは、お好みで選択できる。e-taxソフトも一度ダウンロードしてみたが、ウェブ版のほうが、まだ手順がわかるので相対的にマシという印象。

(2)メモしておくべき番号

  • 必要
    • 利用者識別番号(4桁の数字4つで、合計16桁の識別番号。毎年、ハガキに印刷されてくるので、この番号が紛失する可能性は低い。)
    • 署名用電子証明書用暗証番号(6桁以上の英数字のパスワード。マイナンバーカード登録の際に、メモする人が多いと思われる。)
    • e-taxの暗証番号(8桁以上50桁以内。これのメモを忘れると、再発行にかなり時間がかかるようなので、やばみ。)
  • ほぼ不要?

(3)そもそもの確定申告の数字
決算書、所得税の計算など。これはこれで大変だけど、ここは割愛します。

(4)途中データの形式

  • 所得税のデータ:.data形式
  • 青色申告の決算書などのデータ:.xtx形式(内部はxml形式らしい)
  • pdfデータはあくまで、出力用のものなので途中データとして読み込ませる用途には使用できない。

(5)e-taxの罠的なものまとめ

  • 【超重要】マイナンバーカードや、住基カードを持っていても、電子証明書を取得していなければ、e-taxはできない。役所に行って再度の手続きをとる必要がある。
  • 【超重要】パスワード類がやたらと増殖していて煩雑だが、絶対に間違えないように事前に整理しておく必要がある。混乱を招く仕様になっているため、仕様そのものが間違いを誘発しているとしか思えないが、間違ったパスワードを3回〜5回うちこむと、ロックがかかってしまう。ロックがかかると役所までいかなければいけない。つまり、ゲームオーバーです。最初からやりなおしてくださいということ。コンティニューできません。3回間違えたらセーブデータが吹き飛ぶどころか、ゲームそのものが起動しなくなる仕様だと思ってください。ここだけ鬼ハードモードです。オンラインからの再申請とかできません。役所というの名のオフラインからの再申請のみが可能。
    • マイナンバーに関するパスワードは合計で4種類あり、e-taxのためだけのパスワードが1種類あり、合計でご種類のパスワードがあるが、実際にe-taxに必要なパスワードはこのうちの二種類(のはず)。6桁以上の「署名用電子証明書用暗証番号」と、8桁以上の「e-taxの暗証番号」。しかも、パスワードの呼び名が微妙に不統一なので混乱に拍車をかけているが「6桁以上」と「8桁以上」という補助的な記述については、記述に統一性があるので、6桁以上のパスワードか、8桁以上のパスワードかで覚えておくとよい。
  • 【超重要】電子証明書の有効期限がある住基カードなら電子証明書の発行日から3年。マイナンバーカードなら電子証明書発行の日から5回目の誕生日まで。
  • 【重要】「所得税等の確定申告」をすると、全データの送信画面にすすんでしまうので、青色決算書、消費税、贈与税などの申告書を作る必要のある人は「所得税の確定申告」を最初に選んではいけない
    • 間違えて、最初に所得税等の確定申告を選んでしまった場合
      1. 全データ送信画面に行く際に、データのダウンロードを「.data」形式でダウンロードできるので、そのデータをローカルに保存しておくのが吉。
      2. その後、青色決算書を記載した場合、記載後に、所得税の確定申告のページに親切にナビゲートしてくれる。…だが、その場合には事前につくった「.data」ファイルを読み込みチャンスがない。よって、青色決算書のデータを「.xtx」ファイルとしてローカルに保存したうえで、e-taxウェブのトップページまで戻る必要がある。
      3. トップページまで戻ったら、改めて「所得税等の確定申告」に「.data」を読み込ませて、全データ送信の画面まできたら、「xmlファイルなどを添付する」みたいな選択肢が選べるようになる。そのときに「.txt」ファイルを添付する。xmlファイルが、xtx拡張子であるということがパッと結びつかいない人が多いと思うが、国税庁によれば「電子申告するための仕様を公開しているe−Taxソフトにおいて、電子申告のファイル形式を「.xtx」として」いるためだそう。というわけで、xtx拡張子のファイルはxmlファイルである
      4. 一言でいうと、途中データ保存ができる場面があるが、絶対に保存すべき。データ保存していればなんとかなる。
  • 【重要】最終的にデータの送付がエラーになることがさまざまな理由で発生する。e-tax内で完結したメッセージ(メール)システムが実装されているため、最終的にデータが送付できたかどうかは、e-tax内のメッセージの受信ボックス内で送付成功かどうかを確認しておく必要がある。
  • 【重要】また、1月1日より後に引っ越しをした場合、1月1日に住んでいた地域の税務署にデータを送る必要がある。数年前1月なかごろに転居してから、住居近くの税務署にデータを送ったが、引っ越し前の税務署から「確定申告がなされていません」という通知がきたことがある。地域をまたいだ税務署同士の連携は部分的にしかなされていない。税務署同士でうまくデータをやりとしてくれていることを期待してはいけない。なので、1月以後に引っ越しをしている人は要注意。もし、間違えて別の税務署にデータを送信してしまった場合は、途中保存したデータを読み込んで、適切な税務署にデータを再送付すべし。
  • 【微細な罠】誰がどう考えても、e-taxはICTのリテラシーが極めて高い層でなければどう考えても詰む仕様になっている。そのため、e-tax利用者がWindowsユーザーである場合、利用ブラウザは概ね、FireFoxか、Chromeだと思われる。しかし、行政のサービスらしくITリテラシーが低い人に対応しているのかInternet Explorer 11が推奨環境となっている。いちいち、IEを立ち上げさせられるのが、イライラ感を増幅させてくれる素敵な仕様で、いまどき得がたい味わいがある。

 
なお、我が国の電子政府は、世界の電子政府ランキングで11位だそうです。

「座る仕事」はどこまで腰への負担が大きいのか?(Nachemson 1976はどこまで信用できるか)

(ちょっと調べたことのメモ記事。自分の専門性とは関係ないタイプの調べ物だったので、こっちにメモを書きます。)
 
座ることについての話を検索すると、だいたい日本語圏だと、「座るときの腰への負担は立つことの1.4倍!」という話がNachemson(1976)を根拠にして主張されているものがたくさん見つかるのだけど、「1976」ってあんたもう41年前の研究じゃないですか、と。いくら有名な研究でもさすがに批判的な検討がすすんでるでしょうよ、と思ったので少し調べました。
 
で、調べたら案の定、そこまで「座るときの腰への負担は立つことの1.4倍!」という話はそれほど支持されていないようです。

とくに、Wilke et al(1999)だと、Nachemson(1976)論文と、近い結果となっている部分はありつつも、猫背で座るのは確かに問題であるものの、きりっと座ることについては、そんなに負担が高いというわけではなさそう。(下記の図は、Wilke, H. J., Neef, P., Caimi, M., Hoogland, T., & Claes, L. E. (1999). New in vivo measurements of pressures in the intervertebral disc in daily life. Spine, 24(8), 755-762.)


http://fonar.com/pdf/spine_vol_24.No.8.pdf

あと、もひとつ、システマティックレビューをやっている論文としては、
Lis, A. M., Black, K. M., Korn, H., & Nordin, M. (2007). Association between sitting and occupational LBP. European Spine Journal, 16(2), 283-298.
が面白い。図は、同論文より、いろいろな職業ごとの腰痛(LBP)持ちのパーセンテージを比較したもの。

オフィスワーカーの腰痛持ちはたしかにそれなりにいるのだけれども、歯科衛生士とか、トラクタードライバーの腰痛持ちパーセンテージとかのほうがかなりやばい。
ということで、こちらの論文は腰痛がやばくなる要因としては、座ることというよりかは、
1.長時間座ること
2.変な姿勢での作業
3.体全体の振動
というあたりの複合要因で考えたほうがよかろうという話をしていて、トラクタードライバーとかはすべての要因を兼ね備えているので、「腰痛持ち」になるべく職業として最強なのではなかろうかとしている。

遅延の神に愛された出張

 遅延の神に愛されすぎた出張の、最後のハイライトを迎えています。

[ 行き ]
1.関空→上海 通常通り離陸
2.上海→アムステルダム(5時間30分遅れ)
3.アムステルダム→ベルリン(次便に振替のうえ、その便が30分の遅延)

[ 帰り ]
4.ベルリン→パリ(40分の遅延)
5.パリ→上海(30分の遅延)
6.上海→大阪(台風で欠航) ← いまここ

 もともとの予定だと、いまごろ関空に到着して京都の自宅を目指している予定だったのですが、台風で足止めされ、どういうわけか今、上海のホテルにいます。出張の初日の予定も遅延により完全に潰れてしまったのですが、出張後の予定も快調に破壊されております。なお、偉大なるファイアウォールにより、gmailTwitterFacebookもつながらないという夢のような世界です。Google検索も一切つかえないため、ブラウザに検索ワードを打ち込むと、速攻DNSエラー。明日、打合せを予定していた方には久しく使っていなかったyahooメールからメール打っている状態です。
 あらかじめ中国に来ることを予定していなら、VPN設定のための準備もしてこれたのだと思うのですが、いまちょっと、身分的に使えるVPNがないようなので、どうしたものか、という状態。フリーのVPNとか繋げていいものなんだろうか…

 運が良ければ明日の午前の便がとれるようですが、運が悪ければ明後日19日の便になるようです。

 しかし、中国でも接続できる「はてな」はすごいですね!Yahoo検索もほんとうにすばらしいものですね!

設計の悪いアンケート

微妙なアンケートが来た。

A.「自分が使う電力の再生可能エネルギーの比率は何%以上が良いと思うか?」
B.「自分が使う電力のCO2排出係数がいくら以下が良いと思うか?」

で、選択肢を選んで答えよ、とのこと。
正直なところ、このアンケートはいろいろな意味でどうかと思ったので、軽くメモっとく。

Aについても、Bについても言えることとして

  • 「いま」の話を聞いてるのか「長期的にどうあるべきか」をせめて分けてくれないかと思う。長期的な視点でみれば「日本が循環型社会を目指すことはよいことである」ということについて、否定的な人はあまりいないのではないか。その意味で、「いま」の話なのか「長期的にどうなのか」を分けていないこの設問はただの誘導的な設問になってしまっている。アンケートの設計としてクオリティが低いと思う。
  • 私がいうまでもなく、電力の制度設計は、かなり複雑な問題がいろいろとある。グランドデザインがないまま、世論の圧力とかだけで意思決定すべきタイプのものではない。集団全体の選好を知るという意味での世論調査は意味とは思うが、このアンケートが何かしらの電力に関する投資の意思決定にかかわるものであるならば、私はこのアンケートに答えるべきではないと思う。
  • 「いま」の話をしているのならば、いま現在の我が家では再生可能エネルギーを導入しておらず、関西電力と普通に契約して節電に励んでいるだけなので、導入していないという答えになる。

 たまにこういう、明らかに誘導的な設問だったり、問として無意味としか感じられないような設問のアンケートがまわってくるが、担当者の人には、調査設計の基礎的な本を勉強してほしいと思う。私も勉強不足で、日々いろいろな人にご迷惑をおかけしている身分なので、あまり上から目線のコメントも恐縮なのではあるが。

舞田氏記事「やらされる15歳 数学への関心「世界最低」」への解釈について

 今朝、舞田敏彦さんの「やらされる15歳 数学への関心「世界最低」」という記事を読んだのですが、ちょっと疑問に思うところがあったので簡単な検証記事をアップしておきます。専門外のことなので、データをRにつっこんだだけのざっくりとした記事で恐縮ですが。

 さて、舞田さんの主張は、タイトルのとおりで、PISA2012の結果を確認したところ、日本は数学の成績が世界的にもトップクラスであるのに対して、数学への関心レベルという点からみると、世界最低レベルとなっており、悲しいことである、というものです。とても問題提起的な興味深い論点だと思います。
 ただ、データをもう少し見てみると、数学嗜好が低いとされる国はドイツ、フランス、韓国、ルクセンブルクなどがならんでおり、明らかに数学の成績が良さそうな国が並んでいます。ということは「日本が特殊な国」というよりは、一般的な傾向として、「数学教育をゴリゴリとやったら、数学への興味関心が低下する」というような話なのではあるまいか、と思ったので、ぱぱっとデータをとってきて、確認してみました。

データソースはPISA2015
https://www.oecd.org/pisa/

 ほんとは、舞田さんとおなじくPISA2012のデータで検証しようかと思ったのですが、データの置いてあるところがぱっと見つからなかったので、PISA2015のデータで済ませました。PISA2015のデータだと、舞田さんの問題とした「数学への関心」の部分がなくて、「科学への興味関心」というデータしかないので、検証としてかなり雑なのですが、まあ、雑な検証です。そういう程度の雑な記事だとお考えいただければ結構です。

 さて、PISA2015の科学の点数(縦軸) と、科学へのモチベーション(横軸)の散布図は下記の通りになります。

t = -4.5345, df = 68, p-value = 2.407e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.6439158 -0.2783930
sample estimates:
cor -0.4818469

同様に、数学の点数(縦軸)と、科学へのモチベーション(横軸)は下記の通りとなります。


t = -4.8628, df = 68, p-value = 7.164e-06
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.663716 -0.309987
sample estimates:
cor -0.5079617

相関係数は、どちらも-0.5ぐらいで、p値も1%以下となっております。
ということで、僕のパッと見の予測におおむね沿った結果かな、と。つまり「数学教育をゴリゴリとやったら、数学への興味関心が低下する」とか、「科学教育をゴリゴリとやったら、科学への興味関心が低下する」というような話として解釈したほうが無難な感じがします。
なので、舞田さんの記事が、日本特殊論のように読まれてしまうと、それはちょっと違うかも、という印象になりますね。

また、相関係数が、けっこう強くマイナスになっているとはいえ、-0.9とかではなく、-0.5ぐらいのデータなので、すべての地域で負の相関にきっちり沿っているというデータでもないです。シンガポールベトナム、カナダ、ポルトガルあたりの地域は、科学/数学のスコア上位に位置するけれども、科学への関心も高くなっているやや例外的な右上のグループを形成しています。このグループにあやかりたいものですね。

なお、余談ですが、ちょっとおもしろかったのが、科学や数学の点数がよい地域だと、科学へのモチベーションは下がるけど、科学的知識への信頼度みたいなものは高くなっているというところ。

下記、縦軸が科学の点数。横軸が、科学的手法とかへの信頼感的な指標。

t = 4.5038, df = 68, p-value = 2.691e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.2753755 0.6419988
sample estimates:
cor 0.4793337

要するに「科学教育をゴリゴリとやったら、科学の勉強をして楽しい!という雰囲気は破壊されがちだけど、科学的知識への信頼みたいなのはインストールされます」ということか、と。
#まあ、ここで言う科学的知識というのは、ポパー的な前提を共有するというはなしではなく、「科学的知識ってのはなんか、正しいっぽいよね」程度の信念が形成されるというぐらいのはなしとしてご理解いただくのがよろしかろうと思います。

散布図プロットしたPDFデータも一応つくっときました
http://critiqueofgames.net/others/pisa.pdf