移転しました。
はてなダイアリーのサービス停止につき、下記URLに移転しました。
https://hiyokoya6.hateblo.jp/
文章校正用の正規表現一覧(自分用)
自分用メモ。「#」から先はコメントなので正規表現ではない。
▼文を小分けにしたほうがいいもの
[^。「」『{}()?]{100,}。 #100文字以上の長いセンテンスにマッチ。
[^。「」『{}()?、]{50,} #読点や句点がないまま50文字以上の文章が続いているものを検出。適宜、読点「、」で区切ったほうがよい。
[ぁ-ん]{15,} #ひらがなが15文字以上連続する。適宜、読点「、」で区切ったほうがよい。
▼接続(詞)を変更したほうがよい
[^。「」『{}()?]{50,}が、#50文字以上のセンテンスが続いたあとに「が、」でセンテンスを繋いでいる。たぶん、センテンスを分けて接続詞を変更したほうがいい。
(しかし|が、|ところが|だが|ものの|けれども|かかわらず|それでいて|のに|それどころか|とはいっても).+(しかし|が、|ところが|だが|ものの|けれども|かかわらず|それでいて|のに|それどころか|とはいっても) #一段落の間に、逆説表現が複数回登場。段落を分けるか、論理構造を見直したほうがいい。
(、[^。]{0,10}){5,}。 #読点が頻出しすぎているきらいのある文を検出。
▼曖昧表現を見直したほうが良さそうなもの
(その|あの|この|それ|あれ[^ば]|これ)[^。]+(その|あの|この|それ|あれ[^ば]|これ) #指示代名詞が一文の中で連続するものを検出。
ような[^。「『{}(?]{0,20}ような #同一センテンス内で20文字以上離れていないところに「ような」が連続するものを検出。
(だろう|おそらく|ともいえる|かもしれない|思われる).+(だろう|おそらく|ともいえる|かもしれない|思われる) #曖昧な文末表現が同一段落内で連続している。
[的性][ぁ-ん][^。]+[的性][ぁ-ん] #「〜的な」「〜性が」といった曖昧表現がセンテンス内で連続して登場するものを検出。※論文とかだと「性」が連続することは多いので、このルールはなくてもいいかも。
▼体言止めの検出
[ァ-ヶ亜-熙]。 #文末の体言止めを検出
▼である調と、ですます調の混在の検出
(である|だ)。\n?.+(ます|です)。|(です|ます)。\n?.+(である|だ)。 #同一段落内のですます調の混在を検出
▼助詞を点検したほうがいいもの
助詞を正確に検出するのは正規表現だと少しむずかしい。MeCabとか茶筅とかの形態素解析エンジンを使ったら、だいぶきちんとできるだろう。下記は、やや強引に「たぶん、助詞が連続してるかも?」ぐらいのものと捉えてほしい。textlintとかに頼ったほうがいいかも。
表現1
(は[^。「」『{}()?]{0,5}){4,} #「は」が頻発するセンテンス。
(が[^。「」『{}()?]{0,5}){4,} #「が」が頻発するセンテンス。
(を[^。「」『{}()?]{0,5}){4,} #「を」が頻発するセンテンス。
(に[^。「」『{}()?]{0,5}){4,} #「に」が頻発するセンテンス。
(の[^。「」『{}()?]{0,5}){4,} #「の」が頻発するセンテンス。
表現2
([ァ-ヶ亜-熙]+は[^ぁ-ん。「」『{}()?]+は) #「は」が連続しているかも?
([ァ-ヶ亜-熙]+が[^ぁ-ん。「」『{}()?]+が) #「が」が連続しているかも?
([ァ-ヶ亜-熙]+を[^ぁ-ん。「」『{}()?]+を) #「を」が連続しているかも?
([ァ-ヶ亜-熙]+に[^ぁ-ん。「」『{}()?]+に) #「に」が連続しているかも?
([ァ-ヶ亜-熙]+の[^ぁ-ん。「」『{}()?]+の) #「の」が連続しているかも?
はが|がが|をが|にが|はを|がを|をを|にを|はに|がに|をに|にに #助詞の修正忘れ
■下記は必要に応じて
▼文中の数字の検出
[\d,0−9]{5,} #5桁以上のアラビア数字を検出。適宜、漢数字などに修正。
[ぁ-んァ-ヶ亜-熙]\d+[ぁ-んァ-ヶ亜-熙] #文中の半角数字を検出
▼表現の選定
([ァ-ヶ・]+[ぁ-ん亜-熙]+){3} #カタカナが頻発している箇所
[亜-熙]{5,} #5文字以上の漢字の連続
[ァ-ヶ・]{10,} #10文字以上のカタカナ
(なく|ない)[^。「『{}(?]{1,10}(なく|ない) #二重否定の検出
(?<=(\n|。))[ぁ-ん]+(?=[ァ-ヶ亜-熙\da-z、]) #文頭の接続詞を検出
▼関連:用語統一(置換処理)
これは、特に正規表現でなくてもいい。
置換前 | 置換後 | 備考 |
今年度 | 本年度 | 統一されていればどちらでも |
例えば | たとえば | 文を柔らかくするかどうか |
あそび | 遊び | どちらでも |
■HELP:これらの正規表現の活用方法
■以上の校正でできていないこと
- 校正的な部分
- 手癖
- 口語的表現(ちょっと、まずい、すごく)と、文語的表現の混合具合
- 疑問文の連続:「●●とはどういうことだろうか?」が連続する
- 論理展開が雑
- 「ところで」「また」「さて」などの話題転換が、数パラグラフごとに連続
- 書いた本人にわかりにくい部分
- 主語を省略しすぎて不明瞭になっている箇所
- 指示代名詞がわかりにくい箇所
- 手癖
- 文章構成全体の問題:ほぼ何もできない。要約して論理構造を把握しなおしたり、削ったり、パワポ作ったりしながらやるしかない
■参考
- 校正関連ツール
- textlint:Sublime TextやAtomなどのエディタ向け https://efcl.info/2015/09/10/introduce-textlint/
- textlintのChrome拡張機能版:http://io-monad.hatenablog.com/entry/2016/03/14/225800 自動処理でやれそうなことがあらかた入っている。
- JustRightPro 6:個人で買うにはそこそこの値段。助詞の連続とかの判定はしてくれる。
- Wordの校正機能:表記ブレチェックとかは有用。
- Enno
- Tomarigi:インストールがちょっとむずい。研究者が開発したもの。 http://www.pawel.jp/download/tomarigi/
- WildLight https://wildlight.blog/download/ MS Word用の翻訳者向けソフト。用語置換やマーキング等がいろいろとできるらしい。
- 新聞社・出版社の手引き系
- http://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/series/21/21.html 文化庁 公文書の書き方資料集
- http://www.kyodo.co.jp/kkservice/HB/ 記者ハンドブック新聞用字用語集(共同通信社)
- http://www.chuko.co.jp/tanko/2014/03/004598.html 読売新聞用字用語の手引き(中央公論新社)
- http://publications.asahi.com/ecs/detail/?item_id=12200 朝日新聞用字用語の手引き(朝日新聞社)
- http://www.amazon.co.jp/dp/4620317950 毎日新聞用語集(毎日新聞社)
- http://www.amazon.co.jp/dp/4062653494 日本語の正しい表記と用語の辞典 第三版 講談社校閲局
- 文章論
- 関西大学 ライティングラボ http://www.kansai-u.ac.jp/ctl/labo/outcome/index.html 見どころが多い。 「レポートの書き方」「発展編」の要約論とかあつい。
- NHK 読み書きのツボ 5・6年生 http://www2.nhk.or.jp/school/movie/outline.cgi?das_id=D0005150027_00000
- 海燕(id:kaien)さんによる「あなたの文章を(ほんの少し)綺麗に見せる九つのテクニック」 http://d.hatena.ne.jp/kaien/20090509/p3
- Mayonez 文章力を向上!基本とトレーニング方法|文章力がない人の特徴 https://mayonez.jp/topic/3030
- 澤野弘『きちんと-伝わる-文章の書き方-身につく便利帖』 https://www.amazon.co.jp/dp/B00OUUXX7S
- 樫村博基(惑星学の研究者)「日本語の文章表現」https://www.gfd-dennou.org/arch/hiroki/homepage/main015.html 「文章の編み方」https://www.gfd-dennou.org/arch/hiroki/homepage/main014.html
- 文体論などの研究(古典研究系、文学研究系、第二言語学習系かで方向性がけっこう違うっぽい。)
備忘録:e-taxの罠回避のための攻略メモ@2017年度末
e-taxをはじめてやり遂げるのは、DQ2でいえば、ロンダルキアの洞窟をクリアする程度には難しい。とりあえず、今年もe-taxをどうにか攻略して、データ送信できたので、攻略メモを備忘録として書き留めておく。
一番、詰んだらヤバいのは、パスワード間違えてロックがかかってしまうこと。3月15日ぎりぎりにパスワード類の再設定とかするとマジで死ねるので、e-taxするなら、2月中にパスワード類の確認だけでもやっておくこと。
(1)必要なツール類。
- Windows PC(Macでも可)
- Internet Explorerの最新版(MacならSafari)
- Adobe Acrobat Reader DC
- 事前に「電子証明書」が組み込まれているマイナンバーカード(もしくは住基カード)の発行が必要。電子証明書の発行手続きを申し込んでいないと、そもそもe-taxができない
- 電子証明書の登録。※転居や再発行などの理由で、再登録が必要になることがある。
- なお、有効期限が設定されており、発行から3年〜5年ぐらいで期限切れになるので、期限切れの前に再発行が必要。
- JPKI利用者クライアントソフト https://www.jpki.go.jp
- ICカードリーダー(カードリーダーのドライバーのインストールも、もちろん必要)
- 事前準備セットアップファイルのダウンロードとインストールが必要
- e-taxそのものを、ウェブでやるか、e-taxソフトでやるかは、お好みで選択できる。e-taxソフトも一度ダウンロードしてみたが、ウェブ版のほうが、まだ手順がわかるので相対的にマシという印象。
(2)メモしておくべき番号
- 必要
- ほぼ不要?
(3)そもそもの確定申告の数字
決算書、所得税の計算など。これはこれで大変だけど、ここは割愛します。
(4)途中データの形式
(5)e-taxの罠的なものまとめ
- 【超重要】マイナンバーカードや、住基カードを持っていても、電子証明書を取得していなければ、e-taxはできない。役所に行って再度の手続きをとる必要がある。
- 【超重要】パスワード類がやたらと増殖していて煩雑だが、絶対に間違えないように事前に整理しておく必要がある。混乱を招く仕様になっているため、仕様そのものが間違いを誘発しているとしか思えないが、間違ったパスワードを3回〜5回うちこむと、ロックがかかってしまう。ロックがかかると役所までいかなければいけない。つまり、ゲームオーバーです。最初からやりなおしてくださいということ。コンティニューできません。3回間違えたらセーブデータが吹き飛ぶどころか、ゲームそのものが起動しなくなる仕様だと思ってください。ここだけ鬼ハードモードです。オンラインからの再申請とかできません。役所というの名のオフラインからの再申請のみが可能。
- 【超重要】電子証明書の有効期限がある。住基カードなら電子証明書の発行日から3年。マイナンバーカードなら電子証明書発行の日から5回目の誕生日まで。
- 【重要】「所得税等の確定申告」をすると、全データの送信画面にすすんでしまうので、青色決算書、消費税、贈与税などの申告書を作る必要のある人は「所得税の確定申告」を最初に選んではいけない。
- 間違えて、最初に所得税等の確定申告を選んでしまった場合
- 全データ送信画面に行く際に、データのダウンロードを「.data」形式でダウンロードできるので、そのデータをローカルに保存しておくのが吉。
- その後、青色決算書を記載した場合、記載後に、所得税の確定申告のページに親切にナビゲートしてくれる。…だが、その場合には事前につくった「.data」ファイルを読み込みチャンスがない。よって、青色決算書のデータを「.xtx」ファイルとしてローカルに保存したうえで、e-taxウェブのトップページまで戻る必要がある。
- トップページまで戻ったら、改めて「所得税等の確定申告」に「.data」を読み込ませて、全データ送信の画面まできたら、「xmlファイルなどを添付する」みたいな選択肢が選べるようになる。そのときに「.txt」ファイルを添付する。xmlファイルが、xtx拡張子であるということがパッと結びつかいない人が多いと思うが、国税庁によれば「電子申告するための仕様を公開しているe−Taxソフトにおいて、電子申告のファイル形式を「.xtx」として」いるためだそう。というわけで、xtx拡張子のファイルはxmlファイルである。
- 一言でいうと、途中データ保存ができる場面があるが、絶対に保存すべき。データ保存していればなんとかなる。
- 間違えて、最初に所得税等の確定申告を選んでしまった場合
- 【重要】最終的にデータの送付がエラーになることがさまざまな理由で発生する。e-tax内で完結したメッセージ(メール)システムが実装されているため、最終的にデータが送付できたかどうかは、e-tax内のメッセージの受信ボックス内で送付成功かどうかを確認しておく必要がある。
- 【重要】また、1月1日より後に引っ越しをした場合、1月1日に住んでいた地域の税務署にデータを送る必要がある。数年前1月なかごろに転居してから、住居近くの税務署にデータを送ったが、引っ越し前の税務署から「確定申告がなされていません」という通知がきたことがある。地域をまたいだ税務署同士の連携は部分的にしかなされていない。税務署同士でうまくデータをやりとしてくれていることを期待してはいけない。なので、1月以後に引っ越しをしている人は要注意。もし、間違えて別の税務署にデータを送信してしまった場合は、途中保存したデータを読み込んで、適切な税務署にデータを再送付すべし。
- 【微細な罠】誰がどう考えても、e-taxはICTのリテラシーが極めて高い層でなければどう考えても詰む仕様になっている。そのため、e-tax利用者がWindowsユーザーである場合、利用ブラウザは概ね、FireFoxか、Chromeだと思われる。しかし、行政のサービスらしくITリテラシーが低い人に対応しているのかInternet Explorer 11が推奨環境となっている。いちいち、IEを立ち上げさせられるのが、イライラ感を増幅させてくれる素敵な仕様で、いまどき得がたい味わいがある。
なお、我が国の電子政府は、世界の電子政府ランキングで11位だそうです。
「座る仕事」はどこまで腰への負担が大きいのか?(Nachemson 1976はどこまで信用できるか)
(ちょっと調べたことのメモ記事。自分の専門性とは関係ないタイプの調べ物だったので、こっちにメモを書きます。)
座ることについての話を検索すると、だいたい日本語圏だと、「座るときの腰への負担は立つことの1.4倍!」という話がNachemson(1976)を根拠にして主張されているものがたくさん見つかるのだけど、「1976」ってあんたもう41年前の研究じゃないですか、と。いくら有名な研究でもさすがに批判的な検討がすすんでるでしょうよ、と思ったので少し調べました。
で、調べたら案の定、そこまで「座るときの腰への負担は立つことの1.4倍!」という話はそれほど支持されていないようです。
とくに、Wilke et al(1999)だと、Nachemson(1976)論文と、近い結果となっている部分はありつつも、猫背で座るのは確かに問題であるものの、きりっと座ることについては、そんなに負担が高いというわけではなさそう。(下記の図は、Wilke, H. J., Neef, P., Caimi, M., Hoogland, T., & Claes, L. E. (1999). New in vivo measurements of pressures in the intervertebral disc in daily life. Spine, 24(8), 755-762.)
http://fonar.com/pdf/spine_vol_24.No.8.pdf
あと、もひとつ、システマティックレビューをやっている論文としては、
Lis, A. M., Black, K. M., Korn, H., & Nordin, M. (2007). Association between sitting and occupational LBP. European Spine Journal, 16(2), 283-298.
が面白い。図は、同論文より、いろいろな職業ごとの腰痛(LBP)持ちのパーセンテージを比較したもの。
オフィスワーカーの腰痛持ちはたしかにそれなりにいるのだけれども、歯科衛生士とか、トラクタードライバーの腰痛持ちパーセンテージとかのほうがかなりやばい。
ということで、こちらの論文は腰痛がやばくなる要因としては、座ることというよりかは、
1.長時間座ること
2.変な姿勢での作業
3.体全体の振動
というあたりの複合要因で考えたほうがよかろうという話をしていて、トラクタードライバーとかはすべての要因を兼ね備えているので、「腰痛持ち」になるべく職業として最強なのではなかろうかとしている。
遅延の神に愛された出張
遅延の神に愛されすぎた出張の、最後のハイライトを迎えています。
[ 行き ]
1.関空→上海 通常通り離陸
2.上海→アムステルダム(5時間30分遅れ)
3.アムステルダム→ベルリン(次便に振替のうえ、その便が30分の遅延)
[ 帰り ]
4.ベルリン→パリ(40分の遅延)
5.パリ→上海(30分の遅延)
6.上海→大阪(台風で欠航) ← いまここ
もともとの予定だと、いまごろ関空に到着して京都の自宅を目指している予定だったのですが、台風で足止めされ、どういうわけか今、上海のホテルにいます。出張の初日の予定も遅延により完全に潰れてしまったのですが、出張後の予定も快調に破壊されております。なお、偉大なるファイアウォールにより、gmailもTwitterもFacebookもつながらないという夢のような世界です。Google検索も一切つかえないため、ブラウザに検索ワードを打ち込むと、速攻DNSエラー。明日、打合せを予定していた方には久しく使っていなかったyahooメールからメール打っている状態です。
あらかじめ中国に来ることを予定していなら、VPN設定のための準備もしてこれたのだと思うのですが、いまちょっと、身分的に使えるVPNがないようなので、どうしたものか、という状態。フリーのVPNとか繋げていいものなんだろうか…
運が良ければ明日の午前の便がとれるようですが、運が悪ければ明後日19日の便になるようです。
しかし、中国でも接続できる「はてな」はすごいですね!Yahoo検索もほんとうにすばらしいものですね!
設計の悪いアンケート
微妙なアンケートが来た。
A.「自分が使う電力の再生可能エネルギーの比率は何%以上が良いと思うか?」
B.「自分が使う電力のCO2排出係数がいくら以下が良いと思うか?」
で、選択肢を選んで答えよ、とのこと。
正直なところ、このアンケートはいろいろな意味でどうかと思ったので、軽くメモっとく。
Aについても、Bについても言えることとして
- 「いま」の話を聞いてるのか「長期的にどうあるべきか」をせめて分けてくれないかと思う。長期的な視点でみれば「日本が循環型社会を目指すことはよいことである」ということについて、否定的な人はあまりいないのではないか。その意味で、「いま」の話なのか「長期的にどうなのか」を分けていないこの設問はただの誘導的な設問になってしまっている。アンケートの設計としてクオリティが低いと思う。
- 私がいうまでもなく、電力の制度設計は、かなり複雑な問題がいろいろとある。グランドデザインがないまま、世論の圧力とかだけで意思決定すべきタイプのものではない。集団全体の選好を知るという意味での世論調査は意味とは思うが、このアンケートが何かしらの電力に関する投資の意思決定にかかわるものであるならば、私はこのアンケートに答えるべきではないと思う。
- 「いま」の話をしているのならば、いま現在の我が家では再生可能エネルギーを導入しておらず、関西電力と普通に契約して節電に励んでいるだけなので、導入していないという答えになる。
たまにこういう、明らかに誘導的な設問だったり、問として無意味としか感じられないような設問のアンケートがまわってくるが、担当者の人には、調査設計の基礎的な本を勉強してほしいと思う。私も勉強不足で、日々いろいろな人にご迷惑をおかけしている身分なので、あまり上から目線のコメントも恐縮なのではあるが。
舞田氏記事「やらされる15歳 数学への関心「世界最低」」への解釈について
今朝、舞田敏彦さんの「やらされる15歳 数学への関心「世界最低」」という記事を読んだのですが、ちょっと疑問に思うところがあったので簡単な検証記事をアップしておきます。専門外のことなので、データをRにつっこんだだけのざっくりとした記事で恐縮ですが。
さて、舞田さんの主張は、タイトルのとおりで、PISA2012の結果を確認したところ、日本は数学の成績が世界的にもトップクラスであるのに対して、数学への関心レベルという点からみると、世界最低レベルとなっており、悲しいことである、というものです。とても問題提起的な興味深い論点だと思います。
ただ、データをもう少し見てみると、数学嗜好が低いとされる国はドイツ、フランス、韓国、ルクセンブルクなどがならんでおり、明らかに数学の成績が良さそうな国が並んでいます。ということは「日本が特殊な国」というよりは、一般的な傾向として、「数学教育をゴリゴリとやったら、数学への興味関心が低下する」というような話なのではあるまいか、と思ったので、ぱぱっとデータをとってきて、確認してみました。
データソースはPISA2015
https://www.oecd.org/pisa/
ほんとは、舞田さんとおなじくPISA2012のデータで検証しようかと思ったのですが、データの置いてあるところがぱっと見つからなかったので、PISA2015のデータで済ませました。PISA2015のデータだと、舞田さんの問題とした「数学への関心」の部分がなくて、「科学への興味関心」というデータしかないので、検証としてかなり雑なのですが、まあ、雑な検証です。そういう程度の雑な記事だとお考えいただければ結構です。
さて、PISA2015の科学の点数(縦軸) と、科学へのモチベーション(横軸)の散布図は下記の通りになります。
t = -4.5345, df = 68, p-value = 2.407e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.6439158 -0.2783930
sample estimates:
cor -0.4818469
同様に、数学の点数(縦軸)と、科学へのモチベーション(横軸)は下記の通りとなります。
t = -4.8628, df = 68, p-value = 7.164e-06
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.663716 -0.309987
sample estimates:
cor -0.5079617
相関係数は、どちらも-0.5ぐらいで、p値も1%以下となっております。
ということで、僕のパッと見の予測におおむね沿った結果かな、と。つまり「数学教育をゴリゴリとやったら、数学への興味関心が低下する」とか、「科学教育をゴリゴリとやったら、科学への興味関心が低下する」というような話として解釈したほうが無難な感じがします。
なので、舞田さんの記事が、日本特殊論のように読まれてしまうと、それはちょっと違うかも、という印象になりますね。
また、相関係数が、けっこう強くマイナスになっているとはいえ、-0.9とかではなく、-0.5ぐらいのデータなので、すべての地域で負の相関にきっちり沿っているというデータでもないです。シンガポール、ベトナム、カナダ、ポルトガルあたりの地域は、科学/数学のスコア上位に位置するけれども、科学への関心も高くなっているやや例外的な右上のグループを形成しています。このグループにあやかりたいものですね。
なお、余談ですが、ちょっとおもしろかったのが、科学や数学の点数がよい地域だと、科学へのモチベーションは下がるけど、科学的知識への信頼度みたいなものは高くなっているというところ。
下記、縦軸が科学の点数。横軸が、科学的手法とかへの信頼感的な指標。
t = 4.5038, df = 68, p-value = 2.691e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.2753755 0.6419988
sample estimates:
cor 0.4793337
要するに「科学教育をゴリゴリとやったら、科学の勉強をして楽しい!という雰囲気は破壊されがちだけど、科学的知識への信頼みたいなのはインストールされます」ということか、と。
#まあ、ここで言う科学的知識というのは、ポパー的な前提を共有するというはなしではなく、「科学的知識ってのはなんか、正しいっぽいよね」程度の信念が形成されるというぐらいのはなしとしてご理解いただくのがよろしかろうと思います。
*
散布図プロットしたPDFデータも一応つくっときました
http://critiqueofgames.net/others/pisa.pdf