宝の持ち腐れの行政データを救出せよ、キカク渡邊、サイバーエージェント森脇インタビュー

近年、「証拠に基づく政策立案」(EBPM)と呼ばれる方法が普及している。大手テクノロジー企業が、経営や製品開発の意思決定においてデータサイエンスを活用することは当たり前となった。日本では、人々が市区町村の役所で多くの書類を書き、教育、医療、年金、納税をはじめ様々な情報を政府に渡すが、これらの行政データは、適切な形に姿を変えず宝の持ち腐れとなっている。

宝の持ち腐れの行政データを救出せよ、キカク渡邊、サイバーエージェント森脇インタビュー

近年、「証拠に基づく政策立案」(EBPM)と呼ばれる方法が普及している。大手テクノロジー企業が、経営や製品開発の意思決定においてデータサイエンスを活用することは当たり前となった。日本では、人々が市区町村の役所で多くの書類を書き、教育、医療、年金、納税をはじめ様々な情報を政府に渡すが、これらの行政データは、適切な形に姿を変えず宝の持ち腐れとなっている。

言い換えれば、行政データは、日本の政策や企業のイノベーションをデータ駆動型に転換するための巨大な潜在性と言えるだろう。行政データの活用可能性について、地方自治体が保持する食品営業許可データを加工・販売するキカク株式会社の渡邊亮輔と、経済統計の専門家である元内閣府、現サイバーエージェントの森脇大輔に話をきいた。

行政データ活用の現状

「行政データの多くは紙の文書の形であり、形式がバラバラ。オープンデータの公開が求められているものの、実際にはそうされてないことが多い」と渡邊は語った。キカクは行政に特化したサードパーティデータセラー(第三者データ販売者)で、官民データ活用推進基本法で公開が推進されているものの、実際には眠ってしまっているデータを情報公開法の手続きに則って取得し、PDF、エクセル、CSV、紙などの異なる形態、異なるデータ形式で渡されるデータを民間企業が利用しやすい形に加工している。

普段はリクルートのプロダクトマネジャーである渡邊は、週末プロジェクトの形で、1年前にこのプロジェクトを会社化し、現在は1都3県(東京都、埼玉県、千葉県、神奈川県)の食品営業許可・届出に関する施設情報をデータ化。情報公開とデータ加工プロセスには相応のコストがあるため、事業化しており、IT / 不動産テック企業にこのデータを販売しているという。

「情報公開請求などを通じてもらったデータが、それぞれデータの形式が違ったり紙しかなかったりした。一つのデータフォーマットに統一してデータにしたら、価値があるものになる。どうせやるなら経済性がある形で取り組んだ方がいいということで会社という箱を作った」と渡邊は説明した。

許認可データには従業員数や資本金といった事業活動に関するデータはないが、キカクが作っている食品営業許可データから「どの店舗がどんな許可を持っているのか」「その店舗の住所とか連絡先」「あるいは運営元の会社情報許可が出てる期間や開業・廃業した日」などが分かる。また、他の様々なデータと組み合わせ、分析することで、新しい知見を得ることも可能だ。

渡邊によると、官民データ活用推進基本法(平成28年法律第103号)において、国及び地方公共団体はオープンデータに取り組むことが義務付けられているが、実際にはまだ発展途上の段階にある自治体がほとんどのようだ。「本来はこれらオープンデータとしても公開されているはずのものであり、実際に推進法が施行されてから、いくつかの自治体は食品営業施設一覧のようなものをオープンデータとして定期的に公開しているが、そのフォーマット自体が結構バラバラであるという課題がある。ほとんどの場合はまだ公開していない」と渡邊が語った。

これはデータ活用のためには好ましい事業だが、コストの高いオペレーションであるかもしれない。一度データベースに収めたデータをPDFやエクセル、CSV、紙などの形にして公開し、キカクがそれを再構成しているため、二重のコストが生じているのではないか、と質問した。課題は行政側の業務プロセスとシステムにあるかもしれない。

これに対し、渡邊は「自治体ごとに納品しているベンダーが異なり、データのフォーマットが異なることだ。同じベンダーが入っても、形式が異なることもある」と説明した。「なかには、そのシステムがインターネットから遮断されているマシンででしか管理できてないみたいなケースもあり、このため紙でしか対応できないというケースもある」。

つまり、業務プロセスやレガシーシステムの問題は深く、すぐさま解決できるものではないため、外部的なデータ整備サービスが必要だ、と渡邊は主張した。

では、キカクはどのようにデータを作っているだろうか。渡邊によると、自治体の個人情報保護条例に則った形でデータを取得している。CSVの場合は、「データ項目のマッピング表」があり、それに準じて加工し、データベースに格納する。PDFと紙の場合はまずスキャンする。スキャンした画像情報はOCR(文字認識)ソフトウェアでPDFをテキストに変換する手法もあるが、うまく行かない場合は、クラウドソーシングに投げてエクセル化している。情報公開請求、データ取得、加工のプロセスを繰り返すことで一都三県のデータを作ることができた、と渡邊は説明している。

このデータをIT / 不動産テック企業などに販売しているが、オープンガバメントの文脈に沿わせるならば、特定の会社にだけ供給されている状況は公正ではないだろう。例えば「ホットペッパーグルメ」や「ぐるなび」がこれを使えるならば、「食べログ」も使えないといけない、ということだ。渡邊は将来的にオープンな仕組みを目指す考えを示した。

また、欧米諸国の文脈に照らすと、将来的にデータ不正利用対策が必要になるだろう。データの突合は分析者に好ましい洞察をもたらすが、ときに危うい利用方法をする人が出てくるからだ。

行政データでできること

さて、ではこのように作られた行政データにはどのような用途があるのだろうか。経済財政分析担当の参事官補佐として、経済財政白書の執筆、月例経済報告の作成、統計改革などに従事していた森脇は、行政データで経済センサスを代替する可能性を提案している。

経済センサスは、2009年から始まった全国の企業・事業所数や従業員数などを調査する日本経済に関する基礎的な統計だ。ただ、コロナ禍の現在、公的統計の作成が難しい状況が続いている。森脇は、対面での聴き取り調査が厳しくなり、国勢調査のオンライン化が進んだが、オンラインだと対面に比べ、回答者の回答率が低くなってしまうと説明した。

最近は、回答者がプライバシーを気にして回答を避ける傾向がある。また、調査員の待遇が良くないことも難点の1つだ。介護や保育と同様、ここでもエッセンシャルワーカーへの報酬が少ないという課題が浮き彫りになっている。

「行政のログデータ」に当たる行政データと、統計調査で作られる経済センサスには隔たりがあるように思われるが、森脇は十分、行政データで有益な情報を作ることができると語った。「統計には2種類あるが、1つは調査をするもの(国勢調査など)。もう1つは、業務統計という方法だ。日常の業務で出てくるログを使って統計を作る。業務統計には職業安定統計、住民基本台帳をベースにした人口統計、貿易統計等がある。あと、有望視されているのが国税の税務データで、統計作成のための基礎データとして有用ではないかといわれているが、使われていない」。

インターネットサービスではこの業務統計と重なる面のあるログの蓄積と解析、あるいはオブザーバビリティ(Observability、可観測性)などは、サービスの改善のためのよく利用される手段である。森脇の所属するサイバーエージェントのようなネット企業にとって、ログからサービス改善の洞察を得たり、異常を検知したりすることは、非常に自然な手法であり、同じことを行政にも及ぼせないかと、森脇は考えている。

これまで政府統計によって政策決定をしてきた内閣府や日銀でも、最近はオルタナデータの利用が進んでいる、と森脇は語った。「内閣府、日銀はナウキャストの提供するデータのほか、経産省が作っているMETI POS小売販売額指標をかなり利用するようになっている。他にも日銀もレストラン予約数をカウントしたデータなどを使っている」。

ナウキャストは東京大学大学院経済学研究科教授である渡辺努を共同創業者とする、クレジットカードを活用したリアルタイムの消費動向の「JCB消費NOW」などを提供する。METI POS小売販売額指標は、POSデータを活用し、業態別・主要品目別・地域別の小売販売額を集計する。どちらも速報性が高く、既存の経済統計とは異なる「オルタナデータ」の提供者だ。両者を利用した、コロナの経済への影響を調査した研究がいくつも発表されている。

このような文脈の中で、キカクが作る食品営業許可データはどのような役割を果たすのだろうか。森脇は「食品を扱う営業をする人は絶対に出さないといけないので、国勢調査と同じように、全数調査である。実態として、どれくらいの人が食品関連の商売を始めたのか完全にわかる。当然、経済センサスがやっているような日本にどれぐらいの事業所があるのかという調査とかなり近いもの。食品だけではあるが、経済センサスの一部あるいはすべてを代替できる可能性がある」と語った。

「経済センサスではすべてを調べる基礎調査は数年に1回。食品営業許可データは常にログが溜まっているため、現在の状況がわかる。コロナのような状況で経済に何らかの変動が起きているとすれば、それは倒産件数から調べることもできるが、食品営業許可データからは、届け出の数が減っていたり、廃業を決めたりしたことが即時的にわかる」。

データマネジメント

行政データの活用には2つの課題がありそうだ。1つはデータマネジメントの問題であり、もう1つはシステムの問題だ。キカクが調達する行政データは、もとは台帳システムか、あるいはエクセル、紙など異なる手段で管理されている。自治体の現況としては、渡邊が説明したように、1) 業務上で作成保存するレガシーな台帳が膨大な数が存在している。2) 過去分の台帳情報は紙媒体でバラバラに保存されている 3) Microsoft AccessやExcelによる台帳管理の乱立 - などがあるという。

これらは、自治体にデータマネジメントを実施する余地があることを示唆する。データ駆動型の政策や経営のためには、データの正確性や鮮度を確保し、業務を横断してデータの定義や粒度が標準化されていることが求められるが、これをデータマネジメントと呼ぶ。また、データを作成、蓄積する際、後にデータ分析や機械学習などの用途で利用するためには「機械可読性」も重要だ。行政の現場がデータを作るとき、そのデータが後に表現する価値が大きく左右される。

データの時代を迎えたと言われて久しいが、行政機関、民間企業の双方で、この最初の一歩で挫折しているケースが非常に多い。民間企業でも、データ活用のための高機能で高額なSaaSソフトウェアを導入しているにも関わらず、それぞれの部署が、ソフトウェアの外側で独立したExcelファイルを運用し、データを作ることに失敗しているケースなどが報告されている。

データ品質を担保する要素のひとつとして、データ形式の一貫性があるが、現状は、地方自治体や行政機関ごとに異なるデータ形式での取り扱いがされているため、形式の標準化が求められるだろう。森脇は「その自治体特有の産業や住所の書き方などがあるが、データ形式の標準化についてはちゃんと議論しないといけない。必ずしも中央省庁が旗振り役である必要はなく、地方自治体側で合意がとれればいい」と語った。

行政機関のレガシーシステム

また、自治体が台帳システムを利用してデータを管理している場合でも、システムの断片化がみられる、と渡邊は説明する。その結果、データに一貫性がみられず、マスターデータを作る人が背負う労力が過剰になり、データ分析への活用可能性が薄くなってしまう。

森脇は、厚労省の毎月勤労統計調査が問題になったとき、システムの言語がCOBOLだったことが注目を集めたことに言及し、システムの老朽化は中央省庁全体の課題だと語った。COBOLは60年以上前に生み出されたプログラミング言語で、メインフレームで使用される。都市銀行や行政機関では、このメインフレームを依然として使用しているケースが多々ある。

2018年9月に経産省が発表した「DXレポート」は、高コスト構造化な「レガシーシステム」はDXの大きな障害となっており、「2025年の崖」に直面すると主張している。デジタルトランスフォーメーション(DX)という物々しい名前がついているものの、日本が直面する課題は、古いシステムと古い業務プロセスに帰着する。

データ形式を標準化し、蓄積したデータをデータウェアハウス(DWH)に自動的に吐き出すようなシステムが必要だろう。これができると、民間企業だけでなく、行政側にも便益がもたらされるはずだ。「自治体のシステムを利用するのは、行政側であってもいい。中央省庁から自治体への調査が多く、それは追加業務となり、自治体の負担になっている。なぜ、そうなるかというと、中央省庁が自治体のデータをもっていないからだ。仮に自治体のサーバーの中に使いやすい形で格納されていれば、中央省庁がそれに当たれば済む」と森脇は語った。

今後の展望

森脇は「行政データを全部使えるデータに変えていきたい。許認可がなくてもできる事業はほとんどない。それだけ行政はデータを持っているのに使えていない」と語った。

渡邊は「行政データを入力する現場と情報戦略を考えている課で考え方が大きく異なる。現場からすると、業務ログをオープンデータにする意義はピンとこない。これは総務省のオープンデータ伝道師の人たちの仕事だ。それで一つ一つの自治体を攻略していくというのは難儀な話だ」と語った。「もっとキカクのデータを使ってもらい『このデータのフォーマットにこのような利用方法がある』と、行政側に分かってもらってから、大元のシステムを変える議論をするといいのではないか」と語った。

インタビュイーの経歴

渡邊亮輔:キカク株式会社代表取締役CEO / 株式会社Vi-King代表取締役CEO。行政に眠っている有益なデータをオープンにして整備したり、オープンデータをより使いやすくする活動をしています。学生時代に京都のエンジニアコミュニティCAMPHOR-を立ち上げ。新卒で入社したリクルートでは、求人メディア、ATSのプロダクトマネージャーを担当していました。 1987年生まれ。京都大学卒。

森脇大輔:サイバーエージェントAILab研究員。1982年生まれ。2006年東京大学経済学部卒, 内閣府入府。経済対策の策定などに携わる。2010年〜2014年ニューヨーク州立大学アルバニー校経済学博士課程。帰国後、経済財政分析担当参事官補佐として、経済財政白書の執筆、月例経済報告の作成、統計改革などに従事。2015年Ph.D.取得。2017年より現職。

関連記事

許認可のデータを1つのフォーマットで見られるよう整備した話。|watambo|note
去年、ふとしたキッカケで行政や自治体が持っているデータを集めて整備して、1つのデータとして見られるようにする取り組みを始めました。 行政をハックし、行政データをオープンにしてみようとした結果 - 2019年の取組みと今後の展望 Civic Tech Forum 2019での登壇、その後取り組みについてtwitterやFacebookなどに投稿したことがキッカケで、協力や助言をしてくれる沢山の人に出会うことができました。色んな人の協力もあり、ようやくデータベースの運用を開始したのでご報告と今後取り組んでいきたいことを書きます。 実現できたこと 全国の自治体が保有している許認
行政データは経済センサスを代替できるか|森脇大輔|note
統計調査が直面する困難 前回記事でも書いたように国民生活基礎調査の中止、国勢調査の公表延期など公的統計の作成が難しい状況が続いています。 この状況以前から、調査員の確保の難しさやオートロックマンションの普及、個人情報への意識の高まりなど、調査員による統計調査の実施は難しいという認識は統計作成者の間では一般的でしたが、そもそも外出や対面が困難になるという状況は、それを一層深刻なものにしています。 あらかじめ決まった事業所や世帯に対してオンラインや郵送による調査が可能なサーベイ調査はともかく、調査員が担当地域を悉皆的に調査するセンサス調査は非常に困難になることが予想されます。センサ

参考文献

  1. 経済産業省(2018). DXレポート ~ITシステム「2025年の崖」克服とDXの本格的な展開~.
  2. 厚生労働省. 厚生労働省統計改革ビジョン2019.
  3. 庄司秀人(2016). 世田谷区 汎用台帳システムの導入.
  4. 辻中仁士. 経済の「今」オルタナデータでつかむ  予測に実態反映. 日本経済新聞. 2020年5月19日.
  5. 経済産業省、BigData-STATSのダッシュボード(β版)
  6. 小西 葉子. POSでみるコロナ禍の購買動向:緊急事態宣言解除後編.
  7. 小西 葉子. POSでみるコロナ禍の購買動向:家電量販店×地域分析編
  8. Tsutomu Watanabe, Yuki Omori(2020). How Much Did People Refrain from Service Consumption due to the Outbreak of COVID-19?.
  9. Tsutomu Watanabe(2020). The Responses of Consumption and Prices in Japan to the COVID-19 Crisis and the Tohoku Earthquake.

Photo by Fredy Jacob on Unsplash

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史