2014年9月26日金曜日

Kobe.R #9

Kobe.Rは関西で毎月定期的に開催している、統計用プログラミング言語 R の勉強会です。

URL: http://kobexr.doorkeeper.jp/events/14808
日時: 2014/9/21 Sat. 10:00-12:00
場所: 大阪市西淀川区


発表1. 安全なデータ公開のために - Statistical Disclosure Control -


最近のオープンデータという流れに従い、様々なデータが開示されるようになってきました。
しかし、データの開示には個人情報漏えいのリスクが伴います。

社会保障番号や個人名、住所のような直接に個人を特定できてしまうデータはもちろん、性別、年齢、地域、職業のように、単体では個人を特定できなくても、組み合わせることで特定につながるデータがあります。

そのようなデータを開示する場面における
- リスクの評価方法
- データの匿名化
- 匿名化による情報の損失とデータの有用性を評価する方法

について発表していただきました。





参考文献

CRANのSDCの手法を実装したパッケージ
http://cran.r-project.org/web/packages/sdcMicro/

そのリファレンス
http://cran.r-project.org/web/packages/sdcMicro/vignettes/sdc_guidelines.pdf

東京大学 中川裕志 「プライバシー保護データマイニング」
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf

東京大学 竹村彰通 「統計的開示抑制について」
http://park.itc.u-tokyo.ac.jp/atstat/takemura-talks/090704-takemura-ppdm.pdf


発表2. カードで説明する統計的独立

例えば、52枚のカードから1枚のカードを引く時、そのカードが「スペードであること」と「絵札であること」は統計的に独立です。
統計の勉強をしていますと、教科書のあちこちに「独立」という言葉が出てきます。この「独立」とはどういう意味なのか、何の役に立つのかということをカードを例にして説明しました。





発表3. 会社でPowerShellを使ってみた

マイクロソフトの作ったスクリプト言語であるPowerShellを使って、レポート作成を自動化されている方の発表です。
PowerShellを使うメリット、デメリットを説明していただきました。
データベースに接続して、必要なデータを取得、データを加工してレポート出力という流れです。レポート出力部分は今のところMS AccessやMS Excelと連携して行っているそうですが、今後PowerShellだけで出力できるようにしてMS OfficeのインストールされていないPCでも利用できる
ようにしていきたいとのことでした。






次回のKobe.Rは 2014/10/04 (土) 10:00-12:00
三ノ宮で開催です。
http://kobexr.doorkeeper.jp/events/15060

2014年9月7日日曜日

Kobe.R #8 GPSデータの話

URL: http://kobexr.doorkeeper.jp/events/13962
日時: 2014/8/30 Sat. 10:00-12:00
場所: 三ノ宮駅周辺

発表5. Dream Satellite Project 1000人の仲間で打上げる人工衛星 

この日最後の発表はGPSデータのお話です。
http://www.slideshare.net/kobexr/r-8



GPSの仕組みは簡単にいうと、人工衛星にとても正確な時計が入っているそうです。人工衛星からはその時間が発信されており、その電波を受信した側は、自分とその人工衛星からの距離がわかります。ですので、複数の人工衛星からの電波を受信すれば、自分の位置がわかるという仕組みです。

ただし、じゅうぶんな数の衛星電波を受信できない場合は、測位の精度が低くなってしまいます。また、情報を提供しているアメリカ政府の軍事戦略上、GPSの情報にはわざと誤差が含まれています。
そのため誤差を補正するしくみがいろいろ工夫されています。例えば、衛星の代わりに地上局から発信している情報を利用したり、2010年には順天頂衛星「みちびき」が打ち上げられて、その情報も利用できるようになりました。

ドリームサテライトプロジェクトではプロジェクト参加者みんなで一つの人工衛星を開発しています。そして今後一年以内を目安に、小型人工衛星「キューブサット」を打ち上げる予定です。キューブサットのミッションもアイディア募集しているそうです。人工衛星を使ってどんなことをやってみたいか、人工衛星のデータを解析する場合どんなデータがほしいかなど、ご意見募集中とのことです。

ここで、会場の制限時間となってしまい、残念ながら質疑の時間はとれませんでした。発表者さんごめんなさい。この後みんなで三ノ宮駅前の中華料理屋さんでお昼ご飯を食べました。



次回のKobe.Rは2014-09-21(日)です。
http://kobexr.doorkeeper.jp/events/14808


2014年9月6日土曜日

Kobe.R #8 疲労推定のデータ

URL: http://kobexr.doorkeeper.jp/events/13962
日時: 2014/8/30 Sat. 10:00-12:00
場所: 三ノ宮駅周辺

発表4. 疲労推定のデータ

続いては医療分野のデータの紹介です。
私たち人間は疲れます。走ると疲れますし、仕事がうまくいかなくても疲れます。ちょっとだけ疲れることもあれば、めちゃくちゃ疲れることもある。そんな疲労という現象を見える化できたらおもしろいと思いませんか。
自分で自分の疲労が見えるようになれば、社会がハッピーになるのではないか。そんな動機から研究調査されたデータを紹介していただきました。

データの内容は、疲れていると出てきそうな症状を5段階で答えてもらったアンケート調査結果です。調査項目が40近くもあるので、この質問の点数が高ければあの質問も点数が高いというようにグループ化して、グループ間でどんな関係があるのかを見ていったそうです。
他にも、自律神経と疲労の関係を調べてられています。自律神経にはがんばれーという神経とやすめーという神経があり、それらの働きのバランスが疲れに関係していることがわかっているそうです。

質疑

参加者のみなさんの中で調査票やアンケートで因子分析したことのあるかたはどのくらいいらっしゃいますか?あ、先生は大丈夫です!

素朴に考えると疲労には肉体的、精神的の2因子くらいがありそうですね。
今回の調査では全部で7因子あって、肉体的な因子が3~4個、残りが精神的な因子でした。

リンパ節がはれているという質問あるが、自覚できる人少ないのではないか。確かにそうです。
というやりとりから、この質問を削った場合の調査結果への影響度合いについて意見のやりとり。

(つづく)

2014年9月5日金曜日

Kobe.R #8 最尤推定法について

URL: http://kobexr.doorkeeper.jp/events/13962
日時: 2014/8/30 Sat. 10:00-12:00
場所: 三ノ宮駅周辺

発表3. 最尤推定法



観測データに確率分布をあてはめて、現象をモデル化したいということがあるのですが、こんな時に登場するのが最尤推定法です。非負の統計量、例えば発生回数や待ち行列への到着間隔のような現象のモデリングには、ポアソン分布がよく使われます。
URL: http://www.slideshare.net/florets1/mle-kober8




発表後の議論


例えば身長のデータに確率分布をあてはめる場合、有力な説明変数である、男女や年齢を考慮せずに分布をあてはめてもよいものだろうか。層分けすることで従う分布が変わってしまうこともあるだろう。あてはめる前の段階で考慮すべきではないだろうか。

一方、説明変数をあらかじめ見つけるのは難しいのも確かだ。業務で故障率の分析をしているが、用途、場所、使用条件などでデータを分けて分析すべきだろう。しかし、前提知識がないと、データだけを見ていても説明変数を拾い出すのは難しい。

実際のデータは男女、年齢のように単純な説明変数ばかりではない。データだけを見るのではなく、ドメイン知識を持つ人の助けが必要だ。データの背景を説明できる人といっしょにデータを分析できることが、Kobe.Rのねらいでもある。

ところで、観測データに対して混合正規分布のような複雑な形状の分布を直接あてはめてしまう機械学習の手法もある。あてはめた混合分布からそれぞれの分布のパラメーターを求めたら、それが説明変数といえるのではないか。

というような話で盛り上がりました。

(つづく)

2014年9月4日木曜日

Kobe.R #8

Kobe.R #8を開催しました。
URL: http://kobexr.doorkeeper.jp/events/13962
日時: 2014/8/30 Sat. 10:00-12:00
場所: 三ノ宮駅周辺

Kobe.Rは関西で毎月定期的に開催している、統計用プログラミング言語 R の勉強会です。今回はなんと17人も参加していただきました。魅力的な方ばかりで、今後みなさんからぜひお話を聞かせていただきたいと思いました。


発表1. ECサイトの販売ログ分析

誰が、いつ、何を購入したというデータから、前回までに
- 何と何をいっしょに買っているか
- 何の後に何を買うか
- どのようなパス(経路)を通って高額商品の購入に至るか
という分析を行ってきました。

データ提供くださった発表者のさらなる興味は、誰もが飛びつく入口商品からいかにリピート購入につなげるかという施策だそうです。Kobe.Rがそのお手伝いをできたらうれしいですね。


発表2. 商社の販売データ分析

商社の小売店に対する販売データをRを使って分析した事例を紹介しました。Rの基本的な機能だけでも示唆に富む分析ができるのがおもしろいですね。

参加者からいただいた情報もご紹介します。
ヒストグラムを描く時にはデータ区間の左右どちらかが不等号で、もう片方が等号になるのですがコマンドhistを使うときには左右どちらが等号になるのかを意識する必要があります。
rightという引数でそれを指定することができますが、デフォルトのright=TRUEよりも、right=FALSEにしてデータ区間の左側を等号にする方が使い勝手がよくなります。
もっとおすすめの方法は、ヒストグラムを描く時は連続量でもなんとかカテゴリー化して、棒グラフとして描くということでした。

(続く)