《データマイニング》のソースを表示
←
《データマイニング》
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、以下のグループに属する利用者のみが実行できます:
登録利用者
。
このページは編集や他の操作ができないように保護されています。
このページのソースの閲覧やコピーができます。
'''【でーたまいにんぐ (data mining) 】''' [[データマイニング]] (data mining)は, [[データベース]] (data base) [5] に蓄えられた大量の生データに対して, 機械学習 (machine learning)に関連する複数の手順を用いる戦略により, データに内在する規則性 (regularity), 制約 (constraint), ルール (rule)などを効率よく求める研究である. なお, データベースからの知識発見 (KDD: knowledge discovery in databases)とも呼ばれ, [[知識発見]] (knowledge discovery)に関わる多数の学習アルゴリズムが, 人工知能だけでなくデータベースや統計学の側面を含めて研究されている. まず, ノイズや例外を含み疎な構造をもつことも多い生データを対象としたデー タマイニングに共通する知識発見の手順を(1)~(6)に簡単に示す [1]. 【手順】 (1)対象となるデータに対する既知の性質(背景知識)を利用してデータ収集を行い, データベースや[[データウェアハウス]] (data warehouse)に格納する. (2)データに対する選択操作を前処理として行う. この段階はデータクリーニングと呼ばれる. (3)実装を前提とする制約のもとでデータの次元低減などによる変形操作を行う. (4)データマイニングを行うアルゴリズムを実行する. (5)導出された記述の解釈, ならびに, 記述の妥当性の検証を後処理として行う. (6)最終的な記述が評価され, 知識となる. 手順(4)のアルゴリズムで求まる知識の表現法によって, [[データの統計的解析]] (statistical analysis of data)と[[データの論理的解析]] (logical analysis of data)の二種類に大きく分類される. データの論理的解析の一種である[[決定木]] (decision tree)を図1に示す. なお, 決定木を求めるアルゴリズムとしてID3 [4] などが知られており, エントロピーやMDL(minimum description length)基準が記述を選択する際に用いられる. <center><table><tr><td> <table width="300" border="1" cellspacing="2" cellpadding="0"> <tr> <td align="center">例</td> <td align="center">属性1</td> <td align="center">属性2</td> <td align="center">属性3</td> <td align="center">クラス</td> </tr> <tr> <td align="center">例1</td> <td align="center">高</td> <td align="center">大</td> <td align="center">10</td> <td align="center">正</td> </tr> <tr> <td align="center">例2</td> <td align="center">高</td> <td align="center">大</td> <td align="center">3</td> <td align="center">正</td> </tr> <tr> <td align="center">例3</td> <td align="center">高</td> <td align="center">中</td> <td align="center">6</td> <td align="center">負</td> </tr> <tr> <td align="center">例4</td> <td align="center">高</td> <td align="center">中</td> <td align="center">2</td> <td align="center">正</td> </tr> <tr> <td align="center">例5</td> <td align="center">高</td> <td align="center">小</td> <td align="center">9</td> <td align="center">負</td> </tr> <tr> <td align="center">例6</td> <td align="center">低</td> <td align="center">大</td> <td align="center">7</td> <td align="center">正</td> </tr> <tr> <td align="center">例7</td> <td align="center">低</td> <td align="center">中</td> <td align="center">5</td> <td align="center">負</td> </tr> <tr> <td align="center">例8</td> <td align="center">低</td> <td align="center">中</td> <td align="center">4</td> <td align="center">正</td> </tr> </table> </td> <td align=center>[[画像:0218-c-a-06-Tree.png|center|図1: 決定木を用いた概念学習の一例]]</td></tr> <tr> <td colspan="2" align=center><br>図1: 決定木を用いた概念学習の一例</td></tr></table></center> 関係データベースの問合せ言語SQLのGroupBy操作の拡張として位置付けられる[[結合ルール]] (association rule)を求めるアルゴリズムの研究も数多い. 結合ルールを求めるために, 最小サポート(support)値と最小確信度(confidence)を定めるヒューリスティックな閾値が用いられる. なお, 最小閾値により多数のルール導出を制限するだけではなく, 新規性や興味深さの弱いルールを最大閾値で抑制することもある. また, 頻度の高い購買パターンを結合ルールが表すため, データベースマーケティング(database marketing)などをターゲットに, 計算機アーキテクチャを含めた効率良い実装が進んでいる. その他, 多変量解析の手法を用いる[[クラスター分析]] (cluster analysis)や, 因果関係を表現する[[ベイズネットワーク]] (Baysian network)や, 論理的表現に対する帰納推論プログラミング(ILP: inductive logicprogramminge)などもアプローチの一つである. また, ルールの理解可能性を高める上で, ルールの[[視覚化]] (visualization)も欠かせない. なお, ラフ集合(rough sets), ファジー理論(fuzzy theory), ニューラルネットワーク(neural network), 遺伝アルゴリズム(genetic algorithm)などの研究とも密接に関係している. ところで, データマイニングの対象となるデータは, 航空会社, 銀行, クレジットカード会社, 電話, 保険などでのトランザクションだけではなく, WWWデータや医療データなどの異なる性質をもつデータも含まれる [2]. 特に, 学習データの種類が限定される場合, 地理データに対しては空間データマイニング(spatial data mining), 文書データに対してはテキストマイニング(text mining)などと呼ぶ. また, データマイニングに関連したシフトウェア(siftware)と呼ばれるソフトウェアの開発も盛んである. なお, 良質な知識を発見するには, 複数のアルゴリズムを適用するだけではなく, データの前処理・ルールの後処理が重要となる. したがって, 実用化に向けて, 例えば, 各種情報システムを効果的に運用することを考えたデータ収集戦略を決定しなければならない. ---- '''参考文献''' [1] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurusamy, ''Advances in Knowledge Discovery and Data Mining'', AAAI/MIT Press, 1996. [2] R. Michalski, I. Bratko and M. Kubat, ''Machine Learning and Data Mining, Methods and Applications'', John Wiley & Sons Ltd., 1998. [3] J. Pearl, ''Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference'', Morgan-Kaufmann, 1988. [4] J. R. Quinlan, ''C4.5: Programs for Machine Learning'', Morgan Kaufmann Publishers, Inc., 1993. 古川康一監訳, 『AIによるデータ解析』, トッパン, 1995. [5] J. D. Ullman, ''Principles of Database and Knowledge-Base Systems'', Vol.I, Vol.II, Computer Science Press, 1988. [[category:システム分析・意思決定支援・特許|でーたまいにんぐ]]
《データマイニング》
に戻る。
案内メニュー
個人用ツール
ログイン
名前空間
ページ
議論
変種
表示
閲覧
ソースを表示
履歴表示
その他
検索
案内
メインページ
コミュニティ・ポータル
最近の出来事
最近の更新
おまかせ表示
ヘルプ
ORWikiへのお問い合わせ
OR学会HP
OR学会アーカイブ集
ツール
リンク元
関連ページの更新状況
特別ページ
ページ情報