《Web數據挖掘》(Web Data Mining)掃描版[PDF]

  • 资源大小:
  • 资源类别:课程
  • 支持语言:全部
  • 预览图片:无预览图
  • 资源格式:综合
  • 资源作者:网络
  • 更新时间:2013-6-11 10:30:22
  • 推荐指数:
  • 运行系统:全部型号
以下是资源列表 推荐使用 电驴 或 迅雷 进行下载
[Web數據挖掘].Bing.Liu.掃描版.pdf 48.0MB
资源简介
語言: 簡體中文 地區: 大陸 圖書分類: 網絡 中文名: Web數據挖掘 發行時間: 2009年4月3日 原名: Web Data Mining 資源格式: PDF 版本: 掃描版 簡介:
評論處1樓有網盤鏈接
内容介紹:
過去幾十年裏,web的迅速發展使其成爲世界上規模最大的公共數據源。web挖掘的目标是從web超鏈接、網頁内容和使用日志中探尋有用的信息。.
本書旨在闡述web數據挖掘的概念及其核心算法,使讀者獲得相對完整的關于web數據挖掘的算法和技術知識。本書不僅介紹了搜索、頁面爬取和資源探索以及鏈接分析等傳統的web挖掘主題,而且還介紹了結構化數據的抽取、信息整合、觀點挖掘和web使用挖掘等内容,這些内容在已有書籍中沒有提及過,但它們在web數據挖掘中卻占有非常重要的地位。全書分爲兩大部分:第一部分包括第2章到第5章,介紹數據挖掘的基礎;第二部分包括第6章到第12章,介紹web相關的挖掘任務。..
本書不僅可作爲本科生的教科書,也是在web數據挖掘和相關領域研讀博士學位的研究生的重要參考用書,同時對web挖掘研究人員和實踐人員獲取知識、信息,甚至足創新想法也很有幫助。...
内容截圖:
目錄: 第一部分 數據挖掘基礎.
第1章 概述3
1.1 什麽是萬維網3
1.2 萬維網和互聯網的曆史簡述4
1.3 web數據挖掘5
1.3.1 什麽是數據挖掘6
1.3.2 什麽是web數據挖掘7
1.4 各章概要8
1.5 如何閱讀本書10
文獻評注10
第2章 關聯規則和序列模式12
2.1 關聯規則的基本概念12
2.2 apriori算法14
2.2.1 頻繁項目集生成14
2.2.2 關聯規則生成17
2.3 關聯規則挖掘的數據格式19
2.4 多最小支持度的關聯規則挖掘20
2.4.1 擴展模型21
2.4.2 挖掘算法22
2.4.3 規則生成26
.2.5 分類關聯規則挖掘27
2.5.1 問題描述27
2.5.2 挖掘算法28
2.5.3 多最小支持度分類關聯規則挖掘31
2.6 序列模式的基本概念31
2.7 基于gsp挖掘序列模式32
2.7.1 gsp算法33
2.7.2 多最小支持度挖掘34
2.8 基于prefixspan算法的序列模式挖掘37
2.8.1 prefixspan算法38
2.8.2 多最小支持度挖掘39
2.9 從序列模式中産生規則41
2.9.1 序列規則41
2.9.2 标簽序列規則41
2.9.3 分類序列規則42
文獻評注42
第3章 監督學習45
3.1 基本概念45
3.2 決策樹推理48
3.2.1 學習算法49
3.2.2 混雜度函數50
3.2.3 處理連續屬性53
3.2.4 其他一些問題54
3.3 評估分類器56
3.3.1 評估方法56
3.3.2 查準率、查全率、f-score和平衡點(breakeven point)57
3.4 規則推理59
3.4.1 序列化覆蓋59
3.4.2 規則學習:learn-one-rule函數61
3.4.3 讨論63
3.5 基于關聯規則的分類63
3.5.1 使用類關聯規則進行分類64
3.5.2 使用類關聯規則作爲分類屬性66
3.5.3 使用古典的關聯規則分類66
3.6 樸素貝葉斯分類67
3.7 樸素貝葉斯文本分類70
3.7.1 概率框架70
3.7.2 樸素貝葉斯模型71
3.7.3 讨論73
3.8 支持向量機73
3.8.1 線性支持向量機:可分的情況74
3.8.2 線性支持向量機:數據不可分的情況78
3.8.3 非線性支持向量機:核方法80
3.9 k-近鄰學習82
3.10 分類器的集成83
3.10.1 bagging83
3.10.2 boosting84
文獻評注84
第4章 無監督學習87
4.1 基本概念87
4.2 k-均值聚類89
4.2.1 k-均值算法89
4.2.2 k-均值算法的硬盤版本91
4.2.3 優勢和劣勢92
4.3 聚類的表示95
4.3.1 聚類的一般表示方法95
4.3.2 任意形狀的聚類95
4.4 層次聚類96
4.4.1 單鏈接方法97
4.4.2 全鏈接方法98
4.4.3 平均鏈接方法98
4.4.4 優勢和劣勢98
4.5 距離函數99
4.5.1 數值的屬性(numeric attributes)99
4.5.2 布爾屬性和符号屬性(binary and nominal attributes)99
4.5.3 文本文檔101
4.6 數據标準化101
4.7 混合屬性的處理103
4.8 采用哪種聚類算法104
4.9 聚類的評估104
4.10 發現數據區域和數據空洞106
文獻評注108
第5章 部分監督學習110
5.1 從已标注數據和無标注數據中學習110
5.1.1 使用樸素貝葉斯分類器的em算法111
5.1.2 co-training114
5.1.3 自學習115
5.1.4 直推式支持向量機116
5.1.5 基于圖的方法117
5.1.6 讨論119
5.2 從正例和無标注數據中學習119
5.2.1 pu學習的應用120
5.2.2 理論基礎121
5.2.3 建立分類器:兩步方法122
5.2.4 建立分類器:直接方法127
5.2.5 讨論128
附錄:樸素貝葉斯em算法的推導129
文獻評注131
第二部分 web挖掘
第6章 信息檢索與web搜索135
6.1 信息檢索中的基本概念136
6.2 信息檢索模型138
6.2.1 布爾模型138
6.2.2 向量空間模型139
6.2.3 統計語言模型141
6.3 關聯性反饋142
6.4 評估标準143
6.5 文本和網頁的預處理147
6.5.1 停用詞移除147
6.5.2 詞幹提取147
6.5.3 其他文本預處理步驟148
6.5.4 網頁預處理步驟148
6.5.5 副本探測149
6.6 倒排索引及其壓縮150
6.6.1 倒排索引150
6.6.2 使用倒排索引搜索151
6.6.3 索引的建立152
6.6.4 索引的壓縮153
6.7 隐式語義索引157
6.7.1 奇異值分解158
6.7.2 查詢和檢索159
6.7.3 實例160
6.7.4 讨論163
6.8 web搜索163
6.9 元搜索引擎和組合多種排序165
6.9.1 使用相似度分數的合并166
6.9.2 使用排名位置的合并..166
6.10 網絡作弊168
6.10.1 内容作弊169
6.10.2 鏈接作弊169
6.10.3 隐藏技術170
6.10.4 抵制作弊171
文獻評注172
第7章 鏈接分析174
7.1 社會關系網分析175
7.1.1 中心性175
7.1.2 權威177
7.2 同引分析和引文耦合178
7.2.1 同引分析178
7.2.2 引文耦合179
7.3 pagerank179
7.3.1 pagerank算法180
7.3.2 pagerank算法的優點和缺點185
7.3.3 timed pagerank185
7.4 hits186
7.4.1 hits算法187
7.4.2 尋找其他的特征向量189
7.4.3 同引分析和引文耦合的關系189
7.4.4 hits算法的優點和缺點189
7.5 社區發現191
7.5.1 問題定義191
7.5.2 二分核心社區192
7.5.3 最大流社區193
7.5.4 基于中介性的電子郵件社區195
7.5.5 命名實體的重叠社區196
文獻評注197
第8章 web爬取199
8.1 一個簡單爬蟲算法199
8.1.1 寬度優先爬蟲201
8.1.2 帶偏好的爬蟲201
8.2 實現議題202
8.2.1 網頁獲取202
8.2.2 網頁解析202
8.2.3 删除無用詞并提取詞幹204
8.2.4 鏈接提取和規範化204
8.2.5 爬蟲陷阱206
8.2.6 網頁庫206
8.2.7 并發性207
8.3 通用爬蟲208
8.3.1 可擴展性208
8.3.2 覆蓋度、新鮮度和重要度209
8.4 限定爬蟲210
8.5 主題爬蟲212
8.5.1 主題本地性和線索213
8.5.2 最優優先變種217
8.5.3 自适應219
8.6 評價标準223
8.7 爬蟲道德和沖突226
8.8 最新進展228
文獻評注230
第9章 結構化數據抽取:包裝器生成231
9.1 預備知識231
9.1.1 兩種富含數據的網頁232
9.1.2 數據模型233
9.1.3 數據實例的html标記編碼235
9.2 包裝器歸納236
9.2.1 從一張網頁抽取237
9.2.2 學習抽取規則238
9.2.3 識别提供信息的樣例242
9.2.4 包裝器維護242
9.3 基于實例的包裝器學習243
9.4 自動包裝器生成中的一些問題245
9.4.1 兩個抽取問題246
9.4.2 作爲正則表達式的模式246
9.5 字符串匹配和樹匹配247
9.5.1 字符串編輯距離247
9.5.2 樹匹配249
9.6 多重對齊252
9.6.1 中星方法252
9.6.2 部分樹對齊253
9.7 構建dom樹257
9.8 基于列表頁的抽取:平坦數據記錄258
9.8.1 有關數據記錄的兩個觀察結果258
9.8.2 挖掘數據區域259
9.8.3 從數據區域中識别數據記錄263
9.8.4 數據項對齊與抽取263
9.8.5 利用視覺信息264
9.8.6 一些其他技術264
9.9 基于列表頁的抽取:嵌套數據記錄265
9.10 基于多張網頁的抽取269
9.10.1 采用前幾節中的技術270
9.10.2 roadrunner算法270
9.11 一些其他問題271
9.11.1 從其他網頁中抽取271
9.11.2 析取還是可選272
9.11.3 一個集合類型還是一個元組類型273
9.11.4 标注與整合273
9.11.5 領域相關的抽取273
9.12 讨論274
文獻評注274
第10章 信息集成276
10.1 什麽是樣式表匹配277
10.2 樣式表匹配的預處理工作278
10.3 樣式表層次的匹配279
10.3.1 基于語言學的算法279
10.3.2 基于樣式表中限制的算法280
10.4 基于領域和實例層次的匹配280
10.5 不同相似度的聯合282
10.6 1:m匹配283
10.7 其他問題284
10.7.1 重用以前的匹配結果284
10.7.2 大量樣式表的匹配285
10.7.3 樣式表匹配的結果285
10.7.4 用戶交互285
10.8 web搜索界面的集成285
10.8.1 基于聚類的算法287
10.8.2 基于互關系的方法289
10.8.3 基于實例的方法290
10.9 構建一個全局的搜索界面292
10.9.1 結構上的正确性和合并算法293
10.9.2 詞彙的正确性294
10.9.3 實例的正确性295
文獻評注295
第11章 觀點挖掘296
11.1 意見分類297
11.1.1 基于意見短語的分類297
11.1.2 采用文本分類方法進行意見分類299
11.1.3 基于評分函數進行分類299
11.2 基于特征的觀點挖掘和摘要300
11.2.1 問題定義301
11.2.2 對象特征抽取305
11.2.3 格式1中正面和負面評價部分的特征抽取306
11.2.4 符合格式2和3的評審上的特征抽取308
11.2.5 觀點傾向分類309
11.3 比較性句子和比較關系挖掘310
11.3.1 問題定義311
11.3.2 等級比較性語句的識别312
11.3.3 比較關系的抽取314
11.4 觀點搜索315
11.5 觀點欺詐316
11.5.1 觀點欺詐的目标和行爲317
11.5.2 欺詐和欺詐者的種類317
11.5.3 隐藏技巧318
11.5.4 欺詐檢測318
文獻評注320
第12章 web使用挖掘322
12.1 數據收集和預處理323
12.1.1 數據的來源和類型323
12.1.2 web使用記錄數據預處理的關鍵元素326
12.2 web使用記錄挖掘的數據建模331
12.3 web用法模式的發現和分析334
12.3.1 會話和訪問者分析334
12.3.2 聚類分析和訪問者分割334
12.3.3 關聯及相關度分析337
12.3.4 序列和導航模式分析340
12.3.5 基于web用戶事務的分類和預測342
12.4 讨論和展望343
文獻評注344
參考文獻...345
相关内容
语言: 简体中文 地区: 大陆 图书分类: 网络 中文名: SEO兵书-搜索引擎优化手册 [查看详细]
简介:年代:2012 类  型:剧情/古装地区:日本 制作公司:松竹语言:日语 上映日期:2012-12-22 周六英文:Ohoku~Eien[Emonnosuke Tsunayoshi Hen] 编剧:神山由美子 导演:金子文纪主演:堺雅人 / 菅野美穗 / 尾野真千子 / 柄本佑 / 田中圣 / 要润 / 桐山涟 / 竜星凉 / 满岛真之介 / 郭智博 / 永江祐贵 / 三浦贵大 / 市毛良枝 / 榎木孝明 / 由纪纱织 / 堺正章 / 宫藤官九郎 / 西田敏行 统计[查看详细]
专辑中文名: 全曲集1~爱愁 语言: 日语 音乐风格: 民谣 地区: 台湾 简介: 风格:演[查看详细]
电驴云下载 网站地图 最近更新 收藏本页 返回顶部
Copyright @ 电驴云下载 - www.verycd9.com All Rights Reserved
声明:本站内容来自网络,如有意见请与我们联系。谢谢!
191.8 毫秒 2017-03-30 22:27:24 357932