伊人99re_av日韩成人_91高潮精品免费porn_色狠狠色婷婷丁香五月_免费看的av_91亚色网站

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 大數據 > 文本獲取與預處理

文本獲取與預處理

2018-05-09 14:39:03 | 來源:中培企業IT培訓網

(2)輿情分析在大數據時代的背景下,網絡上存在大量以文本為代表的非結構化數據,特別是互聯網上的新聞、社交媒體數據,其中更不乏與商業銀行有關的輿情信息。對這些信息進行有效的挖掘和利用,將為商業銀行及時掌握在互聯網上傳播的潛在風險事件提供一個全新的視角。

實現輿情風險管理的文本挖掘技術過程一般分為文本獲取、預處理、分析挖掘、可視化展現等步驟。

1)文本獲取:商業銀行獲取文本的方式包括已采購的財經新聞、行業動態、研究報告等外部資訊信息,還可以通過開發采集工具來進一步擴大新聞媒體的采集范圍,比如對以微博、論壇為代表的社交媒體信息進行采集。采集方式包括搜索引擎(通過搜索引擎進行關鍵詞搜索,之后將所有結果通過爬網程序進行采集)、新聞網站、論壇頁面適配(通過Web爬蟲程序抓取微博或論壇頁面,并從頁面結構中解析出正文和評論數據)、微博頁面適配(通過模擬實際用戶登錄后對微博信息進行采集)。

2)預處理:包括中文分詞和文本去重等步驟,從而實現文本的預處理。前者是在獲取到文本數據之后,將文本切分成詞匯的集合,使得機器能夠更好地理解詞匯組成的文本。后者則通過相似哈希算法快速對海量文本相似程度進行計算:將文檔看成特征詞的集合,為每個特征詞分配唯一編碼;根據特征詞的編碼以及在文檔中的權重,通過相似哈希算法生成文檔的信息指紋(可比較的64位二進制編碼);文檔指紋完全相同的文檔,則認定為內容相同;指紋間不同的位數越少,則說明文檔內容越相似。文本虛詞的增減、語句位置的變換將不會影響近似文本的發現。

標簽: 輿情分析

相關閱讀

主站蜘蛛池模板: 久久综合国产精品 | 四虎影视一区二区 | 成人免费一级伦理片在线播放 | 69精品人妻一区二区雪峰影视 | 亚洲熟妇无码八V在线播放 韩日一级 | 国产午夜影院 | 国产人与动牲交 | 九色一区| 午夜理论在线观看无码 | 偷拍区另类欧美激情日韩91 | 久久精品无套 | 一区二区三区视频在线观看 | 国产精品1区2区3区在线观看 | 中文字幕3页 | 国产激情久久久久久熟女老人AV | 国产日本欧美视频 | 日产又大又黄又爽又猛 | 亚洲成人精 | 377人体粉嫩噜噜噜 国产精品极品 | 国产成人福利片 | FREEXX性黑人大战欧美 | 国产成人MV在线播放 | 撕开奶罩疯狂揉吮奶头 | 国产清纯白嫩初高生在线播放视频 | 色婷婷六月亚洲综合香蕉 | 又色又爽视频 | 欧美国产中文动漫日韩欧美在线 | 亚洲免费高清 | 97在线中文字幕观看视频 | 狠狠久久噜噜熟女 | 又黄又爽又色视频 | 久青草国产在视频在线观看 | 在线中文字幕精品第5页 | 成人AV导航 | 精品视频一二三区 | 成人区精品 | 秋霞福利视频 | av小四郎在线最新地址 | 一区二区不卡视频 | 91亚洲国产在人线播放午夜 | 成人无码在线视频网站 |