伊人99re_av日韩成人_91高潮精品免费porn_色狠狠色婷婷丁香五月_免费看的av_91亚色网站

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁 > IT資訊 > 大數(shù)據(jù) > 文本獲取與預(yù)處理

文本獲取與預(yù)處理

2018-05-09 14:39:03 | 來源:中培企業(yè)IT培訓(xùn)網(wǎng)

(2)輿情分析在大數(shù)據(jù)時代的背景下,網(wǎng)絡(luò)上存在大量以文本為代表的非結(jié)構(gòu)化數(shù)據(jù),特別是互聯(lián)網(wǎng)上的新聞、社交媒體數(shù)據(jù),其中更不乏與商業(yè)銀行有關(guān)的輿情信息。對這些信息進(jìn)行有效的挖掘和利用,將為商業(yè)銀行及時掌握在互聯(lián)網(wǎng)上傳播的潛在風(fēng)險事件提供一個全新的視角。

實(shí)現(xiàn)輿情風(fēng)險管理的文本挖掘技術(shù)過程一般分為文本獲取、預(yù)處理、分析挖掘、可視化展現(xiàn)等步驟。

1)文本獲取:商業(yè)銀行獲取文本的方式包括已采購的財經(jīng)新聞、行業(yè)動態(tài)、研究報告等外部資訊信息,還可以通過開發(fā)采集工具來進(jìn)一步擴(kuò)大新聞媒體的采集范圍,比如對以微博、論壇為代表的社交媒體信息進(jìn)行采集。采集方式包括搜索引擎(通過搜索引擎進(jìn)行關(guān)鍵詞搜索,之后將所有結(jié)果通過爬網(wǎng)程序進(jìn)行采集)、新聞網(wǎng)站、論壇頁面適配(通過Web爬蟲程序抓取微博或論壇頁面,并從頁面結(jié)構(gòu)中解析出正文和評論數(shù)據(jù))、微博頁面適配(通過模擬實(shí)際用戶登錄后對微博信息進(jìn)行采集)。

2)預(yù)處理:包括中文分詞和文本去重等步驟,從而實(shí)現(xiàn)文本的預(yù)處理。前者是在獲取到文本數(shù)據(jù)之后,將文本切分成詞匯的集合,使得機(jī)器能夠更好地理解詞匯組成的文本。后者則通過相似哈希算法快速對海量文本相似程度進(jìn)行計(jì)算:將文檔看成特征詞的集合,為每個特征詞分配唯一編碼;根據(jù)特征詞的編碼以及在文檔中的權(quán)重,通過相似哈希算法生成文檔的信息指紋(可比較的64位二進(jìn)制編碼);文檔指紋完全相同的文檔,則認(rèn)定為內(nèi)容相同;指紋間不同的位數(shù)越少,則說明文檔內(nèi)容越相似。文本虛詞的增減、語句位置的變換將不會影響近似文本的發(fā)現(xiàn)。

標(biāo)簽: 輿情分析

相關(guān)閱讀

主站蜘蛛池模板: 国产福利萌白酱精品一区 | 亚洲4438| 人妻少妇波多野结衣黑人 | 成人学院中文字幕 | 我要一级片 | 99久久亚洲 | 国产重口老太和小伙乱 | caoporm-超频在线视频 | 国产精品成人片在线观看 | 日韩视频一区在线观看 | 亚洲美女视频网 | 芒果视频污污 | 欧美国产日本高清不卡 | 国产精品99久久久久久久久久久久 | 真实国产老熟女无套中出 | 国产精品白丝喷水JK娇喘视频 | 国产r级福利在线观看 | 最近中文字幕视频 | 欧美性生活视频网站 | 日本特级a一片免费观看 | 亚洲精品秘在线看 | 人妻精品动漫h无码中字 | 91大神在线免费?看 国产精品性久久 | 岛国午夜剧场 | 被强行灌满精子的少妇 | 欧美一级大片在线观看 | 涩涩视频在线观看免费 | 毛片免费观看 | 国语字幕av | 中文一区二 | 日本一区二区三区四区在线播放 | 二区三区视频在线观看 | 国产香蕉青春草原久久 | xx欧美老妇 | 一区二区日韩欧美 | 色哟哟vip | 欧美成人综合一区二区三区 | 国内自拍一区 | 亚洲免费二区 | 永久免费AV无码网站在线观看 | 亚洲麻豆一区二区三区 |