伊人99re_av日韩成人_91高潮精品免费porn_色狠狠色婷婷丁香五月_免费看的av_91亚色网站

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁 > IT資訊 > 大數(shù)據(jù) > 非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理

非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理

2018-04-28 10:19:50 | 來源:中培企業(yè)IT培訓(xùn)網(wǎng)

5.4  非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理

由于非結(jié)構(gòu)化數(shù)據(jù)的類型和表現(xiàn)形式多樣,其元數(shù)據(jù)管理辦法很難統(tǒng)一,并且非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容不確定、不易獲取(如影音、視頻),因此其元數(shù)據(jù)的提取和管理在業(yè)界還是一個新領(lǐng)域。在此,僅就幾類非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行元數(shù)據(jù)管理方法的初步探討。

1)對于影音、視頻、圖片等形式的非結(jié)構(gòu)化數(shù)據(jù),其內(nèi)容一般較難獲取,因此根據(jù)前面介紹的四面體模型來管理這類非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)。數(shù)據(jù)生成或獲取時明確其語義特征、基本屬性、底層特征三方面屬性,可以將其抽離出來作為結(jié)構(gòu)化數(shù)據(jù)存儲,那么就可以按照結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理方法進(jìn)行管理。

2)對于網(wǎng)頁、文檔等,不僅可以獲取語義特征、基本屬性、底層特征等屬性作為元數(shù)據(jù),還可以從其中對其內(nèi)容進(jìn)行讀取解析,抽取出關(guān)鍵字,作為非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)簽。主要分為三種類別:

第一種是提取文章里的關(guān)鍵詞,作為主題詞標(biāo)簽元數(shù)據(jù)。

第二種是對文章進(jìn)行多個維度的分類,打上分類標(biāo)簽,如在輿情分析過程中,會打上文章所涉及的銀行、產(chǎn)品及業(yè)務(wù)、風(fēng)險點(diǎn)、正負(fù)面情感等。

第三種是文章本身的結(jié)構(gòu)化標(biāo)簽元數(shù)據(jù),如時間、作者、來源、大小等。

在實(shí)現(xiàn)過程中,只有通過分詞、文本去重、各類分析模型(如主題分析模型、分類模型、情感分析模型)處理,并輔以各種自動化訓(xùn)練手段,才能獲取網(wǎng)頁、文檔等各類文本的非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)簽元數(shù)據(jù)。

3)對于具有加密方式的非結(jié)構(gòu)化數(shù)據(jù),要獲取其內(nèi)容,一般需要比較高級的權(quán)限,因此在對其進(jìn)行管理時只能獲取基本的語義特征、基本屬性,即可以知道文檔的名稱、時間等,而對于其內(nèi)容則無法獲知,一般和影音、視頻、圖片的相關(guān)元數(shù)據(jù)管理方法類似。

標(biāo)簽: 元數(shù)據(jù)管理
主站蜘蛛池模板: 公侵犯玩弄漂亮人妻优 | 男ji大巴进入女人的视频免费看 | 欧美黄色片一级 | 亚洲精品GV天堂无码男同 | 精品国产不卡一区二区 | 97久久国产成人免费网站 | 8x拔播拔播x8国产精品 | 色天天综合网 | 女人国产香蕉久久精品 | 在线一区免费 | 中国黄色三级毛片 | 性爱在线免费视频 | 国产毛片一区二区 | 一区二区国产欧美 | 九九伊人八戒 | 少妇特黄a一区二区三区 | 狠狠躁夜夜躁久久躁别揉 | 男女XX00上下抽搐动态图 | 亚洲欧美精品综合在线观看 | 亚洲精品一二 | 国产真实乱全部视频 | 国产亚洲精品久久久999密臂 | 黄色片一级毛片 | 精品国产V无码大片在线看 伊人久久大香线蕉综合四虎小说 | 开心婷婷丁香五月综合中文日韩 | 九月琪琪婷婷 | 一道久在线无码加勒比 | 精品一区二区av | 国产精品美女久久久久久不卡 | 神马久久久久久 | 在线中文字幕亚洲 | 欧美日韩无砖专区一中文字 | 欧美老妇毛茸茸二毛 | 亚洲国产婷婷香蕉久久久久久 | 麻豆疯狂做受xxxx高潮视频 | 精品国产一区二区三区久久久樱花 | 日韩在线毛片 | 国色天香一二期区 | 99热69 | 日本欧美一级aaaaa毛片 | 国产区一区二区三在线观看 |