功能介紹中國(guó)大數(shù)據(jù)|提供大數(shù)據(jù)技術(shù),大數(shù)據(jù)應(yīng)用案例,匯聚大數(shù)據(jù)資料,討論大數(shù)據(jù)話(huà)題。中國(guó)大數(shù)據(jù)是國(guó)內(nèi)最早的公益性大數(shù)據(jù)網(wǎng)站,由劉鵬教授創(chuàng)辦。
1,大數(shù)據(jù)的運(yùn)用-案例
CieloMar:CaRRot能不能例舉一個(gè)你們公司里大數(shù)據(jù)分析的例子,以及如何定價(jià)?
CaRRot:數(shù)據(jù)公司的實(shí)用案例:我就說(shuō)我最近做的這個(gè)吧,某個(gè)服裝快消品牌想了解中國(guó)的洗衣習(xí)慣,比如什么樣的面料會(huì)機(jī)洗,什么會(huì)手洗,什么要干洗。第一步就是采集信息,從新浪微博上采集近3年相關(guān)的微博(按相關(guān)關(guān)鍵字),第二步清洗數(shù)據(jù)與存儲(chǔ),把沒(méi)用的信息顧慮掉,有用的進(jìn)行分類(lèi)存儲(chǔ)。第三步就是數(shù)據(jù)挖掘,按照數(shù)據(jù)挖掘的算法進(jìn)行一些運(yùn)算(比如這個(gè)場(chǎng)景比較適合關(guān)聯(lián)規(guī)則)來(lái)得出結(jié)果,至于這個(gè)結(jié)果是什么樣的,這個(gè)就要看你建立的模型的輸出了。最后一步是數(shù)據(jù)驗(yàn)證了,就是驗(yàn)證你模型的選的合不合適,模型里面的參數(shù)是否需要變化。但是目前我做的這個(gè)沒(méi)有合適的結(jié)果集來(lái)做驗(yàn)證,所以我就略去了。。??偨Y(jié)一下大致的步驟就是數(shù)據(jù)采集(datacrawling)-》數(shù)據(jù)分類(lèi)和存儲(chǔ)(datahousing)-》數(shù)據(jù)挖掘(datamining)-》數(shù)據(jù)驗(yàn)證(dataverification)。關(guān)于定價(jià)問(wèn)題,其實(shí)我感覺(jué)這個(gè)彈性很大,這個(gè)要看客戶(hù)了,如果是大客戶(hù)的話(huà),肯定會(huì)要得多一些。
CieloMar:數(shù)據(jù)采集就是用微博關(guān)鍵詞?比如說(shuō)這個(gè)案例里你們輸入的關(guān)鍵詞是什么?然后你們使用微博的數(shù)據(jù),是公共資源還是跟微博買(mǎi)的數(shù)據(jù)?
CaRRot:數(shù)據(jù)采集就是用微博的關(guān)鍵詞,但是我們會(huì)用nlp(自然語(yǔ)言處理)來(lái)做一些聯(lián)想,近義詞聯(lián)想.數(shù)據(jù)是新浪公共資源,和新浪做partner成本太高了。
CieloMar:比如說(shuō)這個(gè)案例里,你們數(shù)據(jù)來(lái)源僅僅是微博嗎?
CaRRot:其實(shí)做多個(gè)數(shù)據(jù)源的不大好做,因?yàn)楦鱾€(gè)數(shù)據(jù)源之間的權(quán)重不太好把握,比如來(lái)自新浪和微信的消息哪個(gè)更重要一些?主要看客戶(hù)要求,客戶(hù)目前只要做微博的就做微博的。
CieloMar:多個(gè)數(shù)據(jù)源結(jié)果不一樣,是不是就意味著單一數(shù)據(jù)源結(jié)果不太準(zhǔn),也就導(dǎo)致大數(shù)據(jù)分析后的結(jié)果不準(zhǔn)確?
CaRRot:這個(gè)不一定,這個(gè)要看你研究面向的群體了,比如想研究中國(guó)20-40這個(gè)年齡段的人,微博應(yīng)該是最好的選擇。
2,大數(shù)據(jù)模型
Reinaldo:大數(shù)據(jù)的模型到底是個(gè)什么感覺(jué)啊?不太能想像。
CaRRot:大數(shù)據(jù)類(lèi)型的線(xiàn)性是怎么樣的?正相關(guān)還是分散隨機(jī)的。最簡(jiǎn)單的一個(gè)例子,比如預(yù)測(cè)用戶(hù)購(gòu)買(mǎi)行為,用戶(hù)對(duì)此產(chǎn)品的互動(dòng)率x(點(diǎn)擊,收藏,加入購(gòu)物車(chē)),我們需要求出用戶(hù)購(gòu)買(mǎi)該產(chǎn)品的概率y,那么我們可以定義y=ax,這個(gè)公式就是最簡(jiǎn)單的模型,當(dāng)然,這個(gè)模型不一定適用于這個(gè)場(chǎng)景,在具體場(chǎng)景中系數(shù)肯定不止a一個(gè)。
Reinaldo:所以說(shuō)針對(duì)不同情況都有各自的一個(gè)模型是吧?其實(shí)就像一個(gè)數(shù)據(jù)的分析方法?
CaRRot:針對(duì)不同場(chǎng)景是會(huì)建立一個(gè)合適與該場(chǎng)景的模型,因地制宜。建模整個(gè)過(guò)程涵蓋了數(shù)據(jù)分析。從一開(kāi)始的模型預(yù)測(cè),到最后的結(jié)果驗(yàn)證都需要。
3,大數(shù)據(jù)與金融
Wendy:本書(shū)最開(kāi)我眼界的地方,有三個(gè)。一個(gè)是樣本=總體。經(jīng)濟(jì)學(xué)專(zhuān)業(yè)在做研究時(shí),都是以一部分?jǐn)?shù)據(jù)為樣本來(lái)做的。隨著it技術(shù)的發(fā)展,和數(shù)據(jù)采集方法的改善。樣本=總體應(yīng)該能得到實(shí)現(xiàn),現(xiàn)階段經(jīng)濟(jì)計(jì)量研究方法也會(huì)受到?jīng)_擊。第二是只關(guān)注相關(guān)關(guān)系,而忽略因果。和Reinaldo的感受一樣,這個(gè)觀(guān)點(diǎn)很具有沖擊性。然而經(jīng)濟(jì)學(xué)研究中,其實(shí)也是相關(guān)重要于因果的。經(jīng)濟(jì)學(xué)研究很多是基于最小二乘法研究?jī)?nèi)生變量怎么隨外生變量變化,例如Y=aw+bz+ck,研究的是每單位w,z,k的變化怎樣引起y的變化。而只有一部分研究,研究的是因果關(guān)系,這時(shí)我們會(huì)引入格蘭杰因果模型進(jìn)行研究,但這樣的研究是少數(shù)。第三,大數(shù)據(jù)對(duì)金融行業(yè)的沖擊。大數(shù)據(jù)是否能代替掉行業(yè)專(zhuān)家?在金融行業(yè)里就是行研員和基金經(jīng)理。在整個(gè)金融行業(yè),量化金融—利用金融模型選股,構(gòu)建投資組合,防范風(fēng)險(xiǎn)是必然的趨勢(shì)。但是可以說(shuō)沒(méi)有一家金融機(jī)構(gòu)敢完全依賴(lài)量化這條路。美國(guó)股市的黑色星期五,就是過(guò)渡依賴(lài)量化工具產(chǎn)生的。量化vs行研。索羅斯vs巴菲特,基金經(jīng)理是否能創(chuàng)造價(jià)值,現(xiàn)在依然是金融界的一個(gè)hottopic。
CieloMar:從經(jīng)濟(jì)學(xué)角度闡述真好!不過(guò)最后兩句話(huà)幾個(gè)專(zhuān)業(yè)術(shù)語(yǔ)不太懂,格蘭杰因果模型?書(shū)中提過(guò)嗎?請(qǐng)解釋一下。
Wendy:格蘭杰因果模型,書(shū)中沒(méi)有,用以分析兩相關(guān)序列之間,是否因果,誰(shuí)因誰(shuí)果,或互為因果。
4,負(fù)面影響以及存在問(wèn)題
CieloMar:Reinaldo,關(guān)于你寫(xiě)的文章我有幾個(gè)問(wèn)題:1,我認(rèn)為大數(shù)據(jù)不會(huì)完全顛覆某個(gè)行業(yè),新聞還是新聞,本質(zhì)是不變的,只是行事方式變了。2,我有個(gè)疑惑,過(guò)分依賴(lài)于數(shù)據(jù),忽略思考因果關(guān)系,這是否會(huì)削弱我們的思考判斷能力,比如我們就直接看去哪兒網(wǎng)的價(jià)格曲線(xiàn)買(mǎi)便宜機(jī)票,不需要去思考為什么機(jī)票會(huì)便宜,比如動(dòng)車(chē)的修建降低了票價(jià)等,慢慢地我們會(huì)過(guò)分依賴(lài)數(shù)據(jù)而不是思辨能力。再比如你提到的新聞行業(yè),我們總是通過(guò)數(shù)據(jù)來(lái)拍版,挑選新聞,這樣新聞的質(zhì)量慢慢降低,畢竟大部分人是“烏合之眾”,而這種降低已經(jīng)在發(fā)生。
Reinaldo:我基本認(rèn)同烏合之眾的說(shuō)法,門(mén)戶(hù)網(wǎng)站的新聞排名已經(jīng)反應(yīng)出來(lái):標(biāo)題黨新聞最受寵、最吃香,這大概和人的天性有關(guān),但并不意味著會(huì)讓嚴(yán)肅的報(bào)道消失。我說(shuō)的顛覆行業(yè),更多指?jìng)鹘y(tǒng)生產(chǎn)方式已經(jīng)被改寫(xiě)了,無(wú)力回天,但包括報(bào)紙?jiān)趦?nèi)的傳統(tǒng)媒體肯定會(huì)存在,類(lèi)似廣播仍存在一樣,但不會(huì)占主流。而且,新聞消息的未來(lái)肯定不能再延用主編拍板的方式。至于內(nèi)容低俗與否,我更傾向于用教育來(lái)引導(dǎo)認(rèn)識(shí),新聞媒體可以較少承擔(dān)教育的功能。我認(rèn)同技術(shù)改變現(xiàn)有行業(yè)規(guī)則,至于在改變過(guò)程中的亂象,我認(rèn)同楊導(dǎo)的說(shuō)法,技術(shù)進(jìn)步會(huì)把現(xiàn)有的問(wèn)題逐步解決。
Ada:關(guān)于這個(gè)問(wèn)題,推薦大家書(shū)籍《烏合之眾》。
Wendy:高科技的負(fù)面影響,推薦英劇BlackMirror(《黑鏡》),以及書(shū)籍《娛樂(lè)至死》。
CieloMar:大數(shù)據(jù)目前面臨的問(wèn)題還有點(diǎn)補(bǔ)充:1大數(shù)據(jù)乃至說(shuō)計(jì)算機(jī)行業(yè)發(fā)展得如此快,如何完善法律也是一個(gè)問(wèn)題。2網(wǎng)絡(luò)安全問(wèn)題,大家對(duì)個(gè)人隱私只會(huì)越來(lái)越重視,如何保護(hù)好大家的隱私也是關(guān)注焦點(diǎn)。
Reinaldo:這個(gè)(網(wǎng)絡(luò)安全問(wèn)題)在技術(shù)上,我覺(jué)得不難解決,關(guān)鍵是配套的法律、制度,其實(shí)我也很擔(dān)心大數(shù)據(jù)被政府利用變成了《1984》的無(wú)處不監(jiān)控。
CieloMar:所以網(wǎng)絡(luò)安全也會(huì)很有市場(chǎng),能否叫它大數(shù)據(jù)帶來(lái)的“周邊產(chǎn)品”?我覺(jué)得這樣的周邊市場(chǎng)還有很多,一旦某樣事物火了,一定會(huì)有很多周邊市場(chǎng)出現(xiàn),所以大家忙著大數(shù)據(jù)時(shí)候,多關(guān)注周邊也是一條思路。
5,值得你思考的問(wèn)題
楊導(dǎo):
1大數(shù)據(jù)可能會(huì)顛覆我們的認(rèn)識(shí),思考的時(shí)候"怎么樣"比"為什么"更重要。
2通過(guò)讀書(shū)之后,我覺(jué)得怎樣獲取數(shù)據(jù)和利用數(shù)據(jù)很重要,是一個(gè)應(yīng)該注意的方面。
3其實(shí)書(shū)里面舉的例子說(shuō)亞馬遜推薦相關(guān)書(shū)籍是利用了大數(shù)據(jù),但實(shí)際上它只提高了銷(xiāo)量,長(zhǎng)期來(lái)看用戶(hù)的體驗(yàn)并不好(個(gè)人認(rèn)為,你們覺(jué)得呢),所以在利用大數(shù)據(jù)做推薦和營(yíng)銷(xiāo)的時(shí)候,如何提高用戶(hù)體驗(yàn)尤其重要。
4目前來(lái)看,大數(shù)據(jù)更多的是用在商業(yè)領(lǐng)域,后期發(fā)展成熟我覺(jué)得它將非常可怕,這是一個(gè)隱患。如何防患這種隱患很重要。大家都愿意去做先賺錢(qián)的事情,但很少有人愿意做先預(yù)警危機(jī)的人。
5還有一個(gè)印象深刻的就是"數(shù)據(jù)廢氣",利用大家都不在意的點(diǎn)做些文章。
6這是我最想強(qiáng)調(diào)的一點(diǎn),就是實(shí)踐,不要怕錯(cuò),我只想利用簡(jiǎn)單的模型去印證我懷疑的東西。還有書(shū)中的說(shuō)法,我希望通過(guò)實(shí)驗(yàn)去看一下。有興趣的親們一起嘗試一下啊,然后我們互相交流感受。
1、本文只代表作者個(gè)人觀(guān)點(diǎn),不代表本站觀(guān)點(diǎn),僅供大家學(xué)習(xí)參考;
2、本站屬于非營(yíng)利性網(wǎng)站,如涉及版權(quán)和名譽(yù)問(wèn)題,請(qǐng)及時(shí)與本站聯(lián)系,我們將及時(shí)做相應(yīng)處理;
3、歡迎各位網(wǎng)友光臨閱覽,文明上網(wǎng),依法守規(guī),IP可查。
作者 相關(guān)信息
注意!北京對(duì)國(guó)內(nèi)中高風(fēng)險(xiǎn)來(lái)返京人員、宗教場(chǎng)
2021-01-09中國(guó)共產(chǎn)黨司法戰(zhàn)線(xiàn)的先驅(qū)——何叔衡
2021-01-08秦安戰(zhàn)略|美國(guó)特朗普等政客如何弄錯(cuò)了時(shí)代、
2020-08-10意14家醫(yī)學(xué)研究中心聯(lián)合報(bào)告:意大利病毒和中
2020-03-27內(nèi)容 相關(guān)信息
任澤平:于無(wú)聲處聽(tīng)驚雷——從2019年統(tǒng)計(jì)公報(bào)看中國(guó)未來(lái)
2020-11-25陳虎:美國(guó)的衰退走到了哪一步?一組數(shù)字就能夠讓你看清楚
2020-09-19李達(dá)希:中俄石油協(xié)議巨虧超萬(wàn)億?真相在數(shù)據(jù)與歷史中
2020-03-15月球背面的地下有什么?“玉兔二號(hào)”通過(guò)對(duì)月球“做CT”獲得最新研究成果
2020-02-28與病毒較量的中國(guó)經(jīng)濟(jì)!大數(shù)據(jù)告訴你,全國(guó)正逐步實(shí)現(xiàn)復(fù)工復(fù)產(chǎn)
2020-02-20? 昆侖專(zhuān)題 ?
? 高端精神 ?
? 新征程 新任務(wù) 新前景 ?
? 國(guó)資國(guó)企改革 ?
? 雄安新區(qū)建設(shè) ?
? 黨要管黨 從嚴(yán)治黨 ?
? 社會(huì)調(diào)查 ?
圖片新聞
友情鏈接
備案/許可證編號(hào):京ICP備15015626號(hào)-1 昆侖策研究院 版權(quán)所有 舉報(bào)郵箱:kunlunce@yeah.net
|