來源:中國報業 2018-06-14 10:19:43
但當數據量達到上十萬或者百萬時,Excel就會開始顯得有些力不從心,有時光是打開表格就要處理很久。這樣一組結構整齊,數量龐大的數據稱為數據庫。同屬于微軟辦公軟件的Access是一款容易上手的數據庫軟件, 如果每個Excel 表格是一個子文件,那么 Access就是存儲和調用這些表格的工具。使用數據庫軟件可以方便管理、查詢、訪問、調取庫中的具體信息。沒有經過處理的數據被記者當作一手資料使用,找到這樣的數據令記者興奮不已,因為那里可能就有下一條獨家新聞。但處理原始數據往往是最消耗時間的,對記者的數據能力也是一個很大的考驗。錯誤的拼寫,不連貫的格式,以及中間缺失的信息,這些都是最常見的數據問題。而若想從政府部門獲取更加準確和完整的數據,得到的答復往往是滯后的。為了滿足新聞的時效性,記者需要學會一些處理“骯臟”數據的技巧:比如在數據庫中建立一個“錯字表”,將錯誤的拼寫和正確的拼寫分別錄入兩列中,然后通過對比“錯字表”和原始數據,找出數據庫中所有出現錯誤的地方,再將它們統一替換為正確的拼寫。整個過程一分鐘都不需要。而且也便于日后追蹤和更新記錄。
對于熟悉編程的記者來說,還可以使用數據庫語言SQL直接對數據下達各種指令,至于電腦如何實現這個指令,則是不需要用戶去考慮的。此外,在處理數據方面,Python和R被數據記者廣泛使用。Python是一款多功能的計算機語言,由于其功能全面,語法簡單,成為不少編程入門者的首選。不同于軟件,編程語言允許用戶在高層數據結構上工作,功能也更加強大。比如Python中一款熱門的繪圖插件Matplotlib,讓用戶可以直觀地看到數據的走勢發展或是同類對比,這些通常是記者最感興趣的地方。
三、數據分析在實際工作中的運用
在課程設計上,美國的新聞學院整體走實用路線,lede項目也不例外。個人作業和小組項目貫穿整個課程。這樣的安排不僅讓學員有更多機會練手,豐富個人作品集,為畢業后找工作鋪路。此外,對于編程新手來說,一個主要障礙是自己寫的程序經常出現“bug”,而又不知道問題出在哪兒。 幸運的是網絡上關于編程的資源很多,大部分問題在谷歌、百度上搜一下就能找到答案。 對于應用為主的數據記者而言,能夠找到解決代碼問題的方法,甚至比學習編程本身更有意義,而課堂練習的目的也正在于此。
每學期末,學員都要完成一篇獨立的數據新聞報道,題材不限。我的選題是利用自然語言處理,分析微博網友對去年五一期間“成都女司機變道被打”這個熱點議題的態度和立場。通過對7000多條微博的分析,我發現在女司機劣跡斑斑的駕駛記錄被公開之前, 97%的網友表示了對她的同情和支持,而這一比例在她劣跡斑斑的駕駛記錄被曝光后,迅速跌至38.4%。這個語義分析用到了機器學習中兩個使用廣泛的模型:決策樹和樸素貝葉斯。我將自己人工分析的大約1000條微博錄入到模型中,而它通過一系列復雜的運算,建立起一個分類器,將剩下的6000條微博按照語義進行分類。概括來說,就是將數據按比例分成培訓用和測試用兩部分,先人工處理培訓用的數據,然后將它們“喂給”你所選擇的統計模型,讓電腦“學習”你的處理結果,再將測試用的數據盡可能地按照你的邏輯思維去分類。
近年來,科學家不斷地在機器學習(machinelearning)方面有所突破,人工智能離我們的生活越來越近,而自然語言處理一直是機器學習的一個重要領域。《紐約時報》和英國廣播公司(BBC)率先在公司內部建立起新聞實驗室,讓電腦學習語法結構,自動生成新聞稿件。去年《紐約時報》制作了一個名為“Blossom”的機器人,可以預測新聞在社交媒體上的點擊率,從而幫助編輯選擇應該發布的內容。截止目前,有不少媒體都開始嘗試更加復雜的數據分析和處理。《達拉斯早報》在一篇調查德州學生作弊的新聞中使用統計學中的回歸模型分析學生的成績分布;《洛杉磯時報》利用聚類分析法,計算出每個社區的犯罪情況,并對犯罪率有可能上升的地區做出預報;路透社去年通過一系列復雜的模型分析,調查出美國最高法院的判決結果是由一小群精英律師主導著,這則報道后來被普利策獎提名。
四、技能固然重要,但內容才是新聞的靈魂
Lede課程已經舉辦了兩屆,學員來自不同國家,背景多種多樣。在我的這些同學中,既有編輯室的主編,也有剛畢業的大學生,既有學新聞出身的,也有學社會學和其他人文學科的。大家參加這個項目的目的各有不同,有些人想集中學習一下數據技巧,然后返回編輯室繼續工作;有些人希望通過這個項目申請計算機或是數據科學的研究生。在與同學的交流中,我開始了解數據新聞在其他國家的發展,以及不同國家的記者最關注的話題,這個項目也讓我認識了不少同行。
離開學校回到編輯室,我更加意識到,數據技能固然重要,但并非數據新聞的全部。想要做出好故事,依舊不能忽略傳統新聞中采訪和寫作的重要性。數據可以幫助我們找到突破口,可視化可以幫助我們豐富畫面,但內容才是新聞的靈魂。因此,在談論數據新聞時,我們不能只依賴電腦和網絡上的信息,而是要繼續親自走訪現場,采訪專家和線人,調查取證,一遍遍修改稿件,核實內容的準確性,這樣才能讓報道更加準確、深入、全面,具有影響力。
相關推薦:
小升初試題、期中期末題、小學奧數題
盡在奧數網公眾號
歡迎使用手機、平板等移動設備訪問幼教網,幼兒教育我們一路陪伴同行!>>點擊查看