摘 要 大數據將推動出版業進入智能化發展新階段,具有內容創作領航、讀者閱讀賦權和出版流程再造等優勢。通過行業調查和案例分析發現,出版業在應用大數據的過程中,存在過度討好讀者、復合型數字出版人才缺乏、大數據殺熟、用戶隱私保護堪憂和數字資源版權保護不實等問題。因此,要秉承導向為先、人才為本、盈利為基、保護為要、制度為綱的大數據應用策略,全方位推動我國出版業實現高質量發展。
邱然, 科技與出版 發表時間:2021-10-11
關鍵詞 大數據;出版業;應用策略
《中國大數據市場發展狀況與投資規劃分析報告2020—2025年》顯示,大數據將改變傳統出版業的流程和模式。“十四五”期間,亟需厘清出版業大數據應用過程中存在的主要問題并提出應對策略,以壯大出版業發展新引擎,賦能出版業轉型升級,推動出版業高質量發展。
1 出版業大數據應用現狀
現階段,大數據在出版業的應用分為數據采集、數據生成、數據分析、數據使用四個方面。數據采集,包括用戶數據采集、交互數據采集和內容數據采集;數據生成,包括專業生產內容(PGC)、用戶生成內容(UGC)和設備采集生成內容(DGC);數據分析,是指數據分析專業人才通過信息技術融合分析,為出版業發展提供分析報告、咨詢建議等;數據使用,是以數據分析為參考,為內容創作、讀者互動、出版流程升級提供幫助,帶來出版業的新思維、新業態和新發展。
1.1 內容創作領航
為解決傳統出版業的內容供給側問題,大數據技術從選題策劃、寫作風格、預選稿件三個重要環節為出版業內容供給提供了新的發展引擎。
首先,助力選題策劃。小數據時代,“新選題”策劃多依賴于編輯個人的學識、經驗和市場判斷力,這種選題策劃方式主觀性過強,風險較大。而大數據技術能聯動各出版環節,從策劃、編輯、印制、發行、營銷、庫存與銷量的動態數據中判斷新選題面世的最佳時機,從不同視角評估新選題是否符合市場需求,從過去的完全依靠編輯個人經驗的選題策劃模式逐步轉向客觀數據與主觀經驗相結合,避免編輯主觀要素的過多介入,減少了新選題的投資風險。
其次,調整寫作風格。大數據技術能夠引導作者在寫作中留意讀者偏好,通過調整寫作計劃、篇章結構、文字風格,使作品能更好滿足讀者需求。特別是在在線內容創作平臺“邊創作邊更新” 的模式下,讀者偏好對作者的寫作影響更加明顯。在線內容創作平臺會設置數據跟蹤點,跟蹤讀者閱讀行為,如記錄讀者的閱讀時間、閱讀深度、閱讀速度,各章節的閱讀時間占比,是否連續閱讀等,以此推斷讀者對內容的喜好程度。這些量化的數據會成為衡量作品是否有吸引力的數值基準,并反饋給作者,成為作者調整寫作風格的依據。
最后,預選暢銷稿件。基于大數據技術研發的“暢銷書測量儀”(bestseller-ometer)工程,通過分析至少2萬本以上的作品,找出暢銷書與非暢銷書的區別點,放到科學創作解構體系中,在計算機模型的歸納與演繹下從數據驅動的層面洞察暢銷書背后的“密碼”:題材如何組合?情緒何時轉折?使用哪種行文風格?人物怎樣塑造? “暢銷書測量儀”用算法找到打造暢銷書的通用公式。未來,出版商將更多借助大數據技術挑選稿件內容。Inkitt號稱全球第一個數據驅動型(datadriven)的在線出版平臺,其新創稿件的預判工作交由機器處理,通過精細化、模型化的數據分析,評估該平臺哪些潛在的好內容“值得”被出版。[1]
1.2 讀者閱讀賦權
傳統閱讀是讀者與文字之間封閉的思想交流行為,電子閱讀則推動讀者的閱讀權限、閱讀模式發生變化。從讀者體驗角度看,出版業應用大數據將使讀者獲得更佳的互動閱讀體驗和個性化的購書體驗。
一方面,互動閱讀體驗更佳。許多在線內容創作平臺將讀者賦權為作品的共同創作者或共同編輯,可在閱讀中針對宏觀的故事情節、人物設定、寫作風格,或微觀的某個橋段、某句臺詞,向作者提出修改建議,作者會選擇性采納,讀者將得到平臺打賞。例如,Findings、Readmill 和Subtext等公司研發出“動態小說”(Active Fiction)項目,通過事先設定的算法,在數據平臺上設計出故事發展路徑,允許讀者選擇情節發展、投票決定情節走勢、自定義故事結局。國內的中文在線、起點文學、榕樹下、紅袖添香等平臺,也鼓勵讀者互動,給作品提建議或參與更新部分內容,這種協作出版模式與新的社群建立協同運行,實現“讀—創—讀”的良性循環。
另一方面,購書體驗個性化。目前,亞馬遜、eBay、京東、當當、天貓等電商平臺已啟用智能推薦系統,基于用戶的常搜詞匯、歷史購買記錄、瀏覽記錄、性別、職業等,分析用戶習慣,為用戶創建個性化的興趣權重。例如,新用戶在平臺注冊時勾選的感興趣圖書種類為職場晉升類,而在平臺上瀏覽的最后幾本書都是恐怖小說,智能推薦系統會在該用戶的興趣權重中為恐怖小說分配更高的推薦分值,于是用戶收到恐怖小說的推薦比例會高于職場晉升類圖書。智能推薦系統還能實時滾動推薦平臺新上線的作品,讓每位讀者擁有屬于自己的個性化書單。
1.3 出版流程再造
大數據技術將推動出版流程再造,重構出版產業鏈。
選題策劃:組建超大規模的選題數據庫系統,實現選題查重、選題對比、選題評估、暢銷預測等功能,降低傳統選題策劃時的主觀性、盲目性,助力選題決策。
編輯校對:智能編校系統以海量語言數據庫為依托,具有自動糾錯、敏感詞匯排查、協同編撰等功能。自動糾錯功能,能快速精準識別稿件中常用詞語、固定搭配、古今詩詞、專業術語等方面的錯誤并給出糾正意見;敏感詞匯排查功能,能根據時代發展、政策變化及時更新數據庫中的敏感詞匯,及時排查稿件中的敏感詞、禁用詞;協同編撰功能,支持機器編撰科普、百科類稿件,支持編輯、作者分別在線撰稿和同時協同撰稿 [2],還支持數字化在線校對,能夠實現外校、內校、作者校等協同校對功能。
印刷發行:智能印刷發行系統能夠實現耗材的綠色化、印前的數字化、印中的自動化、設備的物聯網化,有望解決傳統出版業庫存積壓、倉儲成本過高等問題。智能印刷發行系統還能夠準確掌握需求側信息,建立目標用戶畫像,根據消費者需求確定印發數量,優化供給、降低退貨率。
營銷推廣:智能營銷推廣系統能夠鎖定目標用戶群,建立個性營銷、精準投遞機制,能夠分析出不同地域讀者的閱讀偏好、哪些圖書適合捆綁銷售、哪類讀者對新書感興趣,使出版機構的營銷人員更直觀、準確了解市場動態。在互聯網平臺,智能營銷推廣系統可以跟蹤挖掘讀者的閱讀次數、閱讀時間和閱讀習慣,進行精準圖書營銷,滿足用戶動態化、個性化的閱讀需求。在實體書店,智能營銷推廣系統通過手機應用確定用戶在書店的停留時間、行動軌跡、往來頻次,挖掘潛在用戶群。
2 出版業大數據應用的主要問題
大數據技術推動出版業實現創新發展的同時,也帶來了一些問題。通過調查訪談和案例分析發現,出版業在大數據應用過程中遇到的五個主要問題包括:部分“非辨證吸收、過度討好讀者”的現象、復合型數字出版人才缺乏、大數據殺熟問題嚴重、用戶隱私保護堪憂和數字資源版權保護不實。
2.1 部分“非辨證吸收、過度討好讀者”的現象
調研發現,數據化出版中存在著部分非辨證吸收、甚至過度討好讀者現象。這樣的“討好” 可分為兩面性看待:一方面,若是滿足人民群眾日益增長的美好精神文化生活需要的討好,自然是沒問題的;但是,讀者需求也存在著不理性、不客觀、甚至集體無理性的成分,非辯證吸收建議、甚至過度討好會適得其反。在教育出版界,存在部分非辨證吸收建議的問題。關于英雄、戰爭的故事《劉胡蘭》《誰是最可愛的人》《黃繼光》《雷鋒日記》文章從語文課本刪除的事引發熱議,編寫組回答是,因為部分學生和家長讀者提出建議認為這些文章斗爭性強,不再合時代發展,不能給現在孩子有正確的引導,取而代之是國外的《愛迪生救媽媽》,教材的編寫,事關培養社會主義合格接班人的重要責任,家長和學生作為教材的使用者,有建議權,但編寫組應該辨證吸收,試問,我們國家的黨史、英雄人物都不能留存于課本中,紅色基因如何代代相傳?
在學術出版界,存在部分不理性現象,比如曾經引發熱烈討論的“贊美師娘的”論文《生態經濟學集成框架的理論與實踐》就曾經出版成書,前言由作者導師撰寫,原本此書銷量不佳,后因爆料后,孔夫子上二手書籍賣斷貨,可見,讀者的需求很多時候是不理性、不客觀的。
在大眾出版界,存在過度討好讀者現象,能否討好讀者直接與創作者、出版方、在線平臺盈利緊密聯系,部分以大數據分析為主要盈利的公司鼓吹“如果你在三秒內沒抓住讀者眼球,你的作品就失敗了一半”,出現了用博眼、虛假、媚俗內容換點擊率、銷售量的現象。許多以網絡文學為題材改編出版的書籍,讓讀者翻開書就想往下讀,盡享簡單無營養的閱讀快感。然而,這些內容在順應迎合讀者同時,更是消耗其時間、精力、財力,特別是對涉世未深的年輕讀者,可能誤導其對社會的真實認知。
非辨證吸收建議、甚至盲目討好讀者的做法與出版業的長遠健康發展,與我們博學明理、修身養性等讀書目的,明顯背離。
2.2 復合型數字出版人才缺乏
出版業大數據應用的真正價值不在數據本身,而在于大數據人才對數據的分析利用。數據產業中有四大組成部分:大數據擁有者、大數據技術公司、大數據人才、數據中間商,其中,最核心的部分是大數據人才,他們是整個鏈條的領導者 [3]。
目前,出版業缺乏將大數據技術與出版專業相結合的復合型人才。一方面,新進入者較少,相關調查結果顯示,2019年與大數據相關的新聞、出版、媒體行業整體的市場需求超過200萬人,而全國高校的相關對口專業的畢業生人數只有越為 70萬,到了2020年,這個缺口更大了,達到了227 萬,而相關對口專業的畢業生人數僅71.5萬。[4] 另一方面,原有行業中專業人才缺乏,眾多出版單位從事數字出版的人員,大部分是從傳統崗位調配而來,要么只熟悉數據處理,要么只熟悉編輯出版業務,很少有二者皆精通的復合型人才。
2.3 大數據殺熟問題嚴重
“大數據殺熟”即“利用自己所擁有的用戶數據,對老用戶實行價格歧視的行為”[5]。大數據殺熟在出版業具體表現為,對于同一本書或同一個知識付費課程,老客戶需要支付更高的價格。傳統的商業模式常“殺生”,如在旅游景區,有商店會將地圖以高價賣給外地游客。而在以大數據引導的新型售賣環境中,定價規則相反,即“殺熟迎新”。例如,某些電商平臺會給剛注冊的新用戶低于市場價的“體驗價”,隨著用戶使用次數的增加,通過收集大量用戶信息,分析出該用戶對某個作者、某家出版商、某類圖書有較高忠誠度,且對價格不敏感,便被標簽為高黏性“熟客”,不能再享受“體驗價”,而是進入“被殺熟”的行列。可見,在 “殺熟迎新”的過程中,大數據成為了必備工具,這是對大數據的不合理使用,侵害了消費者權益。
2.4 用戶隱私保護堪憂
用戶數據被稱為平臺發展的“新石油”,用戶每次在網上的操作軌跡都會被平臺進行分析、挖掘,用戶個人隱私保護問題由此而生。
出版業對用戶大數據進行分析利用、數據溯源、數據共享、信息存儲等操作時均伴隨著用戶隱私泄露風險。例如,用戶通過平臺注冊、閱讀、購書時被記錄購買習慣、消費能力、收入情況、收貨地址等個人信息,但平臺的用戶信息保密措施和禁止追蹤設置做得不盡人意,易被黑客攻擊,竊取用戶數據。有些公司甚至私下售賣用戶信息。調研發現,有的用戶在某平臺購買了減肥類圖書后收到了其他平臺的減肥藥推送廣告;購買了理財類付費課程后收到了某基金公司的推銷電話。用戶數據一旦泄露或被買賣,會造成不可預估的影響。
2.5 數字資源版權保護不實
傳統出版業一直存在知識產權保護問題,在大數據時代,數字資源版權保護“有法不依、執法不嚴、違法不究”的現象更為凸顯,導致數字資源版權保護面臨巨大挑戰。
第一,法律法規滯后,近年來,與數據版權保護的法律法規出臺越來越多,但新興領域的問題增長也越來越快,需要被保護的問題增速比法規的出臺更多更快,造成政策法規滯后、過時問題。第二,侵權成本低,數字作品侵權比傳統紙書和音像盜版更難打擊,出版紙質書刊均需簽署版權合同,約定作品的版權使用范圍,但數字化過程中多次執行“復制粘貼修改”這樣的洗稿操作太容易。有的網絡平臺利用算法盜竊其他原創平臺稿件,有的作者巧妙盜版他人書籍“去版權”,而執法部門很難追責,于是造成違法不究、侵權成本低、維權成本高的問題。第三,執法不嚴,海量大數據給人們帶來方便的同時也帶來新興領域執法的灰色地帶,因牽涉多方利益,權責不清、取證較難等原因,導致執法不嚴情況時有發生。以上幾類問題,導致數字資源版權的保護面臨巨大的挑戰。
3 出版業大數據應用策略
3.1 導向為先:樹立正確內容導向
出版企業要樹立正確內容閱讀導向,辨證吸收讀者建議,不應盲目迎合讀者需求,而應多生產陶冶情操、進益認知的好書,引導讀者閱讀真正有價值的圖書,培養讀者的良好閱讀習慣。這樣才能使讀者真正受益,而不是一味地被無營養閱讀浪費時間、精力和財力。因此,出版企業要把社會效益放在首位,強化社會責任和使命擔當,傳播正能量。
3.2 人才為本:重視大數據人才培訓
出版業大數據應用貫穿編輯、印刷、發行、信息統計、數據分析等環節,需要既精通出版業務,又掌握大數據分析技術的復合型專業人才。出版業應加強從業人員培訓,培養兼具出版業數字化思維和技術應用水平的復合型專業人才,提高他們采集、抓取、篩選、對比、分析出版業大數據的能力。
3.3 盈利為基:合規使用,合理盈利
大數據“殺熟”問題的背后是大數據的過度挖掘、違規盈利。對此,各出版企業要加強行業自律,公平公正對待讀者,避免價格歧視,保護消費者的知情權和公平交易權。[6] 當大數據“殺熟”符合消費欺詐的構成要件時,應引入懲罰性賠償制度實現懲治與補償。在大數據“殺熟”案件審議中可以實行舉證責任倒置制度,解決消費者舉證難、維權成本高的問題。
出版業應探索合理的大數據盈利模式。例如,出版企業可以通過大數據技術控制成本、減少庫存、節省開支;瞄準細分市場,培養用戶的忠誠度;優化圖書內容、提高知識服務質量等。
3.4 保護為要:加強用戶隱私保護
中國信息通信研究院發表的《大數據安全標準化白皮書(2020版)》[7],指出需要從“大安全”的視角去認識和解決大數據安全問題,落實用戶隱私安全保護要從技術、人員和立法三方面同時構筑防護網。
首先,構建大數據安全體系。圍繞突出的安全和隱私問題,實現分布式環境下的并行計算隔離、數據訪問控制;升級密碼認證、風險控制、安全集成電路設計等信息安全技術;加強對重要數據、敏感數據的分人、分級管控;采用加密處理、審計追蹤等安全保障措施,讓科技成為保護隱私的盾牌,而非讓科技成為泄露隱私的缺口。其次,提升數據管理人員的專業水平、風險意識,避免數據管理人員蓄意泄露、惡意售賣用戶信息事件的發生。最后,通過立法保障數據安全。哪些數據能共享,哪些數據不能泄露,誰可以、誰不可以使用某些數據等,都需要從法律上給予約束,做到有法可依。
3.5 制度為綱:完善版權保護制度
數字出版物比紙質出版物更容易被盜版,應進一步完善版權保護制度體系。國家層面,要系統地對創作、出版、發行等全過程進行立法保護和制度規范;社會層面,要強化版權保護機構職能,為創作者提供快速便捷的版權登記服務;創作層面,作者、出版企業要及時做好版權登記,作品發布前要與發布平臺簽署版權協議。
4 結語
“十四五”期間,大數據技術將推動出版業實現快速發展。出版企業應打破傳統出版思維,分析數字資源特征和國內外受眾需求,提升優質內容的傳播力和影響力。出版企業可以秉承導向為先、人才為本、盈利為基、保護為要、制度為綱的大數據應用策略,推出具有中國特色且適合國內外市場需求的優秀作品,在建設“文化強國”和“數字中國”的偉大進程中,不斷提升我國出版業的美譽度和競爭力。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >