2022年5月南京財經大學信息工程學院大數據2001班牛趙蕊、朱儀桉、訾明琛、張淑婷、周曉敏五位同學在李樹青院長的帶領下,啟動了大學生創新創業訓練計劃項目:獵職“圖”鑒——基于個性化服務的大數據崗位畫像與推薦服務。
隨著互聯網+時代的到來,大數據技術的不斷進步,大量的職業招聘平臺應運而生。目前,國內已經有開源中國招聘、智聯招聘、前程無憂、獵聘、BOSS直聘等豐富的互聯網招聘平臺,國外有Indeed、Monster、Glassdoor、FlexJobs等。
然而,目前的招聘平臺看似發達,但仍存在局限性,沒有專門為應屆畢業生設計的求職渠道,更沒有應用基于大數據和數據分析得到的用戶畫像技術,導致人才同崗位適配度不高。特別是作為大數據專業的學生,很難找到合適的崗位,也很難通過現有的一些平臺去找到一個合理高效的求職途徑。因此,該團隊提出構建個性化崗位推薦服務系統,為大數據專業學生求職就業提供更為準確的企業崗位建議參考,同時實現招聘精準化。
以下是該項目的查詢系統的交互界面。
面對龐大的數據面和數據流,該團隊選取了Python這一在數據獲取方面具有天然優勢的編程語言。該項目采用網絡爬蟲技術,抓取招聘網站有關大數據崗位信息,并對得到的崗位招聘信息進行文本分析,獲取需求。其中,成型技術主要分為網絡爬蟲、數據清洗、文本分析和可視化四大模塊。動態網絡爬蟲(如Scrapy)能夠提供最新、最及時的信息,甚至能夠做到實時更新;數據清洗可以去除可能存在的重復或是冗余數據,提高了數據集的相關性,加強了可信度;運用文本分析進一步分析數據,通過分詞攫取關鍵字,便于數據分類整合;最后運用matplotlib進行數據可視化,將清晰明了的圖表展現給用戶,對于崗位進行技術角度畫像分類之后,利用軟件展示系統,可以通過觸屏方式輸入技術查詢信息,呈現崗位信息,并會保留個人數據記錄,根據搜索的信息進行記錄畫像,極大方便了用戶操作,優化用戶體驗感。
以下為軟件展示系統的組織流程圖。
2022年5月-7月,團隊對市面上幾個主流招聘網站針對大數據崗位的招聘信息進行爬取并進行可視化呈現,利用Scrapy技術對大數據崗位不同技能的信息進行分類。
2022年7月-12月,團隊對搜索到的大量數據,進行數據清洗,提取處理大量的數據,運用文本分析的方法,將數據聚類以及運用Python、Matlab進行代碼編寫,進行數據可視化。
2022年12月-2023年2月,團隊根據相關論文文獻,以及網站社會分析,對于崗位進行技術角度的畫像分析,利用軟件展示系統,對于研究過程成果形成相關報告。
2023年2月-4月,形成相關論文,申請了2項軟著。
2023年5月,對實驗進行檢驗篩查保證運行正常并完結項目。
圖為團隊成員集中討論核心代碼的編寫和圖形化界面的設計
圖為該團隊成員商討下一階段的目標任務
歷時近一年,在2023年5月,該項目終于迎來了完結的尾聲。從最初的項目構思,到項目成型,再到軟件系統搭建,一路上5位同學遇到了諸多難題,但他們借助自己的專業所學,依靠爬蟲抓取崗位數據,借助文本分析形成崗位畫像,搭建出一套基于個性化服務的大數據崗位畫像推薦系統實現大數據崗位專一化、畫像維度全面化、招聘精準化的可視化軟件展示系統,指導學生就業、公司招聘,提供政府政策支持。