當前關注:科大訊飛人崗匹配Top1方案總結
2022-11-22 21:27:52 來源:程序員客棧
(資料圖片僅供參考)
九月份的時候胡蘿卜參加了訊飛的人崗匹配挑戰(zhàn)賽,后面機緣巧合和老肥組隊打團。比賽過程可謂跌宕起伏,非常有意思。在這里和大家分享一下我們的建模方案。
賽題任務智能人崗匹配需要強大的數據作為支撐,本次大賽提供了大量的崗位JD和求職者簡歷的加密脫敏數據作為訓練樣本,參賽選手需基于提供的樣本構建模型,預測簡歷與崗位匹配與否。實質上,可以看做一個多分類問題。賽題數據本次比賽為參賽選手提供了大量的崗位JD和求職者簡歷,其中:崗位JD數據包含4個特征字段:job_id, 職位名稱, 職位描述, 職位要求。求職者簡歷數據包含15個特征字段:id, 學校類別, 第一學歷, 第一學歷學校, 第一學歷專業(yè), 最高學歷, 最高學歷學校, 最高學歷專業(yè), 教育經歷, 學術成果, 校園經歷, 實習經歷, 獲獎信息, 其他證書信息, job_id。這里面的數據都是加密脫敏的,不太會bert的我們只能說:xgb/lgb yyds!評估指標本模型依據提交的結果文件,采用macro-F1 score進行評價。建模方案要點1 模型有l(wèi)gb和xgb,其中xgb要比lgb效果好?。。?!2 10折比5折好3 特征工程包括業(yè)務特征如下圖,還有一些類別特征之間count、nunique和count/nunique計算,以及計算個人信息與每一個職位之間的余弦相似度(個人信息=學校類別+教育經歷+學術成果+校園經歷+實習經歷+獲獎信息+其他證書信息,職位信息=職位名稱+職位描述+職位要求,采用TFIDF(2-gram)算法處理),人個信息用TFIDF(2-gram)進一步處理生成文本特征矩陣。4 個人信息生成的文本特征矩陣非常高維,降維處理會降低精度,不降維訓練時間長,需要人工調整min_df和max_df參數。5 結果概率后處理提分,老肥神操作,看不懂!知乎的包包大人有關于這方面的詳細解答,詳見https://zhuanlan.zhihu.com/p/106766826。6 調調參和模型融合有進一步提升。寫在末尾,數據挖掘一些的tricks基本有用,關鍵是多做特征和多嘗試。溫馨提示:如果你覺得離冠軍很遠,直接艾特前排冠軍組隊就好。老肥說:感謝胡蘿卜同學的精彩分享,如果還有同學想要分享比賽相關內容的,可以在群內或者私聊戳我,大家一起交流學習!相關閱讀
-
世界熱推薦:今晚7:00直播丨下一個突破...
今晚19:00,Cocos視頻號直播馬上點擊【預約】啦↓↓↓在運營了三年... -
NFT周刊|Magic Eden宣布支持Polygon網...
Block-986在NFT這樣的市場,每周都會有相當多項目起起伏伏。在過去... -
環(huán)球今亮點!頭條觀察 | DeFi的興衰與...
在比特幣得到機構關注之后,許多財務專家預測世界將因為加密貨幣的... -
重新審視合作,體育Crypto的可靠關系才能雙贏
Block-987即使在體育Crypto領域,人們的目光仍然集中在FTX上。隨著... -
簡訊:前端單元測試,更進一步
前端測試@2022如果從2014年Jest的第一個版本發(fā)布開始計算,前端開發(fā)... -
焦點熱訊:劉強東這波操作秀
近日,劉強東發(fā)布京東全員信,信中提到:自2023年1月1日起,逐步為...