尤物视频网站_国产精品成人在亚洲_国产成人亚洲综合无码不卡精品_丁香五月香婷婷五月_亚洲成AV人片高潮喷水

您的位置:首頁 >聚焦 >

當前關注:科大訊飛人崗匹配Top1方案總結

2022-11-22 21:27:52    來源:程序員客棧


(資料圖片僅供參考)

九月份的時候胡蘿卜參加了訊飛的人崗匹配挑戰(zhàn)賽,后面機緣巧合和老肥組隊打團。比賽過程可謂跌宕起伏,非常有意思。在這里和大家分享一下我們的建模方案。

賽題任務智能人崗匹配需要強大的數據作為支撐,本次大賽提供了大量的崗位JD和求職者簡歷的加密脫敏數據作為訓練樣本,參賽選手需基于提供的樣本構建模型,預測簡歷與崗位匹配與否。實質上,可以看做一個多分類問題。賽題數據本次比賽為參賽選手提供了大量的崗位JD和求職者簡歷,其中:崗位JD數據包含4個特征字段:job_id, 職位名稱, 職位描述, 職位要求。求職者簡歷數據包含15個特征字段:id, 學校類別, 第一學歷, 第一學歷學校, 第一學歷專業(yè), 最高學歷, 最高學歷學校, 最高學歷專業(yè), 教育經歷, 學術成果, 校園經歷, 實習經歷, 獲獎信息, 其他證書信息, job_id。這里面的數據都是加密脫敏的,不太會bert的我們只能說:xgb/lgb yyds!評估指標本模型依據提交的結果文件,采用macro-F1 score進行評價。建模方案要點1 模型有l(wèi)gb和xgb,其中xgb要比lgb效果好?。。?!2 10折比5折好3 特征工程包括業(yè)務特征如下圖,還有一些類別特征之間count、nunique和count/nunique計算,以及計算個人信息與每一個職位之間的余弦相似度(個人信息=學校類別+教育經歷+學術成果+校園經歷+實習經歷+獲獎信息+其他證書信息,職位信息=職位名稱+職位描述+職位要求,采用TFIDF(2-gram)算法處理),人個信息用TFIDF(2-gram)進一步處理生成文本特征矩陣。4 個人信息生成的文本特征矩陣非常高維,降維處理會降低精度,不降維訓練時間長,需要人工調整min_df和max_df參數。5 結果概率后處理提分,老肥神操作,看不懂!知乎的包包大人有關于這方面的詳細解答,詳見https://zhuanlan.zhihu.com/p/106766826。6 調調參和模型融合有進一步提升。寫在末尾,數據挖掘一些的tricks基本有用,關鍵是多做特征和多嘗試。溫馨提示:如果你覺得離冠軍很遠,直接艾特前排冠軍組隊就好。老肥說:感謝胡蘿卜同學的精彩分享,如果還有同學想要分享比賽相關內容的,可以在群內或者私聊戳我,大家一起交流學習!

關鍵詞: 個人信息 特征矩陣 職位要求

相關閱讀