數據庫中某個字段的兩兩對比,如何提升速度?

問答 ? 2118 ? 于 2019-06-24 17:08:34 ? 最后回復由 青牛 2019-06-27 17:34:47 ? 177 閱讀

一個本地的客戶端,sqllite3中有一個字段,是一個32位的指紋字符串。數據量大概幾十萬條。需求是 每次新增一批新數據后,需要和整個數據庫逐條對比這個指紋,計算相似度。目前操作是雙重循環,每一條新數據和全庫逐一對比。感覺效率極低。有沒有什么好的辦法。

成為第一個點贊的人吧 :bowtie:
回復數量: 3
  • 青牛 國內首批大數據從業者,就職于金山,擔任大數據團隊核心研發工程師
    ? 2019-06-25 19:52:54

    布隆過濾器啊 少年 了解一下

  • 曉月星稀
    ? 2019-06-27 16:41:14

    @青牛 每一條指紋需要和全庫其他指紋做相似度分析,大于80%判定重復。并不是判斷是不是指紋是否在集合中。如果只是查詢字段是否在庫中,那很簡單。

  • 青牛 國內首批大數據從業者,就職于金山,擔任大數據團隊核心研發工程師
    ? 2019-06-27 17:34:47

    @曉月星稀 指紋是個什么概念?能具體講講嗎

暫無評論~~
  • 請注意單詞拼寫,以及中英文排版,參考此頁
  • 支持 Markdown 格式, **粗體**、~~刪除線~~、`單行代碼`, 更多語法請見這里 Markdown 語法
  • 支持表情,可用Emoji的自動補全, 在輸入的時候只需要 ":" 就可以自動提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上傳圖片, 支持拖拽和剪切板黏貼上傳, 格式限制 - jpg, png, gif,教程
  • 發布框支持本地存儲功能,會在內容變更時保存,「提交」按鈕點擊時清空
Ctrl+Enter
沙滩排球