跳到主要內容

【資訊軟體知識】資料檢索技術 - 倒排索引(Inverted Index)

數據的時代,如何有效率的搜尋來找到我們要的答案?這時候就要透過一些資訊檢索的技術來幫我們提升效率了,而本篇會介紹索引的基本概念以及為什麼演化至倒排索引,為我們帶來了哪些好處?

索引只是搜尋檢索的一個環節,未來的幾個篇章我們也會逐一介紹我們目前使用的搜尋引擎如何聰明的知道我們想要什麼? 那我們就趕緊進入主題吧!

什麼是索引?



相信我們都知道書籤的作用吧! 書籤就是透過標題或是摘要定位到正確頁數或者文件位置的一種標記方式,透過這種方式大幅度的減少我們掃過整本書的時間,我們只要記住這個摘要,就能精確地找出我們需要的檔案,但是有發現一個問題嗎? 假設我想要找文章中的某個片段時,是不是就不容易達到我們的目的了? 這時候就需要有倒排索引(Inverted Index)的技術來幫我們實現了!

那什麼又是倒排索引? 能解決什麼問題呢?

當資料隨著時間遞增,越來越繁雜時,我們都知道要找到正確的資料是一件不容易的事, 以前我們可能需要逐頁翻找, 後來加入了書籤功能, 透過標題、群組整理濃縮的方式,快速定位到目標,但是這仍遠遠不夠,那可以怎麼做呢?

答案就是透過倒排索引(Inverted Index)的方式,將每一個文件的內容以詞的方式切割,成為書籤的標記方式,如下圖:



檢索時有什麼幫助呢? 假設我們今天要找蘋果,那麼只要輸入apple,就能得到文件1與文件2都出現蘋果,我們再想的更深入一點,假設每個書籤再多記錄這個詞出現在文件中的哪個位置,那麼我們是不是可以搭配更強大的搜尋方式,以「一個蘋果」為例,我們可以搜尋「an apple」,透過這樣有順序的表達詞語,我們就可以非常語意化的來搜尋文件位置。



看到這邊,相信大家已經非常清楚倒排索引為我們帶來了什麼樣的巨大改變,讓我們從原本很固定的搜尋方式,可以透過更聰明、符合人性的搜尋方式來查找文件,甚至可以加入距離的限制條件,讓我們更精準的找到目標。

為什麼更快更精準?

  • 事前建立機制,再記錄之前就先進行斷詞索引,讓後續的搜尋更加省工。
  • 索引額外記錄了位置資訊,檢索時透過詞與詞的順序、位置...等限制條件來精準找到目標。

結語

數位時代的來臨,我們許多的資料都轉移到網際網路,相信在大數據的環境下,傳統的檢索方式也不敷使用了,因此才會演進更有效率的檢索方式。

而這項技術也是許多搜尋引擎的底層實現方式,例如: Lucene、Elasticsearch...等產品。

下一篇我們再依著檢索技術進行更深入的探討吧!


喜歡撰寫文章的你,不妨來了解一下:Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入?歡迎加入一起練習寫作,賺取知識,累積財富!

📚 如果想看更多精選文章,或者關於我的相關資訊請來這裡...

💬 如果您有任何問題,也歡迎底下留言告訴我,讓我們一起學習 💬


留言

這個網誌中的熱門文章

java西元民國轉換_各種不同格式

C#資料庫操作(新增、修改、刪除、查詢)

【Excel好好玩】 自己的資產自己管!善用Google Sheet來幫我們評估貸款

這次介紹的主題是關於Excel的貸款還款計畫試算,我們人生中總會遇到需要大筆金額的花費,但當資金不夠時就得進行貸款,而貸款之前如果我們能夠審慎評估,並分析自己的還款能力之後在進行凍作,相信風險會小很多,因此就自己動動手來使用Google Sheet進行試算吧! 基本資料 ● 貸款總額: 1000000 ● 貸款期數: 84月 ● 年利率: 2.11% ● 月利率: 0.18% P.S 月利率 = 年利率 / 12 重要函式 PMT : 這是Google Sheet內建的重要年金計算公式,我們可以善用這個公式來計算固定利率及期數的固定攤還本息。因為PMT函式計算出的結果為負數,所以前面加上-號轉成正數。 動手做 首先我們在Excel表上列出我們的基本資料 圖片來源 其中月利率的部分就使用公式「=B4/12」 接著我們填上第一列的期數跟餘額 圖片來源 =B2 =B3 使用關鍵PMT函數來計算本息的部分 因為PMT函式計算出的結果為負數,所以前面加上-號轉成正數。 -PMT(貸款利率(月利率), 貸款期數, 貸款總額) =-PMT($B$5,$B$3,$B$2) 圖片來源 計算利息 利息 = 貸款餘額 x 月利率 =B8*$B$5 圖片來源 計算本金 本金 = 本息 - 利息 =C8-D8 圖片來源 製作第二列餘額的部分 餘額的部分 = 上一期的餘額 - 上一期的本金 圖片來源 接著拖曳該兩列往下拉,即可查看每一期的利息與本金 圖片來源 結語 雖然市面上已經有很多貸款銀行都提供了試算功能,但如果我們想要進一步管理自己的資產時,就需要將每一期的金額給計算出來,因此才會將公式運用在Excel表,讓我們的資產管理表能夠結合負債,進一步評估我們理財行動的下一步,希望這樣的經驗可以幫助到正在理財道路上打拼的夥伴,讓我們透過有效的管理,幫助荷包長大吧! 喜歡撰寫文章的你,不妨來了解一下: Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入? 歡迎加入一起練習寫作,賺取知識,累積財富!