100G超大文件合并排序?
目前想實現兩個100G文件合并,日志文件,都有日期,日期會有所交集,如一份1日到10日,另一份5日到15日,所以合并后也需要對日期進行排序。
目標是,查詢某一時間區段的信息,目前的打算是:
我可以知道每個文件大小和日起始時間,所以若文件過大,就分割它,然后獲取分割小文件的的起始時間,<愛尬聊_頭條百科>時間區段只要稍加限制,同時由于log的連續性和記錄頻率不太高,就能確保就只有幾個小文件包含了用戶需要的信息,然后只返回那幾小份的文件的信息,然后全部直接扔進內存排序都不怕,效率也可以。
但我想想,是不是也有辦法,直接真的可以把2個100G合成一個200G的?
或有什么更好的辦法,目前在寫模板的基本方法,想封裝好一點以后不管了。但不知道這個要怎么玩。求教,謝謝!