Need help! Не решается задача, упираюсь в ограничения железа - страница 9

 
Urain:

to Komposter: Андрей, если ты упёрся в проблему размерности значит ошибка в постановке задачи.

Тут три варианта: 

1 подумать самому

2 раскрыть задачу в паблике

3 раскрыть задачу в личку (каждому кого считаешь в силах решить и доверяешь неразглашение)

Поясню о чём я: если ты сохраняешь новости то можно писать стринги всей новости, а можно сделать шифрование типичных фраз (сжатие), "Account balance" превращается в 1,  "Account equity" в 2 итд. Другой вариант типичной проблемы желание заполнять данные уже отсортированными, для больших размерностей это смерти подобно, проще дописывать в конец и делать условную сортировку по индексам.

Думаю понятно что я хочу сказать говоря что ошибка в постановке задачи. 

Ну такую замену можно произвести в хорошем текстовом редакторе. Полагаю при всех условиях (говоря о новостях), избыточной информации будет >40%. 

Однако это не избавит от написания функционала обработки именно текстовых данных. Если решится проблема объема, может подкрасться проблема производительности.

А в целом постановка задачи не до конца раскрыта, это факт... мало данных, но зато больше вариантов )) 

 
YuraZ:

>>> Разговор про сравнение двух сжатых последовательностей.

уникальный  элемент т к не имеет последовательностей  не сжимается , поиск не получится

Проверьте - на практике

пример - сожмите   RAR два файла

ЭЛЕМЕНТ -  08:01:

И ПОСЛЕДОВАТЕЛЬНОСТЬ 

08:01:33.
08:01:38.
08:01:38.
08:01:39.
08:01:40.
08:01:49.
08:01:57.
08:16:53.
08:16:59.
10:09:28.
10:09:29.
10:09:29.
10:09:29.
10:09:30.
10:32:23.
10:32:24.
10:56:11.
10:56:12.
10:56:12.
10:56:12.
10:56:13.
10:56:39.
10:56:39.
10:56:39.
10:56:48.
10:56:48.
10:56:48.
10:57:03.
10:57:04.
10:57:04.
10:57:07.
10:57:07.
10:57:07.
10:57:51.
10:57:52.
11:44:50.
11:44:52.
11:44:52.
11:44:52.
11:44:53.
12:57:35.
12:57:46.
12:57:46.
12:57:46.
14:01:41.
14:01:46.
14:20:06.
14:20:08.
        


---

Откройте в HEX редакторе оба файла RAR  и попробуйте найти

Вы обнаружите что элемент  08:01:  не сжался

и не совпадет никак с тем что попало во второй файл


если же Вы сожмете каждую запись  - каждый столбик отдельно - то выигрыша в размере вы не получите

напротив у Вас увеличится  объем данных за счет управляющих данных архиватора

 
YuraZ:

Проверьте - на практике

пример - сожмите   RAR два файла

ЭЛЕМЕНТ -  08:01:

И ПОСЛЕДОВАТЕЛЬНОСТЬ 

08:01:33.
08:01:38.
08:01:38.
08:01:39.
08:01:40.
08:01:49.
08:01:57.
08:16:53.
08:16:59.
10:09:28.
10:09:29.
10:09:29.
10:09:29.
10:09:30.
10:32:23.
10:32:24.
10:56:11.
10:56:12.
10:56:12.
10:56:12.
10:56:13.
10:56:39.
10:56:39.
10:56:39.
10:56:48.
10:56:48.
10:56:48.
10:57:03.
10:57:04.
10:57:04.
10:57:07.
10:57:07.
10:57:07.
10:57:51.
10:57:52.
11:44:50.
11:44:52.
11:44:52.
11:44:52.
11:44:53.
12:57:35.
12:57:46.08:01:
12:57:46.
12:57:46.
14:01:41.
14:01:46.
14:20:06.
14:20:08.
        


---

Откройте в HEX редакторе оба файла RAR  и попробуйте найти

Вы обнаружите что элемент  08:01:  не сжался

и не совпадет никак 


если же Вы сожмете каждую запись  - каждый столбик отдельно - то выигрыша в размере вы не получите

напротив у вас увеличится  объем данных

Каждую запись надо по отдельности сжимать. Естественно смысл в этом будет только тогда, когда записи достаточно крупного размера, чтобы сжатие действительно сжимало.

 
Integer:

Каждую запись надо по отдельности сжимать. Естественно смысл в этом будет только тогда, когда записи достаточно крупного размера, чтобы сжатие действительно сжимало.

Ну вот, пришли к тому, что работать надо блоками. Соответственно, порцию информации не соответствующую по размеру блоку, найти будет не возможно.
 
Contender:
Ну вот, пришли к тому, что работать надо блоками. Соответственно, порцию информации не соответствующую по размеру блоку, найти будет не возможно.

Почему-это? От чего? В чем проблема? Не приходил к этому.

 
Integer:

Почему-это? От чего? В чем проблема? Не приходил к этому.

А это он всё ещё про яйца с Мишкой говорит :)
 
Integer:

Каждую запись надо по отдельности сжимать. Естественно смысл в этом будет только тогда, когда записи достаточно крупного размера, чтобы сжатие действительно сжимало.

Дмитрий - если сжать каждую запись - строку

у вас  наоборот объем увеличиться - проверьте!


стало               201   a1.rar --   сжали aaaa1 не скажу что круто зажался но сжался

было                535   aaaa1

 

стало                 77  a2.rar  сжат один элемент - точнее он не сжался ...  а попал в файл + управляющие байты

было                     8 aaaa2

---

объем данных при этом  вырастет с 20 гигов до размеров 20ггб  элемент поиска + управляющие байты

и в чем тогда смысл ?

 
YuraZ:

Дмитрий - если сжать каждую запись - строку

у вас  наоборот объем увеличиться - проверьте!


               201   a1.rar --   сжали aaaa1 не скажу что круто зажался но сжался

               535   aaaa1

 

                  77  a2.rar  сжат один элемент - точнее он не сжался ...  а попал в файл + управляющие байты

                     8 aaaa2

---

объем данных при этом  вырастет с 20 гигов до размеров 20ггб  элемент поиска + управляющие байты

и в чем тогда смысл ?

Да знаю, что если данные короткие, то при архивации увеличивается размер.
 
Integer:
Да знаю, что если данные короткие, то при архивации увеличивается размер.

угу - поэтому   предложенный Вами не годится