Need help! Не решается задача, упираюсь в ограничения железа - страница 10

 

Делаю еще попытку.

Имеем три файла. 

1. Л. Толстой. Война и мир, Том-1. 

2. Л. Толстой. Война и мир, Том-2.  

3. Ф. Достоявский. Прступление и наказание.   

Запаковываем каждый из них. 

Имеем три запакованых файл без названий (только не спрашивайте как я предствляю себе файл без имени). Еще имеем один незапакованый фал, пусть это будет "Преступление и наказание". 

Как наиболее экономно найти этот файл в тех трех сжатых? 

Вариант 1. Разжать все три файла и найти в нем искомый файл.

Вариант 2. Сжать искомый файл и найти точно такой же файл среди трех сжатых. 

 
YuraZ:

угу - поэтому   предложенный Вами не годится

Так это не я предлагал. В любом случае идея интересная.
 
Integer:
Да знаю, что если данные короткие, то при архивации увеличивается размер.

Ну если хотите продолжать в этом направлении, то для поиска можно и хеширование использовать или контрольную сумму, не обязательно кодировать сжатием. Создать индекс по хешам и методом дихотомии выполнять поиск.

Но это при наличии исходной порции в полном объеме.

Я например, в подобных случаях использую СУБД без всяких выкрутасов. И времени меньше затрачиваю на разработку, и продукт стабильный получается.

 

Вы парни всё правильно говорите, и это ещё раз подчёркивает что вариант сжатия должен быть обоснован под задачу.

Те плясать нужно от постановки задачи.

 
elugovoy:

Ну если хотите продолжать в этом направлении, то для поиска можно и хеширование использовать или контрольную сумму, не обязательно кодировать сжатием. Создать индекс по хешам и методом дихотомии выполнять поиск.

Но это при наличии исходной порции в полном объеме.

Я например, в подобных случаях использую СУБД без всяких выкрутасов. И времени меньше затрачиваю на разработку, и продукт стабильный получается.

Хорошая идея.
 
Integer:
Так это не я предлагал. В любом случае идея интересная.

>>> Разговор про сравнение двух сжатых последовательностей.

Дима! напоминаю - вот  о чем речь шла

как раз именно это мы разобрали на практике

>>> Да знаю, что если данные короткие, то при архивации увеличивается размер.

поэтому и  не годится

--

поэтому и в промышленных базах нет этой идеологии

...

 
elugovoy:

Ну если хотите продолжать в этом направлении, то для поиска можно и хеширование использовать или контрольную сумму, не обязательно кодировать сжатием. Создать индекс по хешам и методом дихотомии выполнять поиск.

Но это при наличии исходной порции в полном объеме.

Я например, в подобных случаях использую СУБД без всяких выкрутасов. И времени меньше затрачиваю на разработку, и продукт стабильный получается.

Integer:

Хорошая идея.

а вот это   можно попробовать

>>> Я например, в подобных случаях использую СУБД без всяких выкрутасов. И времени меньше затрачиваю на разработку, и продукт стабильный получается.

но лучше всего взять готовые промышленные SQL базы

 
YuraZ:

>>> Разговор про сравнение двух сжатых последовательностей.

Дима! напоминаю - вот  о чем речь шла

как раз именно это мы разобрали на практике

>>> Да знаю, что если данные короткие, то при архивации увеличивается размер.

поэтому и  не годится

--

поэтому и в промышленных базах нет этой идеологии

...

Думаю, что по другой причине. Потому-что там проблема загрузки больших данных в опреативку решена по другому, они не загружаются, а читаются непосредственно с диска. (наверно)
 
YuraZ:

а вот это   можно попробовать

>>> Я например, в подобных случаях использую СУБД без всяких выкрутасов. И времени меньше затрачиваю на разработку, и продукт стабильный получается.

но лучше всего взять готовые промышленные SQL базы

Юрчик, я имел ввиду без выкрутасов с обработкой файлов, сжатием и т.п. Чисто работа с SQL и логикой робота/индикатора. Работал со многими БД, единственной проблемой было подружить MQL c SQL )), сделал красивое решение без всяких там массивов и структур.

В общем, я предпочитаю не изобретать велосипед, а решать задачи оптимальными средствами. 

 
Integer:
Думаю, что по другой причине. Потому-что там проблема загрузки больших данных в опреативку решена по другому, они не загружаются, а читаются непосредственно с диска. (наверно)

этим занимается сервер... причем очень эффективно