67108864's blog. Сериализованные думы.: марта 2012

суббота, 31 марта 2012 г.

ту би континуед

Тут у меня в rss-ленте недавно прошло нечто, что связано с предыдущим постом. Оказывается, некоторые устраивают "атаки" на знании хеш-фукнции. Так как часть софта открыта, то генерируется набор с равными хешами. Соответственно, добавление всего набора будет за квадрат.

В ruby типа даже реализацию словарей пофиксили. Только у некоторых приложения стали падать, так как они заложились на порядок добавления в словарь. foreach-итератор выдает не в том порядке, в котором элементы были добавлены. Можно ли вообще полагаться на порядок добавления в контейнер? Сложный философский вопрос... В интерфейсе/контракте это сложно описать. Документация/спецификация гарантий мало дает, это ж просто текст.

Не знаю ситуации насчет анти-qsort. В том же .нет антиКуСорт очевидным образом применим, там вообще выбирается средний элемент (и в куче других платформ, не только .нет). Оказывается, что если выбирать случайный разделяющий элемент, то все равно все плохо. Пытались выжать из этого спортивную задачку, через 15 минут пришли к выводу, что это уже халява. Что-то с этой идеи выжали, получилась средняя динамика за 4-ую (или 6?).

Вообще, атаки на алгоритмику по определению прикольны. Это вам не sql-injection пихать. Тут (увы, избитая фраза, но) думать надо. Причем в любой(!) маломальской области надо думать. И хеши, и сортировка, и регекспы и etc...

Не так страшны падающие самолеты, как софт написанный для самолетов.

четверг, 22 марта 2012 г.

Магия

Когда я писал диплом, то в исходниках по yacc/lex (Pascal version) увидел, что внутри написан самопальный dictionary/hash_table, и стоит константа const int someThing = 997. И комментарий, что это должно быть обязательно простое число. Это в таблице имен, чтобы все имена переменных как-то хранить. Очевидно, типа, по этому модулю мы берем остаток от хеш-функции. Поржал. Ладно, думаю, хорошая шутка, надо запомнить.

Через год я вышел на работу. Понятно, что еще слаб во всяких технологиях/предметной_области/методологиях, но вижу в коде, что в словаре хранится отображение из числа в объект (int -> someObject). На самом деле должен быть мап из части объекта в целый объект, но качестве ключа выбрано именно число, хеш. Количество объектов порядка 10^5. Опросил человек 5, все как очной ставке - говорят под копирку: "Типа int он большой, 4 млрд., объектов мало, вероятность что что-то совпадет маленькая, смотри как тут хеш-функция круто ресшарпером написана. Все тип-топ". Понимаю, что ржать бесполезно, не поймут. Попробовал со стороны "парадокса близнецов", не получилось. Пришлось написать тест и показать, что на стольких объектах хеши совпадут. Поверили. Провел минимальный экскурс в теорию про хеши.

Проходит еще 3-4 года, и теперь зачем-то залез во внутренности dictionary. Как оно работает и так понятно, но сейчас углубился до resize. Есть internal class System.Collections.HashHelpers, в котором есть кучка прикольных методов. Там даже есть

internal static readonly int[] primes = new int[72]

А если посмотреть на resize у ConcurrentDictionary, то там еще большая магия. Рекомендую.

В принципе, понятно откуда ноги растут. Я в детстве тоже так думал, что если это поле то это круче. Но сейчас не понимаю - зачем это все. Если у нас все равномерно распределено, то пофиг по какому модулю это все брать, не будет ничего такого что "из того что модуль простой, то будет меньше коллизий". С таким же успехом можно использовать любую другую магию.

Я пожалуй не буду писать про все остальные мои вопросы в базовых структурах данных и библиотеках. "Жираф большой - ему видней", а у меня куча вопрос. Откуда почти может следовать, что вероятно я не жираф. Но это как-то не строго.

Тут как обычно философский вопрос: насколько надо понимать вещи, которые ты используешь? Например, мы обычно просто едим, даже не представляя весь процесс пищеварения. Я слабо представляю, что просходит на уровне железа, да еще и в параллельном коде. Видимо, мне это пока не надо. Высокоуровнево и 1-2 уровнем пониже как то цельно в голове уложено. Отсюда правило: если вы что-то используете, то надо как минимум понимать на 1 уровень ниже. Если что-то создаете, то минимум на 2.

Никакой магии нет, надо копать глубже.

вторник, 13 марта 2012 г.

Вызга монос

Есть несколько классических задачек на рекурсивную логику.

Загадано число N (N >= 2). Одному человеку сообщается N + 1, другому N - 1. Между ними происходит следующий диалог:

- Я не знаю, что это за число.
- Я не знаю, что это за число.
...
- Я не знаю, что это за число.
- Я знаю, что это за число.

В зависимости от вариации задачи, люди (не)?знают, что им сообщили (N + 1 или N - 1).
Длина диалога внезапно равна N (+-1). Надо моделировать на малых числах и курить. А то, если N велико, трудно понять, что же нам дает не знание собеседника.

Следующая задача примерно такая же. Загадано два числа, одному сообщается сумма чисел, другому - произведение. Такой же диалог. Тут надо еще побольше шевелить мозгом, удары об стену идут вне зачета.

Эта задача была на полуфинале где-то в 2003/2004. На тренировке мы до нее не дошли, другой халявы было предостаточно.

А есть еще класс задач с шапочками, где какой-либо злодей надел на (пусть) гномов шапочки двух цветов, причем известно что есть оба цвета. Все гномы видят цвет всех, кроме себя. Им нужно к 22:37 определить, какой же у них цвет шапочки. Иначе смерть, ипотека, жена_трое_детей.

"Помоги веселым гномикам сделать это..." Там обычно, одетые, например, в красные шапки, должны сделать шаг вперед. Пусть у нас будут красные и черные.

Тут если два гнома, то тривиально. Три - одноходовка. На четырех уже надо подумать. Но здесь и далее меня выносит: если первые две задачки были дискретными, то здесь же есть какой-то скрытый элемент динамики. Даже для трех: пусть гном (я) видит у соседей два других цвета. Тогда из того, что одетый в черное стоит на месте, следует я тоже в черном. Если бы другой гном в черном видел бы на мне красный, и на другом красный, то он бы догадался, что на нем черный (ибо по условию обязательно есть оба цвета). И вот оба черных дошли до правильной мысли и должны сделать шаг.

Здесь заложена какая-то скрытая дискретность, раз он не пошел на предыдущей секунде (или другая отсечка), значит у него не хватает информации. Это, кстати, довольно круто, что недостаток информации дает какую новую для меня. Но как человеку немного более близкому к информатике, тут сильно глючит: успеют ли они за единицу времени провести логический вывод для следующего шага? Там как-то страшно (в смысле сильно не понятно как) растет дерево разбора... Непонятно, как синхронизироваться. Чистая математика и логика как-то вообще не рассматривают вопросы об эффективности и производительности, что печалит.

ЗЫ. Бывают какие-то моменты времени, что мне кажется, что я эти задачки понимаю. Как любят говорить математики, множество меры 0 (про время). В остальные моменты времени я думаю так: "блин, тут же все просто должно быть, я ж это понимал." Сидишь и гошешь челову, при условии что весь вызг монесен.

67108864's blog. Сериализованные думы.

суббота, 31 марта 2012 г.

ту би континуед

четверг, 22 марта 2012 г.

Магия

вторник, 13 марта 2012 г.

Вызга монос

Страницы

Архив блога

67108864's blog. Сериализованные думы.

суббота, 31 марта 2012 г.

ту би континуед

четверг, 22 марта 2012 г.

Магия

вторник, 13 марта 2012 г.

Вызга монос

Страницы

rss

Архив блога

суббота, 31 марта 2012 г.

четверг, 22 марта 2012 г.

вторник, 13 марта 2012 г.