ReCoder (recoder) wrote,
ReCoder
recoder

  • Mood:

Гуглёвые Закладки

Придумал ещё одно паллиативное решение проблеме протухающих ссылок - на этот раз с помощью старого доброго Гугля. Когда я записываю URL мне же обычно на самом деле важен сам документ, а не его легкопортящийся адрес. Поэтому приходится делать content addressing на коленке. Помню, на заре интернетостроения сетяне развлекались Googlewhacking'ом - подбирали поисковые слова к Гуглю так, чтобы в результате поиска была всего одна ссылка. Я решил идти аналогичным способом - чтобы записать ссылку на текстовые документ, я выбираю из него набор ключевых слов и составляю поисковый запрос с ними. (Вот к примеру эта заметка должна быть доступна по ссылке на https://www.google.com/search?q="паллиативное решение проблеме протухающих ссылок"&btnI=.) В результате: пока в интернетах остаются копии этого документа, я легко смогу снова прочитать его.

Сразу появляется интересная задачка: как автоматизировать такой процесс? Мне-то довольно очевидно какие фразы являются ключевыми, и после одного-двух-трёх экспериментальных запросов в Google я могу выбрать оптимальный. Есть идея попробовать TF-IDF алгоритм для определения наиболее значимых слов (примерно так как это делает SMMRY.com) и пробовать искать их в разных комбинациях, пока нужный результат не окажется в топе. Главное - чтобы за эксперименты в Гугле не забанили.

Метод конечно не супер-надёжный, ибо подвержен Googlebombing'у, да и вообще говоря документ может просто пропасть из интернетов. Однако за примерно год что я этим методом пользуюсь, он чаще срабатывал чем нет.

Tags: archiving, google
Subscribe

Posts from This Journal “archiving” Tag

  • Permanent URLs

    Оказывается, идея ненавидимых многими сокращаторов ссылок вроде TinyURL или Bit.ly уходит корнями в далёкие девяностые, когда OCLC…

  • Архиваторы закладок

    Похоже, не одного меня достали проблемы с архивацией интернетов. За прошедший год помимо уже установленного в Chrome Archiveror'a, обнаружились…

  • Авто-архивирование ссылок

    В очередной раз наткнулся на битые внешние ссылки в своих блогах и решил начать разбираться с этой бедой, не дожидаясь идеального решения в…

  • Новости Архивации

    Цифровая тётка с косой нанесла очередной удар в спину: внезапно обнаружилось, что моя коллекция инфографики на vi.sualize.us накрылась…

  • Instant View

    Ален нови, ностра алис! Что означает — ежели один человек построил, другой завсегда разобрать может. © к/ф Формула Любви По мере того как…

  • Мементо

    В процессе дизайна персонального архиватора обнаружил что существует достаточно официальный ( RFC 7089) протокол для архивации веб-ресурсов под…

  • Маленькая Тихая Интернет-Гавань

    Выкроил на неделе чутка свободного времени, пошерстил интернеты на предмет персональной системы архивации ссылок. Результаты неутешительные:…

  • Всё - тлен. Даже в интернетах.

    Отправился я недавно перечитать кой-чего из старого ЖЖ примерно десятилетней давности (да-да, я тот самый человек который перечитывает старые записи…

promo recoder august 1, 12:09 35
Buy for 100 tokens
Не так давно Фейсбук научил меня ещё одной классификации людей, в дополнение к стратегам и тактикам, интерналистам и экстерналистам, и разным морально-политическим приверженцам. Впервые эта классификация описана ещё двадцать лет назад Картером и Сэнджером в книге The Programmer's Stone…
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 2 comments