?

Log in

No account? Create an account

Entries by category: общество

2016-01

В теории, теория и практика - это одно и то же, а на практике...

[English version: https://medium.com/@oleksandr_now/in-theory-theory-and-practice-are-the-same-in-practice-however-46fd663f8e7b ]

Во всем этом модном data science есть большая засада.

Подготовка датасетов звучит совсем не модно и не круто, и про нее мало пишут. Даже люди из индустрии, не говоря уже о академии. Более того, иногда в пейперах проскакивают вещи от которых у меня вообще волосы дыбом подымаются.

Что-то вроде "мы выкинули все что у нас не отпарсилось", а как насчет того, что "не парсится" - это всегда смещенная неслучайная выборка? Которая смещает остальной датасет тоже далеко не случайным образом?

Ладно, как оно смещает саму статистику - это дело хозяйское и на совести авторов, конечно. Но еще это от входа означает что результаты пейпера, а то и алгоритм в принципе, маловероятно что применим в продакшне.

Например, "мы можем парсить 98% слов из аудио правильно" это звучит замечательно, пока ты не узнаешь что в 2% входят например названия улиц или номера телефонов, потому что они не словарные (out of vocabulary)
И на реальной задаче эти 2% слов превращаются в "70% диалогов не получилось отпарсить".

Самих академиков тоже можно понять, им пейпер написать надо, а не пытаться обьять необьятное, конечно. Но вот эта пропасть между теорией и практикой создает очень искаженное впечатление, и последующий шок у людей, которые переходят от теории к применению этой самой теории.

Да и индустрия тоже не спешит это как-то закрывать, потому что из-за того самого искаженного впечатления оно ни разу не является бизнес-нишей, люди не готовы платить за решение этой проблемы, потому что ее вроде бы как и нет вовсе. Пока ты с ней сам не столкнешься.

И вот у меня есть хороший программистский бэкграунд, чтобы с этим справляться, но что советовать людям, у которых опыта меньше - как-то пока непонятно совсем. Есть идеи?

This entry was originally posted at http://wizzard.dreamwidth.org/482707.html. It has comment count unavailable comments. Please comment there using OpenID.

2016-01

Про контроль версий

... а точнее, про монолитные репозитории vs много репозиториев

http://gregoryszorc.com/blog/2014/09/09/on-monolithic-repositories/ - вот всё так.

TLDR: Люди уходят, приходят, проекты мержаются, мэпить это на топологию репозиториев - лишняя работа. Ну и операции часто должны (транзакционно) покрывать много репозиториев сразу.

Всё упирается только в контроль доступа к части репозитория (поэтому я сам по факту сейчас использую модель с многими репозами, увы), и в частичное клонирование. Это решаемо.

В итоге Google сидит на Perforce, а Facebook активно допиливает Mercurial, по мере того, как находят в нём новые ограничения :)

Ну и Git, кстати, начал шустро подтягиваться, когда фанаты увидели, что Hg стараниями фейсбука начал выходить из статуса маргинальной DVCS :)

This entry was originally posted at http://wizzard.dreamwidth.org/428016.html. It has comment count unavailable comments. Please comment there using OpenID.

photo25

Про маркетинг решений для гиков

Гики, которые считают, что маркетинг - это балщит, и они на него не ведутся - неправы.

Просто они ведутся на сайты а-ля https://otr.cypherpunks.ca/ а не https://silentcircle.com/ , т.к. привыкли, что "софт без неприятных неожиданностей" (а именно это во многом создаёт то самое психологическое ощущение безопасности - после того, как закончился период первоначальной адаптации) выглядит так.

Ну и каждое новое поколение/субкультура имеет свой особенный культурный контекст в этом смысле. Чуть ли не вплоть до того, какую фантастику читали в детстве. Потому что дизайнеры намеренно или бессознательно проецируют свою этическую систему и мораль "что можно, что нельзя" на дизайн продукта (как код, так и оформление), после чего естественным образом там остаются те, кому это близко по душе.

Ну и из разных контекстов потом произрастают фанаты PGP, фанаты Telegram, OTR, CryptoCat и так далее.

А, да. Справедливо не только для секьюрных мессенжеров, а и для "средств общения вообще". Чего стоит одно недолюбливание мобильных телефонов в США стараниями Голливуда.

(Выводы сделаны после продолжительного догфудинга разных секьюрных мессенжеров и попыток анализа их совокупного влияния на привычки и прочий OPSEC своих пользователей, а сам пост - развернутый комментарий на пост arkanoid)

КДПВ, somehow related:


This entry was originally posted at http://wizzard.dreamwidth.org/414193.html. It has comment count unavailable comments. Please comment there using OpenID.

2016-01

Частные государства

В июне американец Иеремия Хитон отыскал на карте кусочек африканской пустыни, который официально не принадлежит ни одному государству. Апеллируя к законам колониальной эпохи, он назвал его своим и требует признания у соседей. В будущем он планирует построить там процветающую монархию, а деньги собирается искать через краудфандинг. Apparat взял у Хитона интервью.


http://apparat.cc/world/king-of-the-north/

См. также:

https://ru.wikipedia.org/wiki/Провинция_Хатт-Ривер
https://ru.wikipedia.org/wiki/Силенд

This entry was originally posted at http://wizzard.dreamwidth.org/386574.html. It has comment count unavailable comments. Please comment there using OpenID.

2016-01

да что ж за засада такая-то

почти все письма от ми попадают в спам, стоит только попытаться написать людям “я хочу у вас купить то-то”.

при этом домен и айпи ни в одном блеклисте не состоит, вирусни там тоже не водится. но с гмыла письма доходят заметно чаще (не всегда тоже). вайтлист?

засада какая-то, вообщем :/ как с этим бороться? а то телефоны не все пишут, да и не всегда удобно звонить (ночью например…)