Previous Entry Share Next Entry
2016-01

про макулатуру

Самый длинный договор, который я лично подписывал, содержал 50 с чем-то страниц legalese мелким шрифтом.

Но он таки меркнет и становится бледной тенью, если посмотреть, какое количество макулатуры регламентирует деятельность банков, бирж, трейдеров и прочих участников рынка в США.

То есть, хм, сами тексты вполне себе структурированы и читабельны. Но вот их количество...
У меня пока что эстимэйт в миллионы страниц, но может быть там и больше...

Короче, очень занятная задача для information retrieval и natural language processing, да :)

This entry was originally posted at http://wizzard.dreamwidth.org/484130.html. It has comment count unavailable comments. Please comment there using OpenID.

  • 1
zhengxi June 12th, 20:18
information retrieval и natural language processing юридических текстов - жирная тема, фирмы с тысячами (или даже десятками тысяч?) сотрудников (то есть "чуть поменьше гугла") только этим занимаются.
но они не хипстерские и не на слуху, я вот даже названий вспомнить не могу.

Edited at 2017-06-12 08:19 pm (UTC)

justy_tylor June 12th, 20:26
Насколько я помню, подобные сервисы для лоеров заявлялись одной из ниш для IBM Watson. Об интеграциях не слышал.

Сама задача интересна, но способствует продлению жизни этого нечитаемого говна, так что если за те же деньги, то лучше что-то полезное.

sergey_cheban June 12th, 21:26
США - страна мелкого шрифта. Но этот мелкий шрифт вовсе не предназначен для того, чтобы его читали. Он предназначен для того, чтобы если кто-то начнёт отмазываться, что он же не знал того, что нормальным людям понятно и очевидно, ткнуть его в этот мелкий шрифт и сказать, что если бы он прочитал, то знал бы.

vit_r June 13th, 5:51
Проблема юридических текстов - это контекст и ссылки на внешние документы. Ссылки неявные. Потому машинная обработка может быть только предварительной.

olegy June 13th, 6:08
Когда учился в КПИ для меня была проблема - экзамены по "гуманитарным" дисциплинам - история КПСС, марксистско-ленинская философия, полит.экономия.
Помнится я пытался прочитав один раздел (5..10 страниц) составить план на листочке. У меня ничего не получалось, кроме вычитанных лозунгов.
Так и в этих договорах - после машинной обработки останется одна фраза - "мы ни за что не отвечаем, а вам следует сделать умное лицо" ;)

nivanych June 13th, 9:19
Не полностью в тему, но какими-то такими
https://legalese.com
методами, думаю, можно.

  • 1
?

Log in

No account? Create an account