Получение уникального контента с Youtube.com

Serejkeee

Работает по жести
23 Ноя 2013
46
439
21
Контент мы будем добывать с youtube.com, а именно, это субтитры, которые не индексируются поисковыми системами, сам youtube.com автоматически их создает при добавлении любого видео на сайт. Такого контента там очень много и найти 50-100к текста не займет более 10-и минут, сейчас вы сами в этом убедитесь. Также, помимо этого вы сами можете скачивать видео без субтитров и заново загружать их на ютуб. И вуаля, у вас будут нужные субтитры в считанные секунды. И вообще сама идея состоит в распознавании речи всякого обучающего и информационного видео или аудио, также можно распознавать различные тренинги и аудио-курсы, после этого нужно править текст руками.
Как это можно использовать рерайтерам описано в конце мануала.

Начало работы:

1. Переходим на youtube.com и вбиваем в поиск интересующую нас тематику(для примера я взял авто). Также, для того, чтобы искать сразу больше текста, настраиваем фильтр, чтобы показывало видео, которые идут >20 минут.

2. Открываем все видео подряд и смотрим, где будет значок субтитров, он обведен на рисунке ниже.

У нас это оказалось видео на первой странице:

3. Далее мы нажимаем на кнопку субтитров и проверяем их на уникальность.

Адвего показал нам, что она составляет целых 100%, что не может нас не радовать.

Вот собственно и вся методика по добыче. Также хочется дать несколько советов:

1.Подбирайте качественные информационные запросы, если интересует автомобильная тематика, то можно его сформировать как советы «автовладельцам» или «выбираем авто» , по ссылке видео по этому запросу.

Вот примеры видео с титрами, которые я нашел по запросы «выбираем авто»:

http://www.youtube.com/watch?v=_W2tTBQTmGs

http://www.youtube.com/watch?v=YrYZXekrjWg

http://www.youtube.com/watch?v=zMkQ-9nODB0

http://www.youtube.com/watch?v=sUmsJvOsmb0

http://www.youtube.com/watch?v=3MFQmzH3mAs

http://www.youtube.com/watch?v=oNtOUih3s9o

2. Фильтруйте короткие видео, т.к в них мало текста.

Обработка контента

Контент можно использовать и в готовом виде, но лучше его еще немного обработать таким софтом какDecorator и Afterscan, данные программы помогут придать им человеческий вид.

Кратко о обработке: удалить все цифры, добавить пробелы после знаков препинания и удалить лишние, в конце всех строк добавить точки и сделать чтобы все предложения начинались с заглавной буквы , в программе Afterscan автоматически заменить плохо-распознанные слова на человеческие ну и мелкие правки руками.

Также всю эту работу можно поручить школьникам, создав тему на фрилансе или школофорумах типомегасофта.

Райтерам

Рерайтеры могут использовать данную тему очень просто: забивать нужную вам тему, искать видео с субтитрами и править руками все субтитры, чтобы получился человеческий текст. Обычно очень много править не приходится и вы можете сократить время на написание статьи в несколько раз.
 

Prokaznic

Ищет темы
2 Дек 2013
2
1
1
39
Согласен с Вами целиком и полность, сам беру на автомобильный сайт. Вот бы еще найти для сайта Варезника - это уже трудней, сколько искал, так не чего на тему Софта не нашел(((
 
  • Like
Реакции: petrograd

Natalka

Оптимизирует
1 Июл 2014
279
140
11
Ukraine
usadbaplus.ru
Самое смешное, что сама как-то до такого додумалась. Только видно некачественное видео попалось и пришлось с правками возиться долго. Обычно музыка и посторонние шумы на качество текста влияют.
 

Totenkopf

Работает по жести
14 Апр 2015
1.851
369
36
37
constantinablog.su

Natalka

Оптимизирует
1 Июл 2014
279
140
11
Ukraine
usadbaplus.ru
а что это за информационный шум в тексте при парсинге идет? Причем это не только с парсера, а при сохранении субтитров другими средствами тоже.
 

Totenkopf

Работает по жести
14 Апр 2015
1.851
369
36
37
constantinablog.su
а что это за информационный шум в тексте при парсинге идет? Причем это не только с парсера, а при сохранении субтитров другими средствами тоже.
Это ИГИЛ! Простите не удержался.
 
  • Like
Реакции: roi

roi

Y.T.
26 Окт 2013
518
3.218
36

roi

Y.T.
26 Окт 2013
518
3.218
36

Bazkit

Оптимизирует
30 Янв 2015
280
132
11
megatop.biz
Я понял... Тут парсится то, что выдает ютуб. А как эту выдачу обработать для читабельности фиг знает.
Пример: есть видео с субтитрами http://youtu.be/DbhlWjGlICo
Для него есть xml файл с этими субтитрами http://www.youtube.com/api/timedtext?expire=1460140245&hl=ru_RU&signature=C8468FF565797AE8581688806A6AD8EB740B61F4.04B764C948A30B2960B943D64C6B8D49A8507703&v=DbhlWjGlICo&sparams=asr_langs,caps,v,expire&caps=asr&key=yttt1&asr_langs=en,pt,es,nl,ja,fr,de,it,ko,ru&kind=asr&lang=ru&fmt=srv1

Проанализируйте этот файл и если будут какие мысли, как его, например, разделить на предложения, делитесь. Код я напишу...
 

roi

Y.T.
26 Окт 2013
518
3.218
36
Я понял... Тут парсится то, что выдает ютуб. А как эту выдачу обработать для читабельности фиг знает.
Пример: есть видео с субтитрами http://youtu.be/DbhlWjGlICo
Для него есть xml файл с этими субтитрами http://www.youtube.com/api/timedtext?expire=1460140245&hl=ru_RU&signature=C8468FF565797AE8581688806A6AD8EB740B61F4.04B764C948A30B2960B943D64C6B8D49A8507703&v=DbhlWjGlICo&sparams=asr_langs,caps,v,expire&caps=asr&key=yttt1&asr_langs=en,pt,es,nl,ja,fr,de,it,ko,ru&kind=asr&lang=ru&fmt=srv1

Проанализируйте этот файл и если будут какие мысли, как его, например, разделить на предложения, делитесь. Код я напишу...
ок.. я подумаю