Собрали в одном месте самые важные ссылки
читайте авторский блог
При парсинге возникают совсем странные ошибки - одна из них - не валидный HTML. Т.е. с ошибками. Верстальщик забыл закрыть таблицу или body. Еще бывает что вставляют HTML из Word, а там тааккккооооой код.
Чтобы очистить HTML от мусора можно применять инструмент Tidy.